中科信利語種識別 首頁 > 技術產品 > 中科信利語種識別

中科信利語種識別引擎基本原理


對于語種的識別來說,由于一般人來說平時接觸的語種有限,本身對于語種的分辨能力就不是很強,所以從人的辨識機理去引申出指導機器進行自動語種識別的線索不太多。通常來說,分辨語種是通過由低到高幾層特征來進行的:

聲學特征:通常都是頻率域和倒譜域的特征參數。例如:美爾標度頻率倒譜系數(Mel-Frequency Cepstral Coefficients, MFCC)、移動差分倒譜系數(Shifted Delta CepstralSDC)等。

聲韻學特征:通常指的是聲音超音段韻律特征,主要包括:音高(基音,Pitch)、音強和音長(Duration),可以利用這些特征以及它們的動態變化進行語種識別。

音位配列學特征:這些特征依據一些語言之間的音節和音素不完全相同,雖然一些語言之間也有一些相同的部分,但是各個語言之間的音節和音素出現的頻率各不相同,此外在各個語言中音素和音節出現的前后關系也各不相同。

詞法特征:各個語言擁有不同的詞根和詞表,每種語言都有自己的詞表和各自的構詞法,因此可以對詞或詞對,來構建N元文法。

句法特征:句法格式各不相同。在一些歐洲語言中,可能相互之間比較接近,甚至有相同的單詞,但是他們的句法是不同的,例如在英語和德語中都有bin這個單詞,但是這個單詞前后能夠接的詞是各不相同的。

對于自動的語種識別技術來說,詞法和句法特征是語言中更為高層的信息,它們的提取需要目標語種的語音識別器,因此比較難推廣到多個語種而且系統復雜度也很大;聲韻學特征比較容易受其它因素的影響,如環境噪聲會造成韻律特征的提取出現較大的誤差,從而影響系統性能。

中科信利的語種識別技術將從聲學層特征和音子序列特征的提取,分別采用了聲學建模和語法建模的方法,來描述這些特征的空間分布情況,并且以此來構建高層的得分向量空間,通過分類器對得分向量進行劃分,以達到自動分類判決的目的,以使得語種識別技術能滿足實際的應用需求。

工作原理


1:中科信利語種識別引擎工作原理

如圖1所示中科信利語種識別引擎的基本原理圖。



預處理


語音分段

       識別引擎的前端分段是采用了貝葉斯信息判據(Bayesian information Criterion, BIC)將語音分段。目標是盡可能的保證每段語音只包含同一個說話人或者同一類非語音,比如:傳真音、震鈴、音樂。此外,也要保證檢測出的說話人或者同一類非語音的虛轉折點少。在貝葉斯信息判據的語音分段算法中,我們采用了巴氏(Bhattachayya)距離測度作為相鄰平滑窗間距離尺度。在這里,我們假設了相鄰窗的語音分布滿足獨立的高斯分布。然后按一定的步長移動這兩個相鄰的連續窗口,再計算兩窗數據間的距離,從而得到一條距離測度曲線。最后按照一定的門限設置規則找出曲線上可能的聲學變化點。


噪聲檢測

噪聲檢測模塊是針對電話語音數據中包含的傳真音、震鈴、音樂彩鈴等非有效說話人語音。我們采用基于規則的方法來檢測傳真音和震鈴,這些類型的垃圾語音沒有明顯的協波結構。此外,我們采用了基于統計的方法來檢測音樂彩鈴噪聲,選擇32個混合高斯來描述音樂采鈴,同時對有效語音也做了建模。經過分類可以較有效的找出彩鈴噪聲。


特征提取

在語種識別技術中,選取能夠表征語種類別特征的有效而可靠的特征參量,是保證識別性能的重要因素之一。語音信號的長時差分頻譜特征,包含了語音信號中的語義信息、說話人信息、語種信息。分析語音信號的頻譜特性可以用來確認各個目標語種。目前常用的基本頻譜特征參數大多數采用的是低層聲學特征,例如線性預測倒譜系數(Linear Predictive Cepstrum CoefficientLPCC)、Mel 頻率倒譜系數(Mel-Frequency Cepstrum CoefficientMFCC)和感知線性預測系數(Perceptual Linear PredictivePLP)等等。中科信利的語種識別系統采用了頻譜特征MFCC,并通過長時的移動差分變換來進行處理。


模式匹配

這里所說的模式匹配,指的是通過建立統計模型,將低層聲學特征轉換為高層的得分向量特征。前文的介紹中也提到了,可以采用高斯混合模型、支持向量機等建模技術直接對底層的語音特征進行描述;也可以采用音子解碼器進行解碼,對解碼的音子串進行N元語法建模,以此來描述語法層的語種特征。因此我們按照非線性映射的方法不同,將語種識別系統劃分為兩類:基于聲學建模的語種識別系統和基于語法建模的語種識別系統。

針對基于語法建模的語種識別系統,因為引入了音子識別器,所以對音子聲學模型的描述顯得尤為重要。聲學模型是語音識別系統中最關鍵的部分,聲學建模的目標是計算語音特征向量序列和每個發音模板之間的概率。聲學模型的設計就是找到最小的識別單元并為之建立HMM模型,它與語言的發音特點密切相關,識別單元的大小對語音訓練數據量的大小、識別率和靈活性有較大影響。同時在對識別出的音子建立語法模型時,我們采用了三元文法的語言模型建模方法,并引入了反模型技術以增加各個語種的區分度。

中科信利的語種識別系統中,目標是對各個待識語種建立可靠模型,保證語種識別系統的性能。從建模角度出發,在當前的技術架構中我們采用了基于區分性分類器的支持向量機方法(Support Vector Machine, SVM)。基于支持向量機方法對目標語種與非目標語種之間的分類平面進行建模。支持向量機通常基于最大邊界理論,將目標語種與非目標語種在最大邊界條件下分開。


判決規則

語種識別系統的輸出一般都是對各個目標語種有個打分,這些得分都是通過將測試語音同模型庫進行似然概率計算或者進行距離度量所得到。與關鍵詞系統中置信度的概念相同,這些得分正是判決的依據。同說話人識別系統類似,語種識別系統的判決模塊采用的是基于假設檢驗的思想,系統的性能通過門限來調節。在此過程中,語種識別系統可能發生兩類錯誤:一是識別目標語種被錯誤拒絕;二是非目標語種被錯誤接受。

中科信利語種識別引擎體系結構

 

中科信利語種識別引擎提供兩種應用模式

一種是在PC機調用單機版的應用程序接口,來實現語種識別功能。這種應用模式通常是在離線、并且待處理的語音數據相對較少的情況。通常,這種應用模式比較方便的使用批處理方式,對客戶已經保存的數據進行語種檢測和分類。

另一種是通過中科信利分布式說話人識別技術處理客戶端接口,通過該接口來訪問中科信利分布式說話人識別處理環境。這種模式適用于希望直接使用的分布式說話人識別處理能力以同時支持大規模的應用。

{C}{C}



圖2:分布式語種識別系統架構

大容量級別應用中,可以將語種識別引擎作為一個服務放在電信網絡中。在使用語種識別客戶端接口來訪問中科信利分布式語種識別處理環境時,需要相關的支持,如上圖2所示。語種識別引擎包含如下部分:

許可服務器LicSvr:許可服務器可以對中科信利的軟件所需要的許可進行集中管理。

資源管理器RmSvr:資源管理器可以對語種識別資源進行動態管理,實現負載均衡。

語種識別服務器MeldRecSvr:開啟任務,識別輸入語音的語種信息。

我們稱上圖2所示的分布式處理系統為一個語種識別處理集群:在同一段網絡中,可以有一個或若干個集群。在大規模的應用中,由于網絡帶寬有限,可能需要劃分若干個集群用網絡交換機隔離不同集群的網絡負荷。

用戶可根據應用需求選擇合適的應用系統架構。系統所要同時支持的用戶數是最重要的因素。在中大規模的應用中,為了系統管理方便和達到性能要求,必須采用分布式語種識別處理方案。

語種識別引擎功能

中科信利語種識別引擎的特點

與發音人無關,與傳輸信道無關。系統對用戶的輸入聲音進行鑒別和確認,可以來源不同的信道,比如:移動電話中的GSM信道和CDMA信道,以及固話PSTN信道等等。

對語音長度有一定的要求。待識別的測試語音有效長度不小于3秒。

識別率。參考指標:美國國家技術標準局NIST說話人識別評測, 200530秒電話語音測試任務上,等錯率指標為1%。其中:電話信道包括(固話,GSMCDMA實網數據,PSTN固話錄音);信噪比大于10db

識別速度快,能確保實時識別。說話人識別引擎每次一對一比對,在普通PC上具有0.01倍以上的實時率,并且支持多路并發識別。

操作點調整方便:可按不同的應用需求調整操作點閾值,可以調整虛警率和漏警率,使最終準確率達到最高或使錯誤率降到最低。

支持自動添加新語種的訓練,滿足用戶擴充。

性能指標

項目

指標

語種識別

語種識別準確率

95%

 

  • 如何稱呼您?
  • 如何聯系您?
  • 留言給我們

北京中科信利技術有限公司

電 話:010-82547570-132 傳 真:010-82547553 公司地址:北京市海淀區北四環西路21號DSP大樓

掃一掃關注我們

Copyright©2017 北京中科信利技術有限公司 版權所有  技術支持:中萬網絡
X
X
apex英雄韩服