中科信利聲紋識別 首頁 > 技術產品 > 中科信利聲紋識別

中科信利說話人識別基本原理

語音是由發聲器官運動產生的。發聲器官包括喉、聲道和嘴。氣流通過喉中的聲門,引起聲帶的周期性振動,形成周期性的脈沖串并進入聲道,周期性脈沖的周期稱為基音周期。氣流從喉向上經過口腔或鼻腔后從嘴或鼻孔向外輻射,其間的傳輸通道稱為聲道。聲道是具有某種諧振特性的腔體,當氣流通過時,輸出的氣流頻率特性,即聲門脈沖串的特性,取決于聲道的特性。嘴的作用是完成氣流的向外輻射,嘴張開時的形狀對語音頻譜有影響,但較聲道次之。

發聲的器官和過程確定了語音中特定說話人信息的形式,其中聲道的形狀是最重要的生理因素。另外,發聲的習慣,包括發聲速度、韻律和口音構成了語音中特定說話人信息的后天行為因素。語音中的特定說話人信息構成了說話人識別的基本要素。

說話人識別的基本原理是通過分析人的發聲和聽覺,為每個人構造一個獨一無二的數學模型,由計算機對模型和實際輸入的語音進行精確匹配,根據匹配結果辨認出說話人是誰。 ""的生物特性既存在于聲譜表面(聲道特性),也存在于聲音的來源或數個不連續的聲音片斷。從人的這些特性中提取出有效的音頻特征,進行數學建模,并將與之相關的特征數據存進數據庫。說話人識別服務器根據輸入的音頻特征在數據庫里進行檢索,從而進行精確匹配。


基本工作原理

 


如圖1所示中科信利說話人識別引擎的基本原理圖。

    預處理

去噪

對輸入的模擬語音信號進行量化和采樣,獲得數字化的語音信號;再將含噪的語音信號通過去噪處理,得到干凈的語音信號后并通過預加重技術濾除低頻干擾,提升語音信號的高頻部分。


端點檢測

采用語音信號的短時能量和短時過零率進行端點檢測。語音信號的采樣頻率為8kHz,每幀數據為20ms,共計160個采樣點。每隔20ms計算一次短時能量和短時過零率。通過對語音信號的短時能量和短時過零率檢測可以剔除掉靜默幀、白噪聲幀和清音幀,最后保留對求取基音、LPCC等特征參數非常有用的濁音信號。


特征提取

在語音信號預處理后,接著是特征參數的提取。特征檢測的任務是選取唯一表現說話人身份的有效且穩定可靠的特征。

說話人識別系統中的特征檢測即提取語音信號中表征人的基本特征,此特征應能有效地區分不同的說話人,且對同一說話人的變化保持相對穩定。考慮到特征的可量化性、訓練樣本的數量和系統性能的評價問題,目前的說話人識別系統主要依靠較低層次的聲學特征進行識別。
 

說話人特征

譜包絡參數語音信息通過濾波器組輸出,以合適的速率對濾波器輸出抽樣,并將它們作為說話人識別特征。

基音輪廓、共振峰頻率帶寬及其軌跡 這類特征是基于發聲器官如聲門、聲道和鼻腔的生理結構而提取的參數。

線性預測系數使用線性預測系數是語音信號處理中的一次飛躍,以線性預測導出的各種參數,如線性預測系數、自相關系數、反射系數、對數面積比、線性預測殘差及其組合等參數,作為識別特征,可以得到較好的效果。主要原因是線性預測與聲道參數模型是相符合的。

反映聽覺特性的參數模擬人耳對聲音頻率感知的特性而提出了多種參數,如美倒譜系數、感知線性預測等。

此外,人們還通過對不同特征參量的組合來提高實際系統的性能,當各組合參量間相關性不大時,會有較好的效果,因為它們分別反映了語音信號的不同特征。


模式匹配

模式匹配的任務是對訓練和識別時的特征模式做相似性匹配。目前針對各種特征而提出的模式匹配方法方法大體可歸為下述幾類:

 

概率統計方法

語音中說話人信息在短時內較為平穩,通過對穩態特征如基音、聲門增益、低階反射系數的統計分析,可以利用均值、方差等統計量和概率密度函數進行分類判決。其優點是不用對特征參量在時域上進行規整,比較適合文本無關的說話人識別。

 

動態時間規整方法

說話人信息不僅有穩定因素(發聲器官的結構和發聲習慣),而且有時變因素(語速、語調、重音和韻律)。將識別模板與參考模板進行時間對比,按照某種距離測定得出兩模板間的相似程度。常用的方法是基于最近鄰原則的動態時間規整DTW


矢量量化方法

矢量量化最早是基于聚類分析的數據壓縮編碼技術。Helms首次將其用于說話人識別,把每個人的特定文本編成碼本,識別時將測試文本按此碼本進行編碼,以量化產生的失真度作為判決標準。Bell實驗室的RosenbergSoongVQ進行了孤立數字文本的說話人識別研究。這種方法的識別精度較高,且判斷速度快。


隱馬爾可夫模型方法

隱馬爾可夫模型是一種基于轉移概率和傳輸概率的隨機模型,最早在CMUIBM被用于語音識別。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發聲系統狀態序列的輸出。在使用HMM識別時,為每個說話人建立發聲模型,通過訓練得到狀態轉移概率矩陣和符號輸出概率矩陣。識別時計算未知語音在狀態轉移過程中的最大概率,根據最大概率對應的模型進行判決。HMM不需要時間規整,可節約判決時的計算時間和存儲量,目前被廣泛應用在文本相關的說話人識別系統上。


人工神經網絡方法

人工神經網絡在某種程度上模擬了生物的感知特性,它是一種分布式并行處理結構的網絡模型,具有自組織和自學習能力、很強的復雜分類邊界區分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。其缺點是訓練時間長,動態時間規整能力弱,網絡規模隨說話人數目增加時可能大到難以訓練的程度。

  中科信利把以上分類方法與不同特征進行有機組合顯著提高說話人識別的性能,在特征提取的模塊中,我們使用MFCCLPCC算法,在模式識別的模塊中,我們采用了改進的GMMSVM模型結合的算法。并且根據大量的用戶數據,我們采用了PCA分析,將特征向量的線性相關性降到最低,以達到更好的識別效果。

對于說話人確認系統,表征其性能的最重要的兩個參量是錯誤拒絕率和錯誤接受率。前者是拒絕真實的說話人而造成的錯誤,后者是接受假冒者而造成的錯誤,二者與閾值的設定相關。說話人確認系統的錯誤率與用戶數目無關,而說話人辨認系統的性能與用戶數目有關,并隨著用戶數目的增加,系統的性能會不斷下降。



中科信利說話人識別引擎體系結構

中科信利說話人識別引擎提供兩種應用模式

一種是在PC機及手持式設備上,需要進行用戶身份的識別,從而允許或拒絕用戶登陸電腦或者使用某些資源,或者進入特定用戶的使用界面。同樣采用傳統的用戶名加密碼的保護機制,存在著用戶名和密碼泄密、被竊取、容易遺忘等問題。

說話人識別技術應用到PC以及手持式設備上面,可以無須記憶密碼,保護個人信息安全,大大提高系統的安全性,方便用戶使用。例如在Mac OS 9操作系統中就增加了說話人識別的功能。用戶不需要通過鍵盤輸入用戶名和密碼,只需要對著電腦說一句話就可以進行登陸。

另一種是通過中科信利分布式說話人識別技術處理客戶端接口,通過該接口來訪問中科信利分布式說話人識別處理環境。這種模式適用于希望直接使用的分布式說話人識別處理能力以同時支持大規模的應用。



圖 2:分布式說話人識別系統架構

 

大容量級別應用中,可以將說話人識別引擎作為一個服務放在電信網絡中。在使用說話人識別客戶端接口來訪問中科信利分布式說話人識別處理環境時,需要相關的支持,如上圖2所示。說話人識別引擎包含如下部分:

許可服務器LicSvr:許可服務器可以對中科信利的軟件所需要的許可進行集中管理。

資源管理器RmSvr:資源管理器可以對說話人識別資源進行動態管理,實現負載均衡。

說話人識別服務器MeldRecSvr:進行說話人識別處理。

我們稱上圖2所示的分布式處理系統為一個說話人識別處理集群:在同一段網絡中,可以有一個或若干個集群。在大規模的應用中,由于網絡帶寬有限,可能需要劃分若干個集群用網絡交換機隔離不同集群的網絡負荷。

用戶可根據應用需求選擇合適的應用系統架構。系統所要同時支持的用戶數是最重要的因素。在中大規模的應用中,為了系統管理方便和達到性能要求,必須采用分布式說話人識別處理方案。

 

中科信利說話人識別引擎的功能

中科信利說話人識別引擎的特點

對說話人識別與所說的文本和語言無關性。用戶訓練系統和系統對用戶的聲音進行鑒別和確認,可以是完全不同的文本,完全不同的語言。

對語音長度有一定的要求。訓練語音的有效長度不小于60秒,使用時的測試語音有效長度不小于3秒,并可不斷累積調整聲音波形模型精度;用戶訓練系統,讓其記住其聲音波形,只需要幾秒種的聲音;而在識別時,系統只要獲得被測試人幾秒的聲音,就可以進行說話人識別。

識別率。參考指標:美國國家技術標準局NIST說話人識別評測, 2006年電話語音 “1side1side”測試任務上,等錯率指標為4%。其中:電話信道包括(固話,GSMCDMA實網數據);信噪比大于10db;支持夸語種。

識別速度快,能確保實時識別。說話人識別引擎每次一對一比對,在普通PC上具有0.001倍以上的實時率,并且支持多路并發識別。

操作點調整方便:可按不同的應用需求調整操作點閾值,可以調整虛警率和漏警率,使最終準確率達到最高或使錯誤率降到最低。

說話人識別的模型存儲空間小:每個人的聲音波形模型存儲空間小于100KB

高安全性,不擔心他人的錄音頂替使用:如果別人用各類錄音設備(比如錄音機、MP3、錄音電話、竊聽器、高精度的專業錄音系統等)事先錄下您的聲音,即使錄音設備先進、錄音效果非常好,在把錄音回放嘗試進行聲音波形的身份認證時,聲音信號經過模擬到數字、再從數字到模擬的兩次信號轉換過程,聲音的頻譜就會有明顯的衰減和失真,這種失真很容易被聲音波形加密鎖的認證程序分辯出來。所以依靠錄音去嘗試登錄,不能通過說話人識別認證。

 

性能指標

項目

指標

說話人識別

說話人識別準確率

95%

 

  • 如何稱呼您?
  • 如何聯系您?
  • 留言給我們

北京中科信利技術有限公司

電 話:010-82547570-132 傳 真:010-82547553 公司地址:北京市海淀區北四環西路21號DSP大樓

掃一掃關注我們

Copyright©2017 北京中科信利技術有限公司 版權所有  技術支持:中萬網絡
X
X
apex英雄韩服 3的组三遗漏统计 豪利棋牌官方下载 九乐棋牌官网平台 羽毛球馆 北京pk10一码人工计划 开个理发店怎么赚钱 双色球篮球复式中奖规则及奖金 银河棋牌软件下载 足球比分亚冠 辽宁11选5推荐号码 欢乐生肖论坛 亚盘分析法 开元棋牌官网下载平台 买时时彩怎么赚钱 广东11选5计算器 泳坛夺金游戏