中科信利語音識別 首頁 > 技術產品 > 中科信利語音識別

中科信利連續語音識別引擎基本原理

面對狹小的手機鍵盤,如何快速地輸入文字,如何方便地進行信息搜索;面對海量的音頻數據,如何進行快速的檢索,從中找到自己想要的信息;面對繁忙的客服業務,是否有可能采用語音機器人來代替人工進行服務。所有類似這些應用,目前都逐一成為了現實,其背后就是語音識別技術。

中科信利連續語音識別引擎(又稱為聽寫機引擎),針對在線音頻流(即來自說話人直接錄入的語音,或者電信、廣播電視臺或其他領域的實時音頻信號)或者歷史音頻數據進行識別,將音頻信息自動轉化成文字。可覆蓋漢語中絕大多數詞語,適用于說普通話的任何人群。輸出的結果都是漢字,兼容數字、英文字母。

通過將用戶的在線語音流實時轉化成文本,人們可以方便地在手機上輸入文字;或者說一句話(“例如請幫我查下今天的天氣”),就可以便捷地通過手機/電視等進行信息查詢;通過將歷史語音數據資料統統轉化成文本,可給用戶的媒體檔案庫查詢提供最大便利,無論何時用戶想要調出所需的記錄,只要通過查找相應文字并簡單點擊,相關的語音片斷就找到了。

 

語音識別的基本原理介紹

在輸入的聲音中,首先需要檢測出可靠的語音斷,排除噪聲、音樂等,然后實時或離線送入語音識別解碼器進行識別。識別引擎把音頻中提取出的語音分成25毫秒一幀,提取有用特征,然后識別出一些類似拼音的結果(聲學模型),再根據漢語字詞句之間的搭配概率(語言模型),綜合判斷,得到漢字文本的輸出結果。當然,對于候選范圍考慮的越多(beam路徑越大),識別準確率相對提高,同時消耗的時間也增加了。所以我們有優化加速策略,及時排除不可能的結果,避免系統過慢。用戶可以通過調節這些參數來平衡識別識別率和速度,以滿足實際應用的需要。最后返回的識別結果,以基本詞語為單位給出了多種可能(1到五種)的結果以及可能性大小供用戶參考選擇。

需要說明的是,對識別正確率以及識別速度來說,輸入語音的質量是很重要的。聲音采集時應盡可能的排除噪聲和音樂、適當增大音量,識別效果就會更好,因此建議用戶在錄音的時候選用質量較好的采集設備(例如麥克風,或者錄音系統等等)。

 

引擎架構和基本流程

下圖給出了連續語音識別引擎的基本架構圖:


               
1. 語音識別引擎架構圖

 

系統流程

語音識別引擎包括音頻過濾、語音分段、特征提取、解碼、聲學模型、語言模型、重估等模塊。

引擎基本流程如圖1所示,首先對輸入的音頻數據進行自動分類,過濾掉彩鈴、振鈴、傳真、音樂以及其他噪音,保留有效用戶語音數據,然后進行自動分段和端點檢測,獲取逐句的有效語音數據,然后將其送入特征提取和處理模塊提取聲學特征,接著對于提取的聲學特征進行解碼,解碼過程利用發音字典、聲學模型、語言模型等信息構建WFST搜索空間,在搜索空間內尋找匹配概率最大的最優路徑,得到識別結果文本。后續可采用重估模塊,增加其他知識源,進一步提升語音識別引擎的準確率。

總之,音頻過濾、語音檢測、識別、自適應等模塊合在一起,最后根據需要格式得到結果,構成了最終的聽寫機引擎系統。

 

中科信利連續語音識別引擎的技術優勢、功能和性能

技術優勢

中科信利語音識別核心引擎采用中科信利具有自主知識產權的國際領先的大詞匯量連續語音識別技術。主要技術優勢包括:


技術評測第一

中科信利連續語音識別引擎,在國內語音技術評測中多次獲得第一名,包括國家863評測,中央網信辦評測,工信部評測,國家相關部委評測,等等。


識別準確率高

采用PLP/CMN /HLDA/ VTLN等特征提取和處理技術;

采用業界領先的雙向長短時記憶(BLSTM)深度神經網絡(DNN)聲學建模技術;

采用基于序列化的鑒別性模型訓練算法;

采用高階文法和深度神經網絡的統計語言模型技術;

采用大量實網語音的訓練數據庫,適應用戶自然口語發音特點和地方口音特點。

積累了大量的分類文本語料,使得語言模型能夠較好地覆蓋各個領域。


抗噪性好

在噪聲環境能夠達到較好的識別性能。

采用兩遍的維納濾波技術消除背景噪聲;采用混合高斯建模的方法去除垃圾語音(鈴聲、笑聲、咳嗽聲等非自然人語音);采用諧波檢測技術有效檢測語音起始點。

從人的聽覺感知及發音機理等現有基礎研究成果出發,分析提取具備抗噪性、鑒別性、互補性的特征參數。

在訓練數據和聲學建模等方面也都充分考慮了自然環境噪聲的干擾,并且采用多條件的訓練策略,能夠顯著提高對于噪聲的穩健性。


識別速度快

采用基于WFSTCross-word靜態搜索空間構建方法,有效地單遍集成各種知識源,將聲學模型、聲學上下文、發音詞典、語言模型等知識源靜態編譯成狀態網絡;

通過充分的前向后向歸并算法優化網絡,大幅度精簡了搜索網絡空間;

在識別率相當的情況下,比WFST開源工具包解碼速度快4倍以上。


適應能力強

采用模型自學習技術,適應多種地區的用戶口音。

采用基于最小化句子錯誤率的鑒別性訓練準則進行聲學模型自適應,可針對特定地區的實網用戶口音數據進行自適應訓練優化,以適應不同地區的用戶口音。

采用語言模型自適應優化技術,基于實網業務文本數據進行語言模型自適應優化訓練,可以適應不同業務領域的語音識別任務。


支持語種多

核心算法與語種無關,即系統支持語種可移植,目前已支持漢語普通話、英語、韓語和粵語等語言的識別。

 

引擎的功能特點和性能

能夠自動將連續語音的內容轉成文字,支持在線語音流實時識別或離線語音數據識別。

可以實時對語音分段,可自動分辨和過濾背景音樂、噪聲等非表義音頻段。

識別結果除了文字外,還可同時給出時間索引信息(精確到每個詞),有利于進行多媒體信息檢索;多候選信息為人工校對提供方便。

引擎支持多線程,支持針對海量數據的并行處理。

引擎提供標準C接口,可供C/C++及各種語言的開發者直接調用。

語音識別平臺支持TCP/HTTP/MRCP/等網絡協議。

能夠提供方便靈活的開發接口,多項參數可調,使用戶可以方便靈活地進行應用開發。

語音識別引擎準確率性能如下:

對于朗讀類型語音(如:手機語音輸入類語音、廣播電視新聞語音等),識別準確率在90%以上,經過模型優化訓練以后能達到95%

對于自然對話類型語音(如:電話自然交談語音、電視訪談語音),識別準確率為80%,經過模型優化訓練以后能夠達到85%

語音識別引擎的速度性能:

在普通臺式機上可以達到1倍實時。

并發性:針對普通服務器(Intel Xeon E5 cpu, cpu 八核),可支持32路語音數據流的實時識別(或相當于服務器1小時能夠處理32小時的語音數據)

 

引擎應用和配置

引擎應用模式

中科信利連續語音識別引擎API提供兩種應用模式:

一種是在線實時錄音,實時檢測語音并進行識別。這種方法適合用于需要實時獲得說話內容的場合。例如:智能語音導航系統、手機語音助手、會議語音識別系統等應用。

另一種是離線讀入錄音文件進行識別,可以充分的利用聚類、實時自適應等技術,把語音的內容充分分析,進一步提高識別準確度。這種模式適用于希望取得精確文本內容,而對實時性要求不高的應用。例如:智能語音分析系統,廣電語音識別系統,等等。

引擎資源配置

硬件環境

PC/服務器

CPU: 性能相當于Intel I5 2.2GHZ以上或兼容(推薦Intel E5 cpu),雙核

內存:8GB以上(建議為16GB以上),200GB以上硬盤

軟件環境

PC/工作站/服務器:WIN XP/Win7/Win Server2008等操作系統,

                  Linux Redhat\CentOS\Suse等操作系統

引擎應用領域

在手機語音輸入、智能語音導航、智能語音分析、多媒體信息檢索和會議記錄系統等領域具有非常廣泛的用途。

  • 如何稱呼您?
  • 如何聯系您?
  • 留言給我們

北京中科信利技術有限公司

電 話:010-82547570-132 傳 真:010-82547553 公司地址:北京市海淀區北四環西路21號DSP大樓

掃一掃關注我們

Copyright©2017 北京中科信利技術有限公司 版權所有  技術支持:中萬網絡
X
X
apex英雄韩服 欧乐棋牌大厅下载 87 88年做什么最赚钱 挖矿真能赚钱吗 电玩城777注册送分版 除权是赚钱还是亏本 打标激光机赚钱吗 山东体育彩票快乐扑克3 足彩半全场的购买经验 1378棋牌游戏网址 500只鸡赚钱吗 体彩福建22选5开奖查询 网络赚钱平台+知乎 吉林时时彩玩法规则 6场半全场随机 双色球现场开奖直播2019065 新疆18选7玩法