中科信利語音合成 首頁 > 技術產品 > 中科信利語音合成

中科信利語音合成系統是自主研發的中英文混讀語音合成系統。該系統以先進的大語料語音合成技術為基礎,能夠實時、準確的將文本信息轉換為自然、流暢的語音,是一種能夠在任何時間、任何地點,向任何人提供語音信息服務的高效便捷手段,符合信息時代海量數據、動態更新和個性化查詢的需求。

TTS引擎系統架構

中科信利TTS多語種語音合成平臺采用開放式架構設計方法,對外提供一套統一的編程接口,對內通過多語種引擎管理模塊,完成多語種引擎的自動掛接與語音合成工作,而且可以很方便地添加其他語種的引擎。

TTS技術指標

項目 指標
支持操作系統 Windows XP/Win7/Win8/WinServer2008,Linux
支持字符集 支持 GB2312, GBK, GB18030,Big5,Shift-JIS, ISO 8859-1, Unicode,, Unicode Big Endian, UTF-8
支持的音庫 XiaoNan、XiaoKun 等 9 種音庫
支持的文本類型 普通的文本文件
支持的文本控制語言 支持 SSML 和 S3ML 標記語言
支持的音頻格式 支持 PCM、Wave、aLaw/uLaw、Mp3,Dialogic ADPAM
支持音量調節 支持,默認 0-9
支持語速調節 支持,默認 0-9
支持基頻調節 支持,默認 0-9(這個調節音色)
支持中英文混讀 支持
數字讀法 支持電報方式和數目方式
英文讀法 支持英文方式,字母方式,字母和錄音單詞方式
標記識別 支持
推薦服務器配置 Xeon 2.4G*2, 1G Ram, SCSI 18G,, 100M 交換網
合成效率(在上述服務器配置下) 單線達到 663字/秒,10 線達到 1780 字/秒,30 線達到 1768 字/秒,60 線達到 1735 字/秒

中科信利語音合成引擎的功能和特點

 

2.1 語音合成引擎的關鍵技術

1.高度智能的文本處理能力

中科信利語音合成引擎基于先進的統計學習和數據挖掘的方法,建立統計模型對文本進行節奏預測和對多音字、數字和符號進行處理,使其在統計意義上達到最優。


 

2、高自然度的節奏和韻律預測

節奏和韻律是合成語音是否具有高自然度的關鍵所在。中科信利語音合成采用世界領先的統計學習方法對輸入文本進行節奏預測和韻律分析預測,其中包括韻律詞、韻律短語邊界劃分,詞重音的分布,各個語音單元的基頻、時長等。合成語音節奏感清晰明朗,韻律極為自然,接近真人發音的自然度。

3、多語種、多發音人

中科信利語音合成提供了多語種的合成引擎,每個語種又提供多風格和音色的發音人,以滿足各種不同的應用需求。


 

4、靈活的播放調節功能和多種特殊效果

中科信利語音合成支持對合成語音進行靈活的調節,如語速,音調。另外,還支持多特殊的音效,如低沉音,機器音和沙啞音等。極大的豐富了語音播報的娛樂性和趣味性。



5、韻律標注

在有些應用場合下,用戶希望可以不用 中科信利語音合成自動分析和預測的結果,而自己設置朗讀的方式,如一些字的發音,整句語音的節奏分布等。為了滿足這一類用戶的個性化定制朗讀方式的需求,中科信利語音合成提供一套標注方法。通過這套方法對文本進行標注后,就可以靈活控制合成語音的朗讀方式,實現定制的需求。?

6、多種代碼頁的支持

中科信利語音合成支持常見的文本編碼格式,如UTF-8,GB2312,GBK,BIG5等,多編碼格式的支持正在不斷擴充之中。語音庫覆蓋了國標一、二級所有漢字以及所有英文單詞。同時能對文本的編碼格式進行自動判斷和處理。面對各種來源的文本,中科信利語音合成都能輕松應對。?

7、高品質的語音合成效果

該平臺基于最新的任意文本語音合成研究成果,集成了智能的文本分析算法,有針對特定文本領域進行優化的定制合成引擎。?

8、靈活的系統架構

該平臺采用了面向對象以及模塊化設計的思想,具有非常靈活的系統架構。在統一的系統架構下,可掛接多種的語音合成處理引擎;完全實現了代碼和資源的分離,可更好的適應某些硬件應用場合;允許在運行態動態插入自定義的處理模塊,使得用戶可以方便的增加新的處理算法模塊,有良好的擴展性。?

高度可裁減性和定制能力:該平臺實現了算法可裁減,有多種不同復雜度的語音算法可以選擇;功能可裁減,有多種語音算法引擎和聲音處理模塊可以選擇;尺寸可裁減,支持多種可配置的語音合成算法和語音編解碼算法,根據效果不同,尺寸可以進行變化;可自定義詞典、預錄音、針對特定文本領域的語音合成引擎等。?

2.2 語音合成引擎的功能

支持多語種,支持多領域的設置:目前支持中文、英文、粵語、日文等語種,支持金融證券、天氣預報、體育賽事、公交信息、旅游餐飲、汽運、排隊叫號、名家金曲、保險、航空、稅務和電力等領域。?
持音色的查找、訪問、加載:主導個性化語音服務新潮流,提供豐富、風格多樣化的音色選擇,如渾厚醇正的男聲,成熟穩重、輕快活潑、或溫柔甜美的女聲,標準地道的英語女聲,甚至童聲
少男、少女,老年人等等。用戶可根據不同應用業務需要,選擇最適合應用場景的語音風格,并支持實時動態的音色切換。
提供統一配置和管理工具,能夠完成全局參數配置、用戶詞典、用戶規則、定制資源包管理等功能。
支持SSML(語音合成標記語言,Speech Synthesis Markup language),可以對多種特性進行靈活標注與控制。 
可以直接播放文本文件,使得合成操作更加方便快捷。
支持GB包括GB2312,GBK,GB18030)、Big5、Shift-JIS、ISO-8859-1、Unicode、UnicodeBig Endian、UTF8 等各種字符集,自動識別具有 BOM 標記的 Unicode 文本。 
支持同步、異步合成一個 Session,通過被動的回調函數方式給用戶傳遞數據。在原有版本的主動獲取語音數據的基礎上又多了一個選擇。 
支持背景音樂,這樣的話就可以在合成語音的時候播放輕松歡快的音樂。
可以外掛語音格式轉換程序和文本抽取程序。
支持 Java 編程語言。

2.3 語音合成引擎的特色

   多語種,適應不斷發展的業務需求

支持普通話標準語種及粵語、英語等多語種,包含業界創新的普通話與英語同音混讀,適應不同語音應用業務的需求。多引擎管理接口可不同語種的系統提供一致化的訪問界面,應用層可以靈活透明的選擇所需的語音合成語種,并支持實時語種切換。 

   多音色,滿足不同 環境的個性化應用

主導個性化語音服務新潮流,提供豐富、風格多樣化的音色選擇,如渾厚醇正的男聲,成熟穩重、輕快活潑、或溫柔甜美的女聲,標準地道的英語女聲,甚至童聲,少男、少女,老年人等等。用戶可供根據不同應用業務需要,選擇最適合應用場景的語音風格,并支持實時動態的音色切換。 

   多領域支持 

中文引擎提供了多個領域的優化資源包。例如,在天氣預報領域提供了利用模板拼接技術的特定領域音庫,在大金融、旅游餐飲、體育賽事等領域提供了特定領域詞庫、預選音音庫等。通過這些針對不同專業領域的優化資源包,可以大大提高特定領域文本的合成效果。

   智能文本預處理和分析的改進 

中文引擎在預處理部分的提升: 
采用了基于分詞和詞性標注一體化的前端分析算法以及基于統計的韻律詞分析算法,提供了更好的韻律分析結果,閱讀更為自然流暢。 
多音字處理算法的改進,使得多音字的誤讀率大為下降。 
改進數字符號讀法的分析算法,數字符號的讀法的閱讀準確率更高。同時支持數字、符號讀法的外部規則使用,提供給用戶自行定義數字符號讀法的方法。

   支持背景音混合 

中科院聲學所TTS 5.0擁有對背景音混合的支持,管理員可以通過系統提供的“平臺資源管理工具”添加多種背景音樂,用戶在使用時可以通過參數進行指定,使背景音樂與語音合成同步輸出。
 

應用場景

   多語種,適應不斷發展的業務需求

支持普通話標準語種及粵語、英語等多語種,包含業界創新的普通話與英語同音混讀,適應不同語音應用業務的需求。多引擎管理接口可不同語種的系統提供一致化的訪問界面,應用層可以靈活
透明的選擇所需的語音合成語種,并支持實時語種切換。 

  • 如何稱呼您?
  • 如何聯系您?
  • 留言給我們

北京中科信利技術有限公司

電 話:010-82547570-132 傳 真:010-82547553 公司地址:北京市海淀區北四環西路21號DSP大樓

掃一掃關注我們

Copyright©2017 北京中科信利技術有限公司 版權所有  技術支持:中萬網絡
X
X
apex英雄韩服