語音識別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù)。作為智能計算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。
隨著現(xiàn)代科學(xué)的發(fā)展,人們在與機(jī)器的信息交流中,需要一種更加方便、自然的方式,而語言是人類最重要、最有效、最常用和最方便的通信形式。這就很容易讓人想到能否用自然語言代替?zhèn)鹘y(tǒng)的人機(jī)交流方式(如鍵盤、鼠標(biāo)等)。人機(jī)自然語音對話就意味著機(jī)器應(yīng)具有聽覺,能“聽懂”人類的口頭語言,這就是語音識別(Speech Recognition)的功能。語音識別是語音信號處理的重要研究方向之一,它是一門涉及面很廣的交叉學(xué)科,與計算機(jī)、通信、語音語言學(xué)、數(shù)理統(tǒng)計、信號處理、神經(jīng)生理學(xué)、神經(jīng)心理學(xué)、模式識別、聲學(xué)和人工智能等學(xué)科都有密切的聯(lián)系。它還涉及到生理學(xué)、心理學(xué)以及人的體態(tài)語言。
2、語音識別系統(tǒng)
語音識別本質(zhì)上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進(jìn)行比較,最佳匹配的參考模式被作為識別結(jié)果。圖1是基于模式匹配原理的自動語音識別系統(tǒng)原理框圖。
(1)預(yù)處理模塊:對輸入的原始語音信號進(jìn)行處理,濾除掉其中的不重要的信息以及背景噪聲,并進(jìn)行語音信號的端點(diǎn)檢測、語音分幀以及預(yù)加重等處理。
(2)特征提取模塊:負(fù)責(zé)計算語音的聲學(xué)參數(shù),并進(jìn)行特征的計算,以便提取出反映信號特征的關(guān)鍵特征參數(shù)用于后續(xù)處理,F(xiàn)在較常用的特征參數(shù)有線性預(yù)測(LPC)參數(shù)、線譜對(LSP)參數(shù)、LPCC、MFCC、ASCC、感覺加權(quán)的線性預(yù)測(PLP)參數(shù)、動態(tài)差分參數(shù)和高階信號譜類特征等[1]。其中,Mel頻率倒譜系數(shù)(MFCC)參數(shù)因其良好的抗噪性和魯棒性而應(yīng)用廣泛。
(3)訓(xùn)練階段:用戶輸入若干次訓(xùn)練語音,經(jīng)過預(yù)處理和特征提取后得到特征矢量參數(shù),建立或修改訓(xùn)練語音的參考模式庫。
(4)識別階段:將輸入的語音提取特征矢量參數(shù)后與參考模式庫中的模式進(jìn)行相似性度量比較,并結(jié)合一定的判別規(guī)則和專家知識(如構(gòu)詞規(guī)則,語法規(guī)則等)得出最終的識別結(jié)果。
語音識別的應(yīng)用
語音識別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%,對特定人語音識別系統(tǒng)的識別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在經(jīng)濟(jì)發(fā)達(dá)國家,大量的語音識別產(chǎn)品已經(jīng)進(jìn)入市場和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識別口語對話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計表明多達(dá)85%以上的人對語音識別的信息查詢服務(wù)系統(tǒng)的性能表示滿意,近年來語音交互功能被應(yīng)用到了應(yīng)急指揮中心當(dāng)中,通過語音調(diào)用大屏幕場景,語音調(diào)用監(jiān)控,語音調(diào)用信號源,語音調(diào)用預(yù)設(shè)內(nèi)容等;
智能語音交互基于指揮中心的應(yīng)用,領(lǐng)導(dǎo)只需按鍵,說出關(guān)鍵詞即可調(diào)用想要的監(jiān)控、PC、及相關(guān)信息,提高了整體指揮調(diào)度的水平。
中天智領(lǐng)研發(fā)的智慧語音交互系統(tǒng):用戶按下遙控器上的語音鍵,下達(dá)清晰和直接的單向預(yù)設(shè)語音指令,傳輸?shù)骄W(wǎng)絡(luò)中的語音識別引擎,達(dá)到對應(yīng)的控制效果。獨(dú)有的語音壓縮算法,將語音壓縮以實(shí)現(xiàn)抗干擾及較遠(yuǎn)距離的語音實(shí)時傳輸,30米范圍內(nèi)精準(zhǔn)遙控,360°無死角聲源定向。對話模型本地運(yùn)行,數(shù)據(jù)本地存儲和處理,保障數(shù)據(jù)的私密性。
中天智領(lǐng)研發(fā)的智慧語音交互系統(tǒng)擁有以下特點(diǎn):
應(yīng)用范圍廣:通過一支智能語音激光遙控,可進(jìn)行業(yè)務(wù)軟件及文檔控制,播放音視頻,調(diào)取監(jiān)控畫面等多項(xiàng)操作。
識別精度高:系統(tǒng)通過無線藍(lán)牙傳輸數(shù)據(jù)和音頻,360度聲源定向,大大提高語音識別精度,系統(tǒng)支持方言模糊識別。
反應(yīng)時間短:語音識別結(jié)果響應(yīng)時間≤100ms,從對語音交互設(shè)備下達(dá)指令到交互指令被執(zhí)行整個過程完成的時間≤1s。
硬件配置優(yōu):專業(yè)防噴麥設(shè)計,聲音內(nèi)容更加清晰;高保真采聲,使聲音采集更加清晰;語音鍵設(shè)置高度貼合人體工學(xué)。(臨場指揮 得心應(yīng)手)
中天智領(lǐng)可根據(jù)用戶需求及建設(shè)目標(biāo),搭建應(yīng)急指揮中心,中天智領(lǐng)智慧應(yīng)急指揮中心擁有多種系統(tǒng):智慧交互激光遙控系統(tǒng)、AI語音交互系統(tǒng)、智慧交互系統(tǒng)級觸控系統(tǒng)、智慧交互手勢識別系統(tǒng)、大屏KVM管控系統(tǒng)、云享控系統(tǒng)、智慧交互電子沙盤、分布式交互處理器、聯(lián)合標(biāo)繪、實(shí)物交互等。系統(tǒng)實(shí)現(xiàn)通過網(wǎng)絡(luò)及通訊傳輸,將全需要監(jiān)控的前端視音頻及多媒體信息資源匯集到監(jiān)控指揮中心綜合管控平臺,實(shí)現(xiàn)信息的資源共享、統(tǒng)一處理。