2017年是AI彩電產(chǎn)品的元年——所謂AI彩電就是一種新的、能聽懂大家的語(yǔ)言,執(zhí)行語(yǔ)言命令,甚至可以和大家自由對(duì)話的電視機(jī)產(chǎn)品。統(tǒng)計(jì)數(shù)據(jù)表明,2017年新上市彩電機(jī)型中,近四分之一配備了語(yǔ)音智能功能。
2018年初,語(yǔ)音智能AI電視進(jìn)一步升級(jí)。業(yè)內(nèi)預(yù)計(jì),2018年新發(fā)布的彩電產(chǎn)品配備AI語(yǔ)音技術(shù)的比例,將迅速上升到8成以上,即除了少數(shù)主打低價(jià)格的產(chǎn)品外,大部分新品都將成為智能電視。智能語(yǔ)音正在進(jìn)入一個(gè)快速發(fā)展的“新階段”。
消費(fèi)電子產(chǎn)品,語(yǔ)音技術(shù)成為標(biāo)配
1月29日,作為小米電視2018年推出的第二款新品——小米盒子4正式發(fā)布,其最大特點(diǎn)是直接預(yù)置人工智能語(yǔ)音系統(tǒng)。智能盒子產(chǎn)品是“存量老電視體驗(yàn)升級(jí)”的關(guān)鍵工具。國(guó)內(nèi)彩電用戶大概有半數(shù)采用智能盒子、OTT盒子、IPTV盒子等產(chǎn)品接入電視網(wǎng)絡(luò)。小米盒子4標(biāo)志著,這一“存量”市場(chǎng),進(jìn)入關(guān)鍵的“智能語(yǔ)音化”發(fā)展新階段。
智能語(yǔ)音技術(shù)的另一個(gè)新消費(fèi)類產(chǎn)品是“智能音箱”。2018年CES展會(huì),百度系展示了3款智能音箱產(chǎn)品。該產(chǎn)品還是三星、蘋果、谷歌等國(guó)際巨頭的必爭(zhēng)之地。國(guó)內(nèi)市場(chǎng),天貓系也在2017年中推出了智能音箱產(chǎn)品。目前,智能音箱產(chǎn)業(yè)開拓最好的是美國(guó)市場(chǎng):在美國(guó),2017年有近六分之一的人(超過5000萬)擁有智能音箱,這個(gè)數(shù)字比16年翻了一倍還多。
從國(guó)內(nèi)市場(chǎng)看,智能語(yǔ)音盒子、智能語(yǔ)音音箱和智能語(yǔ)音電視已經(jīng)構(gòu)成家庭和個(gè)人消費(fèi)“智能語(yǔ)音”應(yīng)用的三大平臺(tái)。且每一個(gè)品類的潛在市場(chǎng)規(guī)模都是“千萬臺(tái)”的。但是,這三個(gè)品類與智能語(yǔ)音應(yīng)用的王者:智能手機(jī)比較,銷量真的有點(diǎn)“小”。手機(jī)產(chǎn)品應(yīng)用語(yǔ)音輸入、語(yǔ)音操作等技術(shù)已經(jīng)很久了。其中,更有6成以上的用戶,經(jīng)常使用語(yǔ)音輸入。不過作為掌上設(shè)備,語(yǔ)音操作在手機(jī)上的應(yīng)用卻不明顯。
除了以上消費(fèi)電子設(shè)備外,家電行業(yè)還看好“空調(diào)”的語(yǔ)音智能化、抽油煙機(jī)的聲音感知與油煙感知的自動(dòng)運(yùn)行等“家電嵌入智能”技術(shù)的發(fā)展。有空調(diào)屆人士表示,語(yǔ)音控制的空調(diào)產(chǎn)品和環(huán)境自動(dòng)感知技術(shù)結(jié)合,能帶來更好的操作體驗(yàn)、更好地?zé)o操作自動(dòng)環(huán)境控制體驗(yàn)和避免空轉(zhuǎn)的節(jié)能效果。
作為人類最重要的溝通方式,語(yǔ)音技術(shù)的發(fā)展顯然已經(jīng)成為消費(fèi)電子產(chǎn)業(yè)重要的創(chuàng)新環(huán)。彩電產(chǎn)品語(yǔ)音化更是成為重要行業(yè)趨勢(shì),并快速邁向普及。
語(yǔ)音智能很神奇,如何做到真好用
很多人覺得,智能電視語(yǔ)音技術(shù)就是“多安裝一個(gè)軟件”。但是,真實(shí)的產(chǎn)品研發(fā),卻要比“一個(gè)軟件”復(fù)雜的多。
實(shí)現(xiàn)語(yǔ)音交互,首先需要為設(shè)備配備“麥克風(fēng)”,也就是“拾音”產(chǎn)品。與我們一般的會(huì)議講話、KTV娛樂的麥克風(fēng)不同,智能語(yǔ)音電視機(jī)的麥克風(fēng)必須具有三個(gè)技術(shù)特征。第一是,遠(yuǎn)場(chǎng)效果好。即至少在5米遠(yuǎn),能夠準(zhǔn)確識(shí)別日常對(duì)話,甚至識(shí)別壓低聲音但清晰的對(duì)話。這與手機(jī)、KTV、直播、會(huì)議室麥克風(fēng)“對(duì)著嘴”的應(yīng)用截然不同。
第二,智能語(yǔ)音技術(shù)麥克風(fēng)必須是“全向拾音”。由于語(yǔ)音交流不是“嘴對(duì)著麥克風(fēng)吹”,也就導(dǎo)致交流人員與麥克風(fēng)等設(shè)備的“角度關(guān)系”千差萬別。比如一個(gè)智能音箱,擺放在茶幾上,那么他就需要對(duì)360度方位內(nèi)的聲音都能很好識(shí)別。因此,智能語(yǔ)音產(chǎn)品通常采用一個(gè)“多麥耦合”陣列,實(shí)現(xiàn)全方向全域拾音。
第三,智能語(yǔ)音技術(shù)的麥克風(fēng)必須有很高的“信噪比”。即要能夠?qū)苟喾N噪聲的干擾。遠(yuǎn)場(chǎng)和全向拾音,進(jìn)一步增加了對(duì)麥克風(fēng)信噪比的考驗(yàn)。
但是,對(duì)于智能語(yǔ)音設(shè)備而言,其最大的技術(shù)要求顯然不在“苛刻的拾音技術(shù)上”,而在于“語(yǔ)音到語(yǔ)意”的理解上。智能語(yǔ)音設(shè)備的目的是理解對(duì)方的具體意思。這與傳統(tǒng)的會(huì)議、KTV、電話等場(chǎng)景,麥克風(fēng)和語(yǔ)音系統(tǒng)只負(fù)責(zé)“原樣搬運(yùn)聲音”的工作完全不同。
識(shí)別語(yǔ)音的含義,有哪些難關(guān)呢?比如,要從多人語(yǔ)音,尤其是居家環(huán)境下的多人對(duì)話、對(duì)正在播放的視聽內(nèi)容的聲音中有效區(qū)分“和誰對(duì)話、誰在對(duì)話”。這就涉及一種稱為聲紋的身份識(shí)別和認(rèn)證技術(shù)(類似于指紋識(shí)別、人臉識(shí)別等的功用)。再比如,不是每個(gè)人都是“新聞聯(lián)播”式的標(biāo)準(zhǔn)普通話應(yīng)用者:口音、方言、口頭禪,這些的處理具有很大的“個(gè)人性”、“差異性”。這需要智能語(yǔ)音系統(tǒng)能夠?qū)W習(xí)和升級(jí)自己,適應(yīng)“主人”的語(yǔ)言特征。后者涉及到機(jī)器學(xué)習(xí)等高級(jí)智能技術(shù)。
當(dāng)然,智能語(yǔ)音技術(shù)的電視機(jī),不是“一個(gè)人在戰(zhàn)斗”,這種電視機(jī)首先是一種“網(wǎng)絡(luò)電視機(jī)”。即,語(yǔ)音技術(shù)可以從網(wǎng)絡(luò)上得到更強(qiáng)大的“支持”。包括,智慧程序和算法的升級(jí)、個(gè)人語(yǔ)言特征和習(xí)慣的遠(yuǎn)程訪問和使用、遠(yuǎn)程云計(jì)算提供更為強(qiáng)大的算法和理解計(jì)算力支撐,支持更多的“潛在應(yīng)用”開發(fā)等等。
綜上所述,AI語(yǔ)音電視的升級(jí),不是簡(jiǎn)單增加一個(gè)軟件而已。而且隨著語(yǔ)音和人工智能技術(shù)的進(jìn)一步發(fā)展,引入專門的智能協(xié)處理器、神經(jīng)元處理器、改變傳統(tǒng)產(chǎn)品的底層架構(gòu)是大勢(shì)所趨。語(yǔ)音技術(shù)和彩電產(chǎn)品的整合,將是一個(gè)系統(tǒng)性的產(chǎn)品技術(shù)體系革新。
有了AI語(yǔ)音,彩電能做什么
彩電和其它消費(fèi)電子、家電企業(yè)在AI語(yǔ)音技術(shù)上的熱情,足以說明這一技術(shù)進(jìn)步的“戰(zhàn)略性”和“重要意義”。
就目前而言,彩電AI語(yǔ)音功能更多的是扮演了“遙控器”的替代者的角色。很多時(shí)候找遙控器、遙控器摔壞、遙控器沒電是“很惱人”的事情。彩電行業(yè)一直在嘗試尋找“遙控器替代者”。早期,曾經(jīng)發(fā)展過肢體語(yǔ)言和隔空觸控的技術(shù)。但是,這種技術(shù)體驗(yàn)精度、交互廣泛性并不友好,沒有成為主流。
而采用語(yǔ)音技術(shù)的產(chǎn)品,不僅可以直接呼喚彩電菜單、電視臺(tái)和電視網(wǎng)絡(luò)中節(jié)目菜單的內(nèi)容,也可以實(shí)現(xiàn)文字輸入、直接查詢網(wǎng)絡(luò)上的以文字信息為索引的“非標(biāo)準(zhǔn)菜單”內(nèi)容;蛘哒f,語(yǔ)音技術(shù)不僅“替代了遙控器的所有功能”,而且還“創(chuàng)造出遙控器不擅長(zhǎng)的(例如文字輸入)和不存在的(語(yǔ)音對(duì)話)等功能”。
從未來發(fā)展看,語(yǔ)音智能技術(shù)會(huì)為彩電產(chǎn)品打開一些嶄新的應(yīng)用場(chǎng)景。傳統(tǒng)彩電的作用主要是視頻娛樂——即內(nèi)容始終是單向傳輸?shù)摹5,語(yǔ)音技術(shù)可以讓彩電成為一個(gè)“關(guān)鍵節(jié)點(diǎn)”。作為一個(gè)語(yǔ)音交互和信息處理器,彩電可以成為其他智能家居產(chǎn)品的“中控大腦”。作為一個(gè)連接云系統(tǒng)的輸入終端,彩電可以依賴背后更強(qiáng)大的計(jì)算與知識(shí)能量,與“觀眾對(duì)話、拉家!,甚至實(shí)現(xiàn)更多的主動(dòng)行為功能、大量互聯(lián)網(wǎng)應(yīng)用的入口與界面……
某種意義上,智能語(yǔ)音技術(shù)的彩電只是彩電真正進(jìn)入“人機(jī)智能”時(shí)代的一個(gè)窗口。以此為線索,涉及的是整個(gè)家居、生活、家庭和個(gè)人“智能應(yīng)用”的體系網(wǎng)絡(luò);以及這個(gè)網(wǎng)絡(luò)背后所依賴的云存儲(chǔ)、計(jì)算和知識(shí)體系。彩電企業(yè)高度看中AI電視的發(fā)展,恰是因?yàn)檎Z(yǔ)音電視背后巨大的“潛在可能”。
甚至,語(yǔ)音語(yǔ)意技術(shù)的創(chuàng)新已經(jīng)成為一項(xiàng)重要的國(guó)家戰(zhàn)略。2017年12月,工業(yè)和信息化部印發(fā)了《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動(dòng)計(jì)劃(2018-2020年)》的通知。其中就提到,“支持新一代語(yǔ)音識(shí)別框架、口語(yǔ)化語(yǔ)音識(shí)別、個(gè)性化語(yǔ)音識(shí)別、智能對(duì)話、音視頻融合、語(yǔ)音合成等技術(shù)的創(chuàng)新應(yīng)用”。“2020年,實(shí)現(xiàn)多場(chǎng)景下中文語(yǔ)音識(shí)別平均準(zhǔn)確率達(dá)到96%,5米遠(yuǎn)場(chǎng)識(shí)別率超過92%,用戶對(duì)話意圖識(shí)別準(zhǔn)確率超過90%”;“多語(yǔ)種智能互譯取得明顯突破,中譯英、英譯中場(chǎng)景下產(chǎn)品的翻譯準(zhǔn)確率超過85%”;“智能電視市場(chǎng)滲透率達(dá)到90%以上等重要目標(biāo)和要求”。
2010年開始的智能電視革命,讓電視上網(wǎng)成為一種流行和主要體驗(yàn)方式;現(xiàn)在智能革命進(jìn)入第二階段“人機(jī)智能”正在以語(yǔ)音交互為最初的鑰匙,打開彩電業(yè)的未來之門。