網(wǎng)絡視頻會議中,人們都希望能實現(xiàn)發(fā)言人的特寫與其聲音同步的音視頻效果。那么,這一技術如何突破傳統(tǒng)的人工搜索方式,讓設備自己也能“尋聲辯人”呢?
說話人的聲音不能被清楚地收音,會議雙方聽不到對方的聲音,產(chǎn)生回音或者斷續(xù)音現(xiàn)象從而使與會雙方無法互相理解……即使現(xiàn)在使用視頻會議系統(tǒng)時,我們仍常遇到這樣的問題。如何盡可能逼真地遠程再現(xiàn)會議環(huán)境的聲音和圖像,給人以身臨其境之感,一直是聲音處理領域的頭等課題。
在視頻會議產(chǎn)品領域,中國產(chǎn)品重視視頻編解碼與聲音處理技術,歐美產(chǎn)品更著重軟硬件設備、管理套件以及與統(tǒng)一通信架構融合的研究,而日本的產(chǎn)品則堅持其一貫的技術分工精細的主張:索尼在顯示器領域深耕,雅馬哈則在音頻處理領域細作。
日前,日本雅馬哈在中國推動PJP(Projectphone)網(wǎng)絡會議系列產(chǎn)品巡展,試圖為該領域引入另一種完全不同的技術解決思路。通過本報記者對日本雅馬哈株式會社Sound Network事業(yè)部長田丸卓也、雅馬哈中國網(wǎng)絡會議系列產(chǎn)品技術總監(jiān)谷田的專訪,以下問題將得到解答:雅馬哈會采用哪些技術解決目前聲音傳輸?shù)蔫Υ,并輔助視頻功能?視頻會議中惱人的回聲與吞字現(xiàn)象如何得到解決?會議中重要的錄音功能,該如何設計?如何以人工智能的思路來設計網(wǎng)絡與視頻會議產(chǎn)品,最終使這一計算機科技成果貼近自然、符合人類習慣?