科大訊飛獲國家科學技術進步獎一等獎

來源:投影時代 更新日期:2024-06-25 作者:pjtime資訊組

    6月24日,2023年度國家科學技術獎勵大會在京召開,科大訊飛作為第一完成單位的“多語種智能語音關鍵技術及產(chǎn)業(yè)化”項目獲得國家科學技術進步獎一等獎。這是深度學習引發(fā)全球人工智能浪潮以來,過去十年人工智能領域首個國家科學技術進步獎一等獎。這也是科大訊飛繼2002年和2011年分別獲得國家科學技術進步獎二等獎之后,首次獲得國家科學技術進步獎一等獎。

    國家科學技術進步獎創(chuàng)辦于1984年9月,是國務院設立的國家科學技術獎5大獎項(國家最高科學技術獎、國家自然科學獎、國家技術發(fā)明獎、國家科學技術進步獎、中華人民共和國國際科學技術合作獎)之一。因2021年、2022年國家科技獎暫停的緣故,2023年度國家科技獎積累了大量的優(yōu)秀成果,競爭激烈。

科大訊飛獲國家科學技術進步獎一等獎

    關鍵技術取得四大突破達到國際領先水平

    語音是人類最自然便捷的溝通方式,是智能設備人機交互的關鍵入口,也是諸多敏感信息的重要載體,還是民族團結和國際合作的基礎。多語種智能語音技術對于支撐人機交互、人類語言互通及國家安全等需求具有重大戰(zhàn)略意義,具有十分廣闊的產(chǎn)業(yè)前景,是當前國際科技競爭核心焦點之一。

    持續(xù)攻關多年,科大訊飛攻克了多個技術難題,并打破技術封鎖,提出了四個方面的技術創(chuàng)新。

    創(chuàng)新點一,復雜語音信號解耦建模關鍵技術突破。

    語音識別研究中最具挑戰(zhàn)的是遠場、噪聲、多人語音混疊等現(xiàn)象導致的“雞尾酒會”效應典型難題。

    科大訊飛提出了多通道語音信號時空分離建模方法和多維度語音屬性解耦表征方法,實現(xiàn)語音信號中內容、噪聲等高度耦合的多維屬性特征解耦,解決了“雞尾酒會”的難題,使得復雜場景下語音識別準確率得到重大突破。

    在這些技術的支撐下,科大訊飛連續(xù)4屆獲得國際多通道語音分離和識別比賽CHIME冠軍;連續(xù)8屆獲得國際語音合成大賽Blizzard Challenge冠軍。2015年,相關技術首次在大會演講場景實現(xiàn)語音轉寫超過人類速記員水平;2019年起連續(xù)六年服務全國兩會;個性化語音合成首次應用于中央電視臺節(jié)目配音(《創(chuàng)新中國》),并在新華社、人民日報、學習強國等廣泛應用。

    創(chuàng)新點二,多語種共享建模關鍵技術突破。

    為了應對多語種技術“卡脖子”問題,必須解決小語種智能語音系統(tǒng)構建所面臨的知識匱乏、訓練數(shù)據(jù)稀缺等難題。

    科大訊飛設計了全新的多語種通用音素體系和基本語言單元,實現(xiàn)多語種統(tǒng)一音素韻律體系的構建,又通過基于元學習的多語種預訓練和基于語族分組的多語種共享建!ㄋ椎卣f,就是將不同的小語種進行分類,找到同類語種的共同規(guī)律,進行分析建模和訓練——最終,顯著提升了小語種語音系統(tǒng)性能。

    相關技術在2021年國際低資源多語種語音識別競賽OpenASR中獲得15個語種受限賽道和7個語種非受限賽道的冠軍。2024年,結合語音屬性解耦表征、多語種多任務共享建模等關鍵技術成果發(fā)布星火語音大模型,首批37個主流語種的語音識別效果超過OpenAI Whisper V3。

    在奇瑞、一汽等的交互評測中,科大訊飛的技術效果全面領先國際車載語音技術競品賽倫思(原Nuance車載公司),在華為的評測中也領先谷歌。

    創(chuàng)新點三,語音語義聯(lián)合建模關鍵技術突破。

    復雜應用場景下語音交互、語音翻譯面臨著深層次語義理解困難、專業(yè)性不足等問題。

    科大訊飛提出語音語義互增強的魯棒口語理解技術,有效提升語音交互、語音翻譯等復雜場景的語義理解準確率;提出多源知識增強的可信文本生成技術,提升專有詞匯及領域知識引用的準確率。

    相關技術于2018年在業(yè)內首次達到CATTI考試英語二級《口譯實務(交替?zhèn)髯g類)》合格標準;并在2021-2023年連續(xù)三屆獲得國際權威機器口語翻譯評測比賽IWSLT冠軍,覆蓋同傳、離線、方言翻譯等多類任務。

    技術成果應用在多個方面:如英語口語評測首次達到人類專家水平,是滿足高考應用要求的技術,累計服務超1.3億考生;智能客服系統(tǒng)規(guī)模應用,累計服務超8億人,多行業(yè)對話成功率超90%。

    創(chuàng)新點四,國產(chǎn)異構硬件平臺訓練及推理加速關鍵技術突破。

    使用國產(chǎn)芯片開展智能語音算法模型訓練和推理面臨性能低、適配難等問題。

    科大訊飛提出硬件親和的變長輸入算子融合和聯(lián)合統(tǒng)一量化感知訓練技術,通過軟硬件協(xié)同優(yōu)化的動態(tài)張量算子自動融合方法,實現(xiàn)對語音等變長輸入的訓練性能優(yōu)化達到國際主流芯片同等水平;通過多硬件聯(lián)合的量化計算模擬,達到模型單次訓練后可在不同硬件平臺上一鍵部署,解決了智能語音技術硬件平臺的“卡脖子”問題。

    目前,已建成5個國產(chǎn)化集群,語音合成、識別、翻譯、交互等國產(chǎn)化能力日服務8.73億次。2023年,科大訊飛與華為聯(lián)合攻關大模型國產(chǎn)化算力底座核心難題,建設首個萬卡全國產(chǎn)算力平臺“飛星一號”,填補了國產(chǎn)超大模型訓練平臺空白。

    基于這些關鍵技術的持續(xù)攻關和突破,該項目獲批牽頭建設4個國家級創(chuàng)新平臺:語音產(chǎn)業(yè)界唯一的國家級研究開放平臺語音及語言信息處理國家工程研究中心,智能語音國家新一代人工智能開放創(chuàng)新平臺,首批20家標桿全國重點實驗室之一的認知智能全國重點實驗室,智能語音領域唯一的國家技術標準創(chuàng)新基地;并主導編制11項國際和國家標準,獲授權發(fā)明專利257項;近五年累計獲得國際權威評測冠軍20余項,持續(xù)保持技術引領。

    實現(xiàn)規(guī)模化產(chǎn)業(yè)立地有效支撐國家戰(zhàn)略

    科大訊飛一直堅持“技術頂天、應用立地”的戰(zhàn)略,圍繞多語種智能語音技術構建了自主可控的產(chǎn)業(yè)生態(tài)。

    第一,語音是萬物互聯(lián)時代人機交互的關鍵入口,項目開創(chuàng)引領我國語音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)升級和出海。

    智能手機方面,項目支持各主流手機廠商累計激活設備超10億臺,有效解決華為等廠商出海的多語種“卡脖子”問題;智能汽車方面,車載智能化產(chǎn)品累計前裝超5300萬套,支持奇瑞、一汽、長安等車企超200萬套訂單出海;智能軟硬件方面,開創(chuàng)智能翻譯機、智能辦公本、智能錄音筆等智能硬件新品類,連續(xù)三年獲得京東&天貓雙平臺銷售冠軍,其中,訊飛翻譯機目前能支持85個語種的翻譯,覆蓋全球200多個國家和地區(qū),連續(xù)8年獲得京東618、連續(xù)7年獲得天貓雙11銷售冠軍;在會議、辦公等場景,訊飛聽見系列產(chǎn)品服務遍及全球50多個國家和地區(qū),支持了超過40萬場會議,觸及超過4億觀眾;面向更多用戶,訊飛輸入法月活躍用戶超1.4億人,日語音交互次數(shù)超10億次。

    第二,項目助力民族團結,促進全球語言互通和“一帶一路”建設。

    發(fā)布“多語種語音云”平臺,月服務超過5.46億人次;每年提供翻譯服務51.5億次,語音同傳服務全球50余個國家超4億觀眾;多語種技術有效服務北京冬奧會和冬殘奧會、中國國際進口博覽會、博鰲論壇等國家重大活動。

    第三,項目還構建了自主可控的多語種智能語音技術及全球產(chǎn)業(yè)生態(tài)。

    2017年開始承建的智能語音國家新一代人工智能開放創(chuàng)新平臺,已聚集平臺開發(fā)者數(shù)700.7萬,終端設備數(shù)40.5億;構建全球多語種技術生態(tài),目前平臺聚集海外開發(fā)者數(shù)超過40萬。

    第四,讓科技更有溫度,項目持續(xù)助力公益,關愛弱勢群體和特殊人群。

    “聽見AI的聲音”公益行動,為聽力障礙人士提供免費的實時語音轉文字服務、捐贈免費時長,截至2024年6月,累計捐贈時長超一億分鐘;發(fā)起“三聲有幸”項目,累計服務1368萬人,助力公益團隊創(chuàng)建無障礙應用超3萬個;進行推普脫貧攻堅,累計助力超115萬少數(shù)民族群眾,成為《國家通用語言文字法》施行22年來首次表彰活動中的企業(yè)先進集體。

    項目產(chǎn)業(yè)生態(tài)繁榮、成效顯著。近三年,多語種智能語音技術產(chǎn)業(yè)化項目累計實現(xiàn)直接經(jīng)濟效益521.28億元,并帶動由工信部和安徽省政府共建、以科大訊飛為核心的“中國聲谷”產(chǎn)業(yè)集聚發(fā)展,并上升為中部崛起的國家戰(zhàn)略。

    未來:智能語音+認知大模型用人工智能建設美好世界

    十年磨一劍,科大訊飛創(chuàng)業(yè)25年來第三次獲得國家科技進步獎,對于科大訊飛而言,是一個總結,也是新開始!

    通用人工智能時代,科大訊飛多語種智能語音關鍵技術中的創(chuàng)新和大模型技術相互補充、相互促進。

    語音屬性解耦、語音信號時空分離等技術突破,可以將語音信號經(jīng)過編碼后輸入到大語言模型,顯著提升語音大模型的效果。2024年1月30日,科大訊飛就基于上述技術融合路線發(fā)布了星火語音大模型,顯著超過了OpenAI的Whisper v3的語音大模型能力,Whisper v3的24個主要語種的平均識別率為82%,而星火語音大模型達到了90%。4月26日,科大訊飛又首發(fā)多情感超擬人合成和一句話聲音復刻能力,使機器具備更加豐富的超擬人情緒感知和表達。

    大模型技術可以在復雜語義理解、長文本建模能力上進一步提升語音識別、合成和翻譯的效果,同時基于其強大的語義理解、知識問答、多輪對話、多模態(tài)建模能力,也能進一步大幅提升智能語音技術的使用場景和應用價值,支撐實現(xiàn)語音同傳、自動客服、輔學答疑、家庭醫(yī)生、虛擬員工、陪伴機器人、服務機器人等未來智能產(chǎn)品創(chuàng)新,帶來巨大產(chǎn)業(yè)機會,加速通用人工智能時代的到來。

    6月27日,訊飛星火V4.0也將正式發(fā)布,底座能力全面對標GPT-4 Turbo,語音大模型也將迎來全新升級。

    未來,在科大訊飛國際領先的智能語音技術基礎之上,訊飛星火將進一步向著“解放生產(chǎn)力、釋放想象力,為每個企業(yè)和每個人打造專屬AI助手”的更大愿景,持續(xù)攀登、持續(xù)進步,用人工智能建設美好世界!

廣告聯(lián)系:010-82755684 | 010-82755685 手機版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時代網(wǎng) 版權所有 關于投影時代 | 聯(lián)系我們 | 歡迎來稿 | 網(wǎng)站地圖
返回首頁 網(wǎng)友評論 返回頂部 建議反饋
快速評論
驗證碼: 看不清?點一下
發(fā)表評論