搜狗公司于12月14日正式宣布推出了一項創(chuàng)新的人機交互技術——唇語識別系統(tǒng),這是業(yè)內*對外展示的唇語識別技術。該系統(tǒng)通過機器視覺技術,無需依賴聲音,僅憑觀察說話人的唇部動作,就能準確解讀其所說內容。
在搜狗舉辦的媒體溝通會上,唇語識別系統(tǒng)進行了現(xiàn)場演示,展示了其強大的識別能力。這一技術結合了機器視覺與自然語言處理,相較于傳統(tǒng)的語音識別產品,其研發(fā)難度要大得多。
搜狗采用了復雜的端到端深度神經*技術,對中文唇語進行了序列建模,并進行了數(shù)千小時的真實唇語數(shù)據(jù)訓練。在非特定人開放口語測試集上,搜狗唇語識別系統(tǒng)的準確率已超過60%,在特定場景如車載、智能家居等環(huán)境下,準確率甚至高達90%。值得注意的是,中文唇語識別的難度要高于英文,因為中文擁有四個聲調,且聲韻母組合復雜,建模數(shù)量遠超英文。
搜狗開發(fā)唇語識別技術的初衷,是為了解決嘈雜環(huán)境下的語音識別準確度問題。目前,搜狗希望通過兩種途徑來解決這一問題:一是硬件層面的語音增強技術,通過屏蔽噪音來提高識別準確性;二是增加多模態(tài)信息,如唇語識別的圖像信息,以輔助語音識別。
作為人機交互的一種新形式,唇語識別技術具有廣泛的應用前景。在車載場景下,唇語識別可以規(guī)避周圍噪音對語音指令的干擾,確保人車交互的準確性和穩(wěn)定性。在公共場所,唇語識別可以保護說話內容的私密性。在安防領域,唇語識別技術可以幫助*人員從監(jiān)控視頻中獲取重要的講話信息,為公共安全提供有力支持。此外,唇語識別技術還具有巨大的公益價值,可以幫助先天性聽障人群或老年人更好地理解和表達自己。
搜狗近年來一直致力于自然語言技術的研究,在語音識別、語義理解、機器翻譯等領域取得了顯著成果,并成功實現(xiàn)了產品落地。此次推出唇語識別技術,將進一步推動AI行業(yè)的技術革新和發(fā)展。