chatGPT的耳朵!OpenAI的開源語音識别AI:Whisper !

慈雲數據 8個月前 (03-13) 技術支持 146 0

語音識别是通用人工智能的重要一環!可以說是AI的耳朵!

它可以讓機器理解人類的語音,并将其轉換爲文本或其他形式的輸出。

語音識别的應用場景非常廣泛,比如智能助理、語音搜索、語音翻譯、語音輸入等等。

然而,語音識别也面臨着很多挑戰,比如不同的語言、口音、噪音、專業術語等等,都會影響語音識别的準确性和魯棒性。

爲了解決這些問題,OpenAI開源了語音識别系統: Whisper 

目前在開源網站上已收獲5w星!

圖片

它号稱其英文語音辨識能力已達到人類水準,且它亦支持其它98種語言的自動語音辨識。

圖片

 Whisper是什麽?

Whisper是由研發出ChatGPT的OpenAI的研究團隊開發的,OpenAI的研究成果也經常引起廣泛的關注和讨論,比如GPT系列的預訓練語言模型、DALL-E的圖像生成模型、CLIP的圖像分類模型等等。

Whisper的主要作者是Jong Wook Kim,他是OpenAI的研究科學家,他的研究興趣是語音處理、自然語言處理機器學習

Whisper 架構是一種簡單的端到端方法,以編碼器-解碼器 Transformer 的形式實現。輸入音頻被分成 30 秒的塊,轉換爲對數梅爾頻譜圖,然後傳遞到編碼器。

圖片

解碼器經過訓練來預測相應的文本标題,并與特殊标記混合在一起,指導單個模型執行語言識别、短語級時間戳、多語言語音轉錄和英語語音翻譯等任務。

圖片

 

Whisper的驚豔功能

Whisper的最大特點是它的多語言和多任務能力,它可以同時處理多種語言和多種任務,而不需要針對每種語言或任務單獨訓練或調整模型。Whisper目前支持的語言有99種,包括英語、中文、日語、法語、德語、西班牙語等等,覆蓋了世界上大部分的人口和地區。

Whisper目前支持的任務有四種,分别是:

- 多語言語音識别(Multilingual Speech Recognition):将語音轉換爲與語音相同語言的文本,比如将英語語音轉換爲英語文本,或者将中文語音轉換爲中文文本。

- 語音翻譯(Speech Translation):将語音從一種語言翻譯成另一種語言的文本,比如将英語語音翻譯成中文文本,或者将中文語音翻譯成英語文本。

- 語言識别(Language Identification):識别語音中的語言類型,比如判斷語音是英語還是中文,或者是其他語言。

- 語音活動檢測(Voice Activity Detection):檢測語音中的活動區域,即語音中有人說話的部分,和沒有人說話的部分。

Whisper的創新之處在于,它可以讓人工智能學習和使用語境,從而提高和人類的溝通質量。Whisper的工作原理是,它會根據人類的輸入,生成一個語境向量,這是一個包含了語境信息的數學表示。

然後,它會用這個語境向量來指導人工智能的輸出,使其更加符合人類的期望。Whisper的優點是,它可以和任何類型的人工智能模型配合使用,無論是文本,圖像,音頻,視頻,還是其他的形式。Whisper還可以讓人工智能适應不同的語境,比如不同的場景,不同的任務,不同的用戶,不同的風格,等等。

 Whisper的性能

Whisper的這些功能不僅強大,而且準确和魯棒。Whisper的英文語音識别的準确率已經達到了人類的水平,甚至在一些嘈雜的環境中,還超過了人類的水平。Whisper的多語言語音識别和語音翻譯的準确率也非常高,甚至在一些零樣本的情況下,也能夠表現出色。

Whisper 的性能因語言而異。下圖顯示了按語言large-v3和模型的性能細分,使用在 Common Voice 15 和 Fleurs 數據集上評估的large-v2WER(單詞錯誤率)或 CER(字符錯誤率,以斜體顯示)。

與其他模型和數據集相對應的其他 WER/CER 指标可以在論文的附錄 D.1、D.2 和 D.4 中找到,以及附錄 D 中的 BLEU(雙語評估研究)翻譯分數。

Whisper的性能不僅在實驗室的環境中得到了驗證,也在實際的應用場景中得到了證明。Whisper已經被應用在了OpenAI的一些項目中,比如GPT-4的語音輸入,CLIP的語音分類等等。

代碼地址:

https://github.com/openai/whisper

論文地址:

https://arxiv.org/abs/2212.04356

博文地址:

https://openai.com/research/whisper

微信掃一掃加客服

微信掃一掃加客服

點擊啓動AI問答
Draggable Icon