自動語音辨識透過傾聽帕金森氏症患者的聲音來學習理解他們
當馬克·長谷川-約翰遜梳理他最新項目的數據時,他驚喜地發現了佛羅倫薩雞蛋的配方。他說,篩選數百小時的錄音將發現一兩個寶藏。
長谷川-約翰遜領導了“語音無障礙項目”,這是伊利諾伊大學厄巴納-香檳分校的一項舉措,旨在使語音識別設備對有語言障礙的人更有用。
在該計畫第一份發表的研究中,研究人員要求自動語音辨識器聆聽帕金森氏症相關言語障礙患者長達 151 小時(幾乎六天半)的錄音。他們的模型轉錄了類似錄音的新資料集,其準確度比沒有聽過帕金森氏症患者說話的對照模型高出 30%。
這項研究發表在《言語、語言和聽力研究期刊》 。研究中使用的語音錄音可供研究人員、非營利組織和希望改進語音辨識設備的公司免費使用。
「我們的研究結果表明,非典型語音的大型資料庫可以顯著改善殘疾人的語音技術,」伊利諾伊州電氣和電腦工程教授、該大學貝克曼高級科學技術研究所研究員長谷川約翰遜說,計畫所在地。 “我期待看到其他組織如何使用這些數據來使語音識別設備更具包容性。”
智慧型手機和虛擬助理等機器使用自動語音識別來理解發聲的含義,使人們能夠排隊播放清單、口述免持訊息、無縫參與虛擬會議以及與朋友和家人進行清晰的溝通。
語音辨識技術並不適合所有人;特別是那些患有帕金森氏症等神經運動疾病的人,這些疾病可能會導致一系列緊張、含糊或不協調的言語模式,統稱為構音障礙。
「不幸的是,這意味著許多最需要語音控制設備的人可能會在使用它們時遇到最大的困難,」長谷川約翰遜說。
「我們從現有的研究中得知,如果你根據某人的聲音訓練ASR,它將開始更準確地理解他們。我們問:你能否透過將自動語音辨識器暴露給一小群患有帕金森氏症的人來訓練它來理解患有帕金森氏症的人?
長谷川-約翰遜和他的同事招募了大約 250 名患有不同程度帕金森氏症相關構音障礙的成年人。在加入這項研究之前,潛在的參與者會見了語言病理學家,評估了他們的資格。
「許多長期與溝通障礙作鬥爭的人,尤其是進展性溝通障礙,可能會退出日常溝通,」該團隊的語言病理學家克拉里昂·門德斯說。 「他們可能越來越少分享自己獨特的想法、需求和想法,認為他們的溝通受到太大影響,無法進行有意義的對話。
“這些正是我們正在尋找的人,”她說。
選定的參與者使用他們的個人電腦和智慧型手機提交錄音。他們按照自己的節奏工作,並在護理人員的可選幫助下,重複“設置鬧鐘”等陳舊的聲音命令,背誦小說中的段落,並對開放式提示發表意見,如“請解釋一下為四個人做早餐的步驟」。 」。
針對後者,一名參與者列舉了製作佛羅倫斯蛋、荷蘭醬等的步驟,而另一位參與者則務實地建議叫外送。
門德斯說:“我們聽到許多參與者表示,參與過程不僅令人愉快,而且讓他們有信心再次與家人溝通。” “這個項目給我們的許多參與者及其親人帶來了希望、興奮和活力——人類獨有的品質。”
她說,團隊諮詢了帕金森氏症專家和社區成員,以開發與參與者生活相關的內容。提示是具體且自發的:例如,訓練語音演算法來識別藥物名稱可能會幫助最終用戶與他們的藥房進行溝通,而隨意的對話開始者會模仿日常閒聊的節奏。
「我們告訴參與者:我們知道你可以透過付出所有的努力讓你的演講變得更清晰,但你可能厭倦了為了他人的利益而不得不試圖讓自己被理解。嘗試放鬆並溝通,就像你一樣正在沙發上與家人聊天,」門德斯說。
為了衡量語音演算法的聆聽和學習效果,研究人員將樣本分為三組。第一組 190 名參與者(即記錄的 151 小時)訓練了模型。隨著其表現的提高,研究人員透過向第二組較小的錄音引入該模型,證實該模型正在認真學習(而不僅僅是記住參與者的反應)。當模型在第二組達到峰值表現時,研究人員用測試集對其進行挑戰。
研究團隊成員平均為每位參與者手動轉錄 400 個錄音,以檢查模型的工作。
他們發現,聽完訓練集後,ASR 系統從測試集轉錄錄音,單字錯誤率為 23.69%。為了進行比較,使用未患帕金森氏症的人的語音樣本進行訓練的系統在轉錄測試集時,單字錯誤率為 36.3%,準確度大約低了 30%。
測試集中幾乎所有個體的錯誤率也都有所下降。即使是言語不太典型的帕金森氏症患者,例如異常快速的言語或口吃,也經歷了適度的改善。
「我很高興看到如此巨大的效益,」長谷川約翰遜說。
他補充說,參與者的回饋增強了他的熱情:
「我採訪了一位對這項技術的未來感興趣的參與者,」他說。 “這就是這個項目的美妙之處:看到人們對他們的智慧型揚聲器和手機能夠理解他們的可能性感到多麼興奮。這正是我們正在努力做的事情。”
原文在视频下方的文字描述中
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢
原文:https://medicalxpress.com/news/2024-09-automatic-speech-recognition-people-parkinson.html
更多資訊: Mark Hasekawa-Johnson 等人,《社區支持的共享基礎設施支援語音無障礙》, 《語音、語言和聽力研究雜誌》 (2024 年)。 DOI:10.1044/2024_JSLHR-24-00122
由貝克曼先進科學技術研究所提供