儘管大型語言模型(LLM)在各種任務中取得了顯著的成就,但仍然存在有利於高資源語言(例如英語)的語言偏見,通常以犧牲低資源語言和區域語言為代價。
為了解決這種不平衡問題,SEA推出了SeaLLM,這是一系列專門針對東南亞(SEA)語言的創新語言模型。
SeaLLM建立在Lama-2模型之上,並通過持續的預培訓進一步開發,包括擴展詞彙量、專業指導和對齊調整,以更好地捕捉區域語言的複雜性。這使他們能夠尊重和反映當地文化規範、習俗、風格偏好和法律考慮。
綜合評估表明,與類似的開源模型相比,SeaLLM-13 b模型在廣泛的語言任務和助理式指令跟蹤能力方面表現出卓越的性能。此外,它們在非拉丁語言(例如泰文、高棉語、寮語和緬甸語)中的表現遠優於ChatGPT-3.5,同時保持輕量級和運營成本效益。
同行比較
比較聊天機器人模型的最可靠的方法之一是同行比較。在母語人士的幫助下,我們構建了一套名為Sea-table的命令測試,重點關注面向用戶的聊天機器人預期的所有方面,即:
(1)任務分解(如翻譯和理解),
(2)數學推理(例如,數學和邏輯推理問題),
(3)一般說明(例如,通用域指令),
(4)自然問題(例如,通常以非正式方式撰寫的有關當地背景的問題),以及
(5)安全相關問題。測試集還涵蓋了我們關心的所有語言。
與MT-bridge類似,我們使用GPT-4作為評估器來評估我們的模型與ChatGPT-3.5和其他基線之間的比較。
地區語言世界知識
M3 Exam是當地官方人類考試題基準的現實集合。該基準涵蓋了東南亞多個國家的問題,這些問題需要跨不同關鍵教育階段(從小學到高中困難)具有強大的多語言技能和文化知識。
如表所示,我們的SeaLLM模型優於大多數13 B基線,並且更接近ChatGPT的性能。值得注意的是,對於看似資源稀缺的泰式語言來說,儘管規模差異很大,但我們的模型僅落後ChatGPT 1%。
如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
紙張: https://huggingface.co/papers/2312.00738
視頻: