繁中

CT-LLM:2B小型LLM

它說明了在開發法學碩士時優先考慮中文的關鍵轉變

自然語言處理領域長期以來一直由主要迎合英語的模型主導。這種固有的偏見使世界上很大一部分人口感到代表性不足和被忽視。然而,一項開創性的新發展將挑戰這一現狀,並迎來更具包容性的語言模型時代--中文微型LLM(CT-LLM)。

想像一下,語言障礙不再是獲取尖端人工智慧技術的障礙的世界。這正是CT-LLM背後的研究人員通過優先考慮世界上使用最廣泛的語言之一中文而實現的目標。這個擁有20億個參數的模型與主要在英語數據集上訓練語言模型然後將其調整到其他語言的傳統方法不同。

相反,CT-LLM對驚人的1.2萬億個代幣進行了仔細的預訓練,戰略重點是中國數據。預訓練的資料庫包含令人印象深刻的8,404.8億個中文標籤,輔之以3,148.8億個英文標籤和993億個代碼標籤。這種策略組合不僅賦予模型出色的理解和處理中文的能力,而且增強了其多語言適應性,確保其能夠輕鬆控制不同文化的語言格局。

但這並不是全部--CT-LLM使用尖端技術,使其具有卓越的性能。一項創新是監督微調(SFT),它增強了模型對中文任務的熟練程度,同時增強了其理解和生成英語文本的通用性。此外,研究人員還使用DPO(直接偏好優化)等偏好優化技術將CT-LLM與人類偏好保持一致,確保其輸出不僅準確,而且無害且有益。

ca1537bb79d5b662c38c0a11bede0585.png

為了測試CT-LLM的能力,研究人員開發了中國Hard Case Benchmark(CHC-Bench),這是一組多學科的具有挑戰性的問題,旨在評估模型理解和遵循中文指令的能力。中文.值得注意的是,CT-LLM在本次基準測試中表現出色,在社會理解和寫作相關任務中表現出色,體現了其對中國文化語境的強大把握。

CT-LLM的發展代表著創建反映全球社會語言多樣性的包容性語言模型的重大進展。通過從一開始就優先考慮中文,這種開創性的模式挑戰了當前以英語為中心的範式,並為NLP未來的創新鋪平了道路,以適應更廣泛的語言和文化。憑藉其卓越的性能、創新的技術和開源培訓流程,CT-LLM已成為自然語言處理領域更加公平和代表性未來的希望燈塔。未來,語言障礙將不再是獲取尖端人工智慧技術的障礙。

快速閱讀: https://marktechpost.com/2024/04/10/ct-llm-a-2b-tiny-llm-that-illustrates-a-pivotal-shift-towards-prioritizing-the-chinese-language-in-developing-llms/
論文: https://arxiv.org/abs/2404.04167
高頻頁面: https://huggingface.co/collections/m-a-p/chinese-tiny-llm-660d0133dff6856f94ce0fc6

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

視頻:

返回頂端