預訓練和微調主要在中文庫上進行。
他們還發布了配套的MAP-CC中國數據集和CHC-Bench中國模型測試基準。
詳細居間:
CT-LLM是從頭開始構建的。與傳統方法不同的是,它主要包含中文文本數據,利用了總量為1200億個Tokens的龐大資料庫,其中800億個是中文Tokens,300億個是英文Tokens,100億個是代碼Tokens。
這種獨特的結構使CT-LLM能夠很好地理解和處理中文,並通過對齊技術進一步增強了這一點。
CT-LLM在中文疑難案例基準測試(CHC-Bench)中表現出色,在中文任務中表現出色,並通過SFT(句子功能測試)在英語任務中展示了其能力。
該研究挑戰了傳統的基於英語的大語言模型訓練方法,開闢了大語言模型訓練方法的新視野。
我們公開了中文大型語言模型的完整訓練過程,包括使用Massive Appropriate Pretraining中文資料庫(MAP-CC,一個大型且合適的預訓練中文資料庫)、精選中文困難案例基準(CHC-Bench)和2B規模中文微小LLM(CT-LLM)的詳細數據處理步驟。
項目地址:https://chinese-tiny-llm.github.io/
數據和模型下載:https://huggingface.co/collections/m-a-p/chinese-tiny-llm-660d0133dff6856f94ce0fc6
視頻: