中文Tiny是第一個以中文為中心的完全開源語言模型

預訓練和微調主要在中文庫上進行。

他們還發布了配套的MAP-CC中國數據集和CHC-Bench中國模型測試基準。

詳細居間：

CT-LLM是從頭開始構建的。與傳統方法不同的是，它主要包含中文文本數據，利用了總量為1200億個Tokens的龐大資料庫，其中800億個是中文Tokens，300億個是英文Tokens，100億個是代碼Tokens。
這種獨特的結構使CT-LLM能夠很好地理解和處理中文，並通過對齊技術進一步增強了這一點。
CT-LLM在中文疑難案例基準測試（CHC-Bench）中表現出色，在中文任務中表現出色，並通過SFT（句子功能測試）在英語任務中展示了其能力。
該研究挑戰了傳統的基於英語的大語言模型訓練方法，開闢了大語言模型訓練方法的新視野。
我們公開了中文大型語言模型的完整訓練過程，包括使用Massive Appropriate Pretraining中文資料庫（MAP-CC，一個大型且合適的預訓練中文資料庫）、精選中文困難案例基準（CHC-Bench）和2B規模中文微小LLM（CT-LLM）的詳細數據處理步驟。

項目地址：https://chinese-tiny-llm.github.io/
數據和模型下載：https://huggingface.co/collections/m-a-p/chinese-tiny-llm-660d0133dff6856f94ce0fc6

視頻：