Chinese Tiny 第一个以中文为中心的完全开源大语言模型

主要在中文语料库上进行预训练和微调。

他们还发布了与之配套的MAP-CC中文数据集、CHC-Bench中文模型测试基准。

详细介绍:

CT-LLM从头开始构建,与传统方法不同,它主要包含中文文本数据,利用了总量高达1200亿Token的庞大语料库,其中800亿是中文Token,300亿是英文Token,还有100亿是代码Token。
这种独特的结构让CT-LLM在理解和处理中文方面表现出色,这一点通过对齐技术得到了进一步提升。
CT-LLM在中文难例基准(CHC-Bench)上表现出卓越的性能,在中文任务中大放异彩,同时在英文任务上也通过SFT(Sentence Functional Testing)展示了其能力。
这项研究挑战了传统的以英文为主的大语言模型训练方式,为大语言模型的训练方法开辟了新视野。
我们公开了完整的中文大语言模型训练过程,包括使用Massive Appropriate Pretraining Chinese Corpus(MAP-CC,庞大适宜的预训练中文语料库)的详细数据处理步骤、精选的中文难例基准(CHC-Bench),以及2B规模的中文Tiny LLM(CT-LLM)。

项目地址:https://chinese-tiny-llm.github.io/
数据和模型下载:https://huggingface.co/collections/m-a-p/chinese-tiny-llm-660d0133dff6856f94ce0fc6

视频:https://youtu.be/eCEQxabSnRM

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读