Chinese Tiny 第一个以中文为中心的完全开源大语言模型

Watch this video on YouTube

主要在中文语料库上进行预训练和微调。

他们还发布了与之配套的MAP-CC中文数据集、CHC-Bench中文模型测试基准。

详细介绍：

CT-LLM从头开始构建，与传统方法不同，它主要包含中文文本数据，利用了总量高达1200亿Token的庞大语料库，其中800亿是中文Token，300亿是英文Token，还有100亿是代码Token。
这种独特的结构让CT-LLM在理解和处理中文方面表现出色，这一点通过对齐技术得到了进一步提升。
CT-LLM在中文难例基准（CHC-Bench）上表现出卓越的性能，在中文任务中大放异彩，同时在英文任务上也通过SFT（Sentence Functional Testing）展示了其能力。
这项研究挑战了传统的以英文为主的大语言模型训练方式，为大语言模型的训练方法开辟了新视野。
我们公开了完整的中文大语言模型训练过程，包括使用Massive Appropriate Pretraining Chinese Corpus（MAP-CC，庞大适宜的预训练中文语料库）的详细数据处理步骤、精选的中文难例基准（CHC-Bench），以及2B规模的中文Tiny LLM（CT-LLM）。

项目地址：https://chinese-tiny-llm.github.io/
数据和模型下载：https://huggingface.co/collections/m-a-p/chinese-tiny-llm-660d0133dff6856f94ce0fc6

视频：https://youtu.be/eCEQxabSnRM

Chinese Tiny 第一个以中文为中心的完全开源大语言模型

详细介绍：

AI-Agent-In-Action开源的开发实战书籍

视频生成模型“Sora”的5个弱点

Magnific AI 图像升级器再升级

一款语音工具：sherpa-onnx

精选内容 · 赞助推荐

多语言翻译

分類

热门标签

Donate

Subscribe to Blog via Email

详细介绍：

分享此文：

AI-Agent-In-Action开源的开发实战书籍

视频生成模型“Sora”的5个弱点

Magnific AI 图像升级器再升级

一款语音工具：sherpa-onnx

精选内容 · 赞助推荐

多语言翻译

分類

热门标签

Donate

Subscribe to Blog via Email