通义千问发布Qwen1.5-110B

首款超1000亿参数模型

Qwen1.5-110B是Qwen1.5系列中的新成员,也是该系列首个拥有超过1000亿参数的模型。

该模型在基础模型评估中表现出色,与Meta-Llama3-70B相媲美,并在聊天模型评估(包括MT-Bench和AlpacaEval 2.0)中表现出色。

模型支持多语言,包括英语、中文、法语、西班牙语等,上下文长度可达32K令牌。

模型特性:

  • 架构:采用Transformer解码器架构,具有分组查询注意力(GQA)。
  • 性能:在标准评估和聊天模型评估中均展现卓越性能。
  • 多语言支持:支持多种语言,上下文长度可达32K令牌。

根据官方公布的评测结果

Qwen1.5-110B模型的评测结果略略超过Llama-3-70B和Mixtral-8×22B。

Qwen1.5-110B模型在综合理解(MMLU)、数学推理(GSM8K和MATH)方面得分比Llama-3-70B略高一点点,是几个模型中最强的。而在复杂推理任务ARC-C上则略低于Mixtral-8×22B模型。在编程测试HumanEval得分则是远超另几个模型,而MBPP编程测试上则低于Mixtral-8×22B模型。

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

详细:https://qwenlm.github.io/blog/qwen1.5-110b/

视频:https://youtu.be/HZ8TrAyIpI8

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读