FAIR 的新研究:通过多标记预测更好更快的大型语言模型

Meta AI 重新介绍了一下他们的新论文,通过一次预测多个词汇来加速 LLM 的训练。

通常语言模型都是根据已知词汇预测下一个词。而这篇论文提出每次预测接下来的多个词,而不仅仅是一个词。

这种方法可以在不增加训练时间的情况下,提高代码和自然语言模型在下游任务上的能力。对于规模更大的模型,这种改进效果更加明显。

用4词预测训练的模型在推理时最多可以提速3倍,即使在处理大批量数据时也是如此。

我们表明,用多个标记预测替换下一个标记预测任务可以在完全相同的训练预算和数据下获得更好的代码生成性能,同时还将推理性能提高 3 倍。

虽然类似的方法之前已用于微调以提高推理速度,但这项研究扩展到大型模型的预训练,在这些规模上显示了显着的行为和结果。

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

研究论文 : https://go.fb.me/wty7gj
Paper: https://arxiv.org/abs/2404.19737

视频:https://youtu.be/YA89EFgmquY

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读