SEED：一个先进的图像标记器

可赋予大语言模型视觉和绘图能力。

该项目由腾讯AILab-CVC团队开发，SEED的主要功能是将图像转换为一系列离散的视觉代码（visual codes）。它就像是一个“翻译器”，能把图片“翻译”成一种特殊的“语言”（视觉代码），这样机器人就能理解并处理它了。

这些代码具有1D因果依赖性和高级语义（SEED将图像信息转换成一串有顺序的代码，这些代码之间有因果关系，就像文本中的字或词。），使得它们能够与文本在同一个模型中进行处理。

项目：https://github.com/AILab-CVC/SEED
论文：https://arxiv.org/abs/2310.01218
演示：即将发布…

【如何工作？】

1、视觉代码生成：首先，SEED会把你给它的图片转换成一串特殊的代码（视觉代码）。这些代码包含了图片的所有重要信息，比如颜色、形状和物体。
2、与文本对齐：这些视觉代码是按照一定的顺序排列的，就像句子中的单词。这样，机器人就能像处理文本一样处理这些代码。
3、高级理解：更厉害的是，这些视觉代码还包含了图片的“意义”。比如，如果图片中有一只狗在跑，那么这些代码就能表达出“狗”和“跑”的概念。
4、多模态任务：一旦机器人通过SEED理解了这些视觉代码，它就能做很多之前做不了的事情，比如描述图片、回答关于图片的问题，甚至根据你的描述生成新的图片。

举例：

假设你有一张图片，图片中是一只黄色的小狗在草地上玩球。你问机器人：“这张图片是什么？”

没有SEED：机器人会说，“对不起，我看不懂图片。”
有SEED：SEED会先把图片转换成视觉代码，然后机器人会说，“这是一只黄色的小狗在草地上玩球。”

通过SEED，机器人不仅能理解文本，还能理解和生成图像，从而变得更加强大和多功能。

【集成到大型语言模型】

将SEED与大语言模型集成，可以实现多模态的处理能力。这样的模型不仅能处理纯文本任务，还能处理图像标题、图像/视频问题回答、以及文本到图像生成等多模态任务。

SEED-LLaMA：

SEED-LLaMA是一个预训练的大语言模型（LLM），它集成了SEED标记器。该模型在多模态数据上进行预训练，并通过指令调优（进行微调。

功能和性能：

能够处理图像标题、图像/视频问题回答和文本到图像生成等多种任务。

展示了多轮上下文中多模态生成的组合性突现能力。

这意味着SEED不仅能单独处理图像或文本，还能在多轮对话中结合两者生成新的内容。例如，它可以根据文本描述生成图像，然后再根据新的文本输入修改这个图像。

举例：

假设你首先描述了一个“红色的苹果”，SEED生成了一个红色苹果的图像。然后你又说，“加一个绿叶子”，SEED能在原来的红色苹果图像上添加一个绿叶子。

实验结果：

SEED-LLaMA在多个多模态任务上表现出色，包括图像标题、图像/视频问题回答和文本到图像生成等。

【如何工作？】

举例：

【集成到大型语言模型】

SEED-LLaMA：

功能和性能：

举例：

实验结果：

分享到：

相关文章