SEED:一个先进的图像标记器

可赋予大语言模型视觉和绘图能力。

该项目由腾讯AILab-CVC团队开发,SEED的主要功能是将图像转换为一系列离散的视觉代码(visual codes)。它就像是一个“翻译器”,能把图片“翻译”成一种特殊的“语言”(视觉代码),这样机器人就能理解并处理它了。

这些代码具有1D因果依赖性和高级语义(SEED将图像信息转换成一串有顺序的代码,这些代码之间有因果关系,就像文本中的字或词。),使得它们能够与文本在同一个模型中进行处理。

项目:https://github.com/AILab-CVC/SEED
论文:https://arxiv.org/abs/2310.01218
演示:即将发布…

【如何工作?】

1、视觉代码生成:首先,SEED会把你给它的图片转换成一串特殊的代码(视觉代码)。这些代码包含了图片的所有重要信息,比如颜色、形状和物体。
2、与文本对齐:这些视觉代码是按照一定的顺序排列的,就像句子中的单词。这样,机器人就能像处理文本一样处理这些代码。
3、高级理解:更厉害的是,这些视觉代码还包含了图片的“意义”。比如,如果图片中有一只狗在跑,那么这些代码就能表达出“狗”和“跑”的概念。
4、多模态任务:一旦机器人通过SEED理解了这些视觉代码,它就能做很多之前做不了的事情,比如描述图片、回答关于图片的问题,甚至根据你的描述生成新的图片。

举例:

假设你有一张图片,图片中是一只黄色的小狗在草地上玩球。你问机器人:“这张图片是什么?”

没有SEED:机器人会说,“对不起,我看不懂图片。”
有SEED:SEED会先把图片转换成视觉代码,然后机器人会说,“这是一只黄色的小狗在草地上玩球。”

通过SEED,机器人不仅能理解文本,还能理解和生成图像,从而变得更加强大和多功能。

【集成到大型语言模型】

将SEED与大语言模型集成,可以实现多模态的处理能力。这样的模型不仅能处理纯文本任务,还能处理图像标题、图像/视频问题回答、以及文本到图像生成等多模态任务。

SEED-LLaMA:

SEED-LLaMA是一个预训练的大语言模型(LLM),它集成了SEED标记器。该模型在多模态数据上进行预训练,并通过指令调优(进行微调。

功能和性能:

能够处理图像标题、图像/视频问题回答和文本到图像生成等多种任务。

展示了多轮上下文中多模态生成的组合性突现能力。

这意味着SEED不仅能单独处理图像或文本,还能在多轮对话中结合两者生成新的内容。例如,它可以根据文本描述生成图像,然后再根据新的文本输入修改这个图像。

举例:

假设你首先描述了一个“红色的苹果”,SEED生成了一个红色苹果的图像。然后你又说,“加一个绿叶子”,SEED能在原来的红色苹果图像上添加一个绿叶子。

实验结果:

SEED-LLaMA在多个多模态任务上表现出色,包括图像标题、图像/视频问题回答和文本到图像生成等。

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读