苹果发布了一个多模态大模型

苹果12月14日释放了一个名为Ferret的多模态大语言模型,该模型不仅可以准确识别图像并描述其内容。

同时它还能够识别和定位图像中的各种元素,无论你用怎样的方式描述图像内容,Ferret都能准确地在图像中找到并识别出来。

Ferret拥有 (7B, 13B)两个版本,为了增强 Ferret 模型的能力苹果特别收集了一个GRIT 数据集。它包含了1.1M个样本,这些样本包含了丰富的层次空间知识。

主要功能和特点:

Ferret能够理解和处理图像与文本之间的复杂关系。这个模型的特别之处在于它能够识别和定位图像中的各种元素,无论这些元素是什么形状或大小。

比如在对话中引用图像的特定部分,或者根据文本描述在图像中找到特定物体。

Ferret 就像是一个能够理解图片和文字并将它们联系起来的智能系统。无论你在文本中提到图像的哪个部分,或者用怎样的方式描述,Ferret 都能准确地在图像中找到并识别出来。

1、多模态理解:Ferret 能够同时处理和理解图像(视觉信息)和文本(语言信息),这使得它能够在多种不同的模式之间建立联系。

2、空间指代理解:它能够识别和理解图像中特定区域的含义,即使这些区域的形状和大小各不相同。例如,如果文本提到图像中的某个特定部分,Ferret 能够识别出这部分是指什么。

3、理解复杂的文本描述:Ferret 能够理解各种类型的文本描述,无论这些描述是具体的还是抽象的。比如,“图像中红色车辆旁边的小狗”或“画面右上角的笑脸”。

4、开放词汇描述精准定位:根据这些文本描述,Ferret 能够在提供的图像中准确地找到并标记出相应的物体或区域。例如,它可以识别并指出图像中的“小狗”或“笑脸”的确切位置。无论用户如何描述他们想要找到的图像中的内容,Ferret 都能理解并响应。

5、混合区域表示:Ferret 使用一种创新的表示方法来处理图像中的区域。这种表示结合了离散坐标(如点或边界框的位置)和连续特征(如区域的视觉内容)。这允许模型理解和处理各种形状和大小的区域,从而提高了对图像的空间理解能力。

6、空间感知的视觉采样器:为了处理不同形状的区域,Ferret 引入了一个空间感知的视觉采样器。这个采样器能够根据区域的形状和稀疏性提取视觉特征,使模型能够处理从简单点到复杂多边形等各种形状的区域。

7、多样的区域输入:Ferret具有识别和理解图像中各种不同类型区域的能力。

它可以处理以下类型的区域输入:

点:Ferret 能够识别图像中的特定点,例如用户指定的一个具体位置。

边界框:它可以识别和理解图像中的边界框,这些边界框通常用来标记图像中的物体或特定区域。

自由形状:Ferret 还能处理更复杂的自由形状,比如手绘的轮廓、不规则图形或任意多边形。这种能力使得它可以更精确地识别和理解图像中的复杂区域。

这种处理多样区域输入的能力使得 Ferret 在图像理解方面非常灵活和强大,能够适应各种不同的应用场景和用户需求。无论用户提供的是简单的点标记、常规的边界框,还是复杂的自由形状,Ferret 都能准确地识别和处理。

8、GRIT 数据集:GRIT 数据集是专门为了训练和增强 Ferret 而收集的,包含了1.1M个样本。

这个数据集包含了丰富的层次空间知识,这意味着它涵盖了从简单物体到复杂空间关系的各种信息。 包含95K难负样本,这些是特别设计的挑战性样本,用于提高模型在处理困难情况下的鲁棒性和准确性。

主要表现:

1、Ferret-Bench评估:Ferret-Bench是为了评估Ferret而引入的一系列新任务,包括指称描述、指称推理和对话中的定位。在这些任务上,Ferret相比现有的最佳多模态大型语言模型(MLLM)平均提高了20.4%。这一结果表明Ferret在处理更复杂、更接近真实世界应用的任务时具有显著的优势。

2、改善对象幻觉:Ferret 在描述图像细节时能够减少错误或虚构的内容,这在自动图像描述和分析领域尤为重要。
它减轻了对象幻觉的问题,即在生成文本描述时减少了对不存在的对象的错误引用,提高了描述的准确性和可靠性。

3、Ferret 不仅在传统的指代和定位任务中表现优异,它能够更准确地理解和处理图像中的空间信息和语义。而且在需要指代/定位、语义、知识和推理的任务中也表现出色。

Ferret 能够更准确地描述图像细节,减少在生成文本时对不存在的对象的幻觉。 通过其创新的方法和技术,为多模态语言模型在空间理解和定位方面提供了新的可能性,特别是在处理复杂的图像和文本交互时。

适用于多种应用场景:

由于其强大的图像和文本处理能力,Ferret 适用于多种应用场景,包括图像搜索、自动图像标注、交互式媒体探索等。

GitHub:https://github.com/apple/ml-ferret
论文:https://arxiv.org/abs/2310.07704

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读