Google推出开源视觉语言模型:PaliGemma

支持图像视频等多种视觉语言任务
包括支持图像和短视频字幕、视觉问答、图像文本理解、物体检测文件图表解读、图像分割等任务。
PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。

在 Google,我们相信协作和开放研究能够推动创新,我们很高兴看到 Gemma 受到社区的欢迎,在发布后的短短几个月内就获得了数百万次下载。

这种热烈的反应非常鼓舞人心,因为开发人员创建了各种各样的项目,例如 Navarasa(印度语言的多语言变体)到 Octopus v2(一种设备上操作模型),开发人员正在展示 Gemma 创造有影响力且易于访问的项目的潜力人工智能解决方案。

这种探索和创造力的精神也推动了我们开发 CodeGemma(具有强大的代码补全和生成功能)和 RecurrentGemma(提供高效的推理和研究可能性)。

Gemma 是一系列轻量级、最先进的开放式模型,采用与创建 Gemini 模型相同的研究和技术而构建。今天,我们很高兴通过推出 PaliGemma(一种强大的开放视觉语言模型 (VLM))进一步扩展 Gemma 系列,并通过发布 Gemma 2 来预览不久的将来。此外,我们正在进一步扩展我们对负责任的人工智能的承诺,更新了负责任的生成人工智能工具包,为开发人员提供了新的和增强的工具来评估模型安全性和过滤有害内容。

介绍 PaliGemma:开放视觉语言模型
PaliGemma 是一个功能强大的开放式 VLM,其灵感来自 PaLI-3。 PaliGemma 基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件构建,旨在在各种视觉语言任务上实现一流的微调性能。这包括图像和短视频字幕、视觉问答、理解图像中的文本、对象检测和对象分割。

我们提供多种分辨率下的预训练和微调检查点,以及专门针对混合任务进行调整的检查点以进行即时探索。

为了促进开放探索和研究,PaliGemma 可通过各种平台和资源获得。立即开始使用 Kaggle 和 Colab 笔记本等免费选项进行探索。寻求突破视觉语言研究界限的学术研究人员也可以申请 Google Cloud 积分来支持他们的工作。

今天就开始使用 PaliGemma。您可以在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com(使用 TensoRT-LLM 加速)上找到 PaliGemma,并通过 JAX 和 Hugging Face Transformer 轻松集成。 (Keras 集成即将推出)您还可以通过这个 Hugging Face Space 与模型进行交互。

宣布 Gemma 2:下一代性能和效率
我们很高兴地宣布下一代 Gemma 型号 Gemma 2 即将上市。 Gemma 2 将提供新尺寸,适合广泛的人工智能开发人员使用案例,并采用专为突破性性能和效率而设计的全新架构,具有以下优势:

领先的性能:Gemma 2 具有 270 亿个参数,其性能可与 Llama 3 70B 相媲美,但尺寸却只有 Llama 3 70B 的一半。这种突破性的效率为开放模型领域树立了新标准。

降低部署成本:Gemma 2 的高效设计使其所需的计算量少于同类模型的一半。 27B 模型经过优化,可以在 NVIDIA 的 GPU 上运行,也可以在 Vertex AI 中的单个 TPU 主机上高效运行,从而使更广泛的用户更易于部署且更具成本效益。

多功能调优工具链:Gemma 2 将为开发人员提供跨越不同平台和工具生态系统的强大调优功能。从 Google Cloud 等基于云的解决方案到 Axolotl 等流行的社区工具,微调 Gemma 2 将比以往更容易。此外,与 Hugging Face 和 NVIDIA TensorRT-LLM 以及我们自己的 JAX 和 Keras 的无缝合作伙伴集成可确保您可以优化性能并跨各种硬件配置进行高效部署。

扩展负责任的生成式人工智能工具包
因此,我们正在扩展我们的 Responsible Generative AI Toolkit,通过发布开源的 LLM 比较器来帮助开发人员进行更强大的模型评估。 LLM 比较器是一种新的交互式和可视化工具,用于执行有效的并行评估,以评估模型响应的质量和安全性。要查看 LLM 比较器的实际效果,请浏览我们的演示,其中展示了 Gemma 1.1 和 Gemma 1.0 之间的比较。

我们希望该工具能够进一步推进工具包的使命,帮助开发人员创建不仅具有创新性,而且安全且负责任的人工智能应用程序。

随着我们不断扩展 Gemma 开放模型系列,我们仍然致力于营造一个协作环境,让尖端人工智能技术和负责任的开发齐头并进。我们很高兴看到您使用这些新工具构建了什么,以及我们如何共同塑造人工智能的未来。

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

原文:https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/

油管:https://youtu.be/3GUQK3Lwqh8

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读