Google宣布Gemini-1.5-Pro开放API

Google宣布Gemini 1 5 Pro开放API

Watch this video on YouTube

现已在180多个国家提供

新增对原生音频（语音）理解能力、文件API、系统指令、JSON模式等功能

现在Gemini模型能够直接处理音频输入，而不需要将音频先转换为文本。

新的使用案例解锁：音频和视频模态

Gemini 1.5 Pro扩展了输入模态，包括在Gemini API和Google AI Studio中理解音频（语音）。

此外，Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像（帧）和音频（语音）的同时推理，意味着这个模型具备了理解和处理视频内容的能力，不仅限于视频的视觉部分（如图像帧），也包括音频部分（如对话、背景音乐等）。

应用潜力包括：

1.多模态理解：Gemini 1.5 Pro能够综合视频中的视觉信息和音频信息，进行更全面的内容理解。例如，它可以通过分析视频帧中的场景和物体，同时听取视频中的对话或声音，来更准确地识别和解释视频内容。
2.内容索引和搜索：通过对视频图像和音频的深入理解，Gemini 1.5 Pro可以帮助创建更详细的内容索引，使用户能够基于视频内容的视觉和听觉信息进行搜索。
3.增强的交互体验：利用对视频的综合理解，可以开发更丰富的交互式应用，比如自动生成视频摘要、基于内容的推荐系统，或者创建互动式学习和娱乐体验。
4.视频内容分析：Gemini 1.5 Pro可以用于视频监控、内容审查、情感分析等场景，通过同时理解视频和音频内容，AI可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。
5.创意内容生成：对视频图像和音频的综合理解也使得Gemini 1.5 Pro能够在内容创作领域发挥作用，如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。

Gemini API改进

1.系统指令：通过系统指令引导模型响应，现已在Google AI Studio和Gemini API中提供。定义角色、格式、目标和规则来指导模型的行为，以适应特定用例。
2.JSON模式：指示模型仅输出JSON对象。该模式支持从文本或图像中提取结构化数据。可以使用cURL开始，并且Python SDK支持即将推出。
3.函数调用的改进：现在可以选择模式来限制模型的输出，提高可靠性。选择文本、函数调用或仅函数本身。

新的嵌入模型，性能得到提升

从今天开始，开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型，text-embedding-004（在Vertex AI中为text-embedding-preview-0409），在MTEB基准测试中取得更强的检索性能，超过了具有可比维度的所有现有模型。

详细：https://goo.gle/3xxaUH1
音频理解能力：https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

视频：https://youtu.be/o2XnUDxUmMA

Google宣布Gemini-1.5-Pro开放API

新的使用案例解锁：音频和视频模态

应用潜力包括：

Gemini API改进

新的嵌入模型，性能得到提升

Google 推出 Circle to Search 划圈搜索

2023招商永隆银行开户

微软推出仅需文本内容即可转成真人视频的工具：Deepfakes Creator

适合所有人的美丽 AI 涂色页面

精选内容 · 赞助推荐

多语言翻译

分類

热门标签

Donate

Subscribe to Blog via Email

新的使用案例解锁：音频和视频模态

应用潜力包括：

Gemini API改进

新的嵌入模型，性能得到提升

分享此文：

Google 推出 Circle to Search 划圈搜索

2023招商永隆银行开户

微软推出仅需文本内容即可转成真人视频的工具：Deepfakes Creator

适合所有人的美丽 AI 涂色页面

精选内容 · 赞助推荐

多语言翻译

分類

热门标签

Donate

Subscribe to Blog via Email