Google宣布Gemini-1.5-Pro开放API

现已在180多个国家提供

新增对原生音频(语音)理解能力、文件API、系统指令、JSON模式等功能

现在Gemini模型能够直接处理音频输入,而不需要将音频先转换为文本。

新的使用案例解锁:音频和视频模态

Gemini 1.5 Pro扩展了输入模态,包括在Gemini API和Google AI Studio中理解音频(语音)。

此外,Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理,意味着这个模型具备了理解和处理视频内容的能力,不仅限于视频的视觉部分(如图像帧),也包括音频部分(如对话、背景音乐等)。

应用潜力包括:

1.多模态理解:Gemini 1.5 Pro能够综合视频中的视觉信息和音频信息,进行更全面的内容理解。例如,它可以通过分析视频帧中的场景和物体,同时听取视频中的对话或声音,来更准确地识别和解释视频内容。
2.内容索引和搜索:通过对视频图像和音频的深入理解,Gemini 1.5 Pro可以帮助创建更详细的内容索引,使用户能够基于视频内容的视觉和听觉信息进行搜索。
3.增强的交互体验:利用对视频的综合理解,可以开发更丰富的交互式应用,比如自动生成视频摘要、基于内容的推荐系统,或者创建互动式学习和娱乐体验。
4.视频内容分析:Gemini 1.5 Pro可以用于视频监控、内容审查、情感分析等场景,通过同时理解视频和音频内容,AI可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。
5.创意内容生成:对视频图像和音频的综合理解也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。

Gemini API改进

1.系统指令:通过系统指令引导模型响应,现已在Google AI Studio和Gemini API中提供。定义角色、格式、目标和规则来指导模型的行为,以适应特定用例。
2.JSON模式:指示模型仅输出JSON对象。该模式支持从文本或图像中提取结构化数据。可以使用cURL开始,并且Python SDK支持即将推出。
3.函数调用的改进:现在可以选择模式来限制模型的输出,提高可靠性。选择文本、函数调用或仅函数本身。

新的嵌入模型,性能得到提升

从今天开始,开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型,text-embedding-004(在Vertex AI中为text-embedding-preview-0409),在MTEB基准测试中取得更强的检索性能,超过了具有可比维度的所有现有模型。

详细:https://goo.gle/3xxaUH1
音频理解能力:https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

视频:https://youtu.be/o2XnUDxUmMA

了解 Tarogo Cloud Bloger & Shop 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读