分类: AI巨头

Adobe Premiere Pro 发布重大更新

引入 AI 视频编辑和第三方Sora等AI视频模型 Adobe Premiere Pro将在今年晚些时候推出第三方AI模型,让编辑人员可以选择最适合他们素材的模型,直接在软件中生成和编辑。

Google扩充Gemma开源家族

CodeGemma:专注于代码完成和代码生成任务,具备出色的数学和逻辑推理能力 RecurrentGemma:是一个为研究实验优化的高效架构,利用循环神经网络和局部注意力来提高内存效率。

OpenAI 发布了GPT-4-Turbo 正式版

gpt-4-turbo 、 gpt-4 和 gpt-3.5-turbo 指向各自的最新模型版本。您可以通过发送请求后查看响应对象来验证这一点。响应将包括所使用的特定模型版本(例如 gpt-3.5-turbo-0613 )。

Google宣布Gemini-1.5-Pro开放API

Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理,意味着这个模型具备了理解和处理视频内容的能力,不仅限于视频的视觉部分(如图像帧),也包括音频部分(如对话、背景音乐等)。

Meta发布了最新的Llama3

首次发布的是 Llama 3 系列中的两款参数分别为 8B 和 70B 的模型。 最大参数的 400+ B 的模型还在开发中,预计几个月内发布。

Google DeepMind 展示深度混合:

来自 Google DeepMind、麦吉尔大学和 Mila 的研究人员推出了一种突破性的方法,称为深度混合 (MoD),它不同于传统的统一资源分配模型。 MoD 使 Transformer...

Claude发布函数调用工具:Tool use

允许模型与外部系统和数据进行交互 使用Tool use (function calling)功能,Claude不仅能够生成文本或回答问题,还能实际调用外部定义的函数或工具来执行特定操作,如获取当前的天气信息、执行数学计算等。

Meta 宣布推出 URHand

模型是基于光级数据构建的 Relightable Hands 的高保真通用先验。它概括为新颖的观点、姿势、身份和照明,从而可以通过手机扫描进行快速个性化

Alex Reben, 雕塑家艺术家,OpenAI 的驻地艺术家

Alexander Reben 这十年来致力于创作艺术作品,这些作品探讨了人工智能(AI)中人性的幽默与荒谬。 他通过手工将 AI 生成的图像转换成三维模型,并将这些模型具象化于现实世界中,创造出一系列雕塑作品。

SunoAI音乐新手指南

Suno创作音乐的小技巧: 如果你想参考某个现有歌曲的节奏,可以在这个网站查询歌曲的BPM和Key,作为提示词写进去。

Google Gemini API Cookbook

Google 官方Gemini API提供的指南和示例集合 帮助开发者更好地理解和使用Gemini API,包括如何构建应用程序、编写提示以及利用API的不同特性。

Open-Sora开源了

包括完整的文本到视频模型训练过程、数据处理、训练细节和模型检查点。 该项目由@YangYou1991 团队开发 这是 OpenAI Sora 在视频生成方面的开源替代方案。 可以在仅仅3天的训练后生成2~5秒的512x512视频。