AI行业应用, 多媒体处理

Canva 收购 Leonardo.ai,提升生成式 AI 能力

Canva 已收购澳大利亚 AI 初创公司 Leonardo.ai,获得了其文本转图像和文本转视频生成器的访问权限。此举加强了 Canva 在生成式 AI 市场的地位,有可能挑战 Adobe 的主导地位。
Leonardo.ai 的技术将被整合到 Canva 的 Magic Studio 产品中,而其平台将保持独立运营。此次收购正值 Canva 寻求扩展其创意套件并与 Adobe 的 Firefly 模型竞争之际。然而,Canva 面临对其数据训练实践的审查,需要应对围绕生成式 AI 的伦理问题。

AI巨头, Apple

Apple云端大模型取得了超过 GPT-4 的成绩

Apple大模型的报告也已出炉,披露了大量技术细节。报告显示,在指令遵循、文本总结等任务上,苹果云端大模型取得了超过 GPT-4 的成绩。

苹果进行了 IFEval 测试,结果在指令和 prompt 两个层次上,云侧 AFM 都超过了 GPT-4,成为了新的 SOTA。端侧模型的表现,也超过了 Llama 3-8B、Mistral-7B 等近似规模的模型。在 AlpacaEval 当中,端侧和云侧 AFM 也都取得了第二名的成绩。

AI巨头, Alphabet, Apple

苹果弃用英伟达,转而使用谷歌 AI 芯片

苹果透露,其新的人工智能模型训练使用了谷歌的张量处理单元 (TPU),而不是英伟达的 GPU。这一决定意义重大,因为英伟达在 AI 芯片市场占据主导地位,份额高达 80%。
苹果在其 iPhone AI 模型中部署了 2048 个 TPUv5p 芯片,在其服务器 AI 模型中部署了 8192 个 TPUv4 处理器。

AI新搜索, AI行业应用

SeekAll插件发布两周时间

这是一个让你能够一键同时向多个AI提问的完全免费浏览器插件。
目前支持了新标签页打开和新窗口打开两种模式,

还在开发浏览器侧边栏,能够让你在新标签页打开时垂直查看打开的多个标签页,估计下周能发布。

AI行业应用, 多媒体处理

CLASI :字节跳动开发的端到端语音同步翻译系统

CLASI是由字节跳动开发的一个高质量的同时语音翻译系统,类似于专业的人类译员。它能实时翻译语音内容,保持高翻译质量和低延迟。CLASI利用先进的数据策略和多模态检索技术来处理复杂的术语和不清晰的语音信息。

CLASI会根据当前的音频内容,结合外部知识库和历史上下文,生成准确且容错的翻译。它在各种测试数据集上的表现都非常出色,能够传达更多有效信息。

AI巨头, Alphabet

人工智能在国际数学奥林匹克中达到银牌标准

谷歌的人工智能系统AlphaProof和AlphaGeometry 2取得了突破性成就,成功解决了2024年国际数学奥林匹克(IMO)中的六个问题中的四个,获得了相当于银牌的分数。这是首次有人工智能系统在这一享有盛誉的比赛中达到如此高水平的表现。

AlphaProof是一种强化学习系统,解决了两个代数问题和一个数论问题,包括本次比赛中最具挑战性的题目。AlphaGeometry 2是其前身的改进版本,解决了几何问题。这些人工智能系统总共获得28分,在每个解决的问题上都得到了满分。

AI行业应用, 多媒体处理

Vozo:AI视频生成器

Vozo Rewrite & Redub 是一款创新的视频编辑工具,你可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步,然后生成新的视频。

无论是将经典视频转变为病毒视频宣传片,还是将普通视频变成喜剧,亦或是将一种语言翻译成多种语言,Vozo 都能在几秒钟内完成。

AI行业应用, 多媒体处理

Udio进行重大升级,大幅提升音乐音质和控制

大部分新功能需要订阅标准版才可以用,目前的定价是 10 美元/月

AI 说唱生成器是一款尖端工具,利用先进的人工智能来创作独特的说唱歌曲。无论您是经验丰富的艺术家还是只是想享受乐趣,我们的人工智能说唱生成器都提供了一种无缝的方式来制作个性化的说唱音乐。您可以输入自己的歌词、选择乐器并选择音乐风格,以根据您的喜好精确定制您的说唱歌曲。

AI巨头, AI新搜索, AI行业应用, OpenAI

OpenAI测试AI搜索功能SearchGPT

SearchGPT目前只是临时的原型,计划未来将新功能中最佳的那些直接融入ChatGPT。OpenAI将首先只对一小部分用户和发行商开放SearchGPT,从中获取反馈。

OpenAI并未在官网透露具体将接纳多少测试者。不过,OpenAI的发言人Kayla Wood告诉媒体,SearchGPT的服务由GPT-4系列模型提供支持,SearchGPT发布时仅提供1万名用户的测试名额。

AI行业应用, AI项目, 开源项目, 运动跟踪

RoboflowSports :跟踪检测和识别运动员行为

RoboflowSports是一个使用深度学习模型检测和识别运动员行为分析的工具。它通过检测和分割运动员和足球等对象,为体育数据分析提供了强大的工具。

它能识别并分割图像中的不同对象,例如运动员和足球,提供更精细的图像分析。通过精确的对象检测和图像分割技术,提供更高精度的体育数据分析,帮助教练和分析师更好地了解比赛情况和运动员表现。

AI行业应用, AI项目, 多媒体处理, 开源项目

SpeechGPT2:一个端到端的语音对话语言模型

它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应,如说唱、戏剧、机器人、搞笑和低语等。

超过10万小时的学术和野外收集的语音数据, 涵盖了丰富的语音场景和风格。

SpeechGPT2 是在有限资源下的技术探索,由于计算和数据资源的限制,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。

AI项目

Mistral AI 发布最新一代开源模型:Mistral Large 2

Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。

紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大」。

滚动至顶部