AI news tracing site - 第 55 页 - AI news tracing

多模态 LLM 的进展

Tarogo Cloud / 28 2 月, 2024

过去几周，多模态 LLMs（MM-LLMs）研究论文激增。
在这些出版物中，有一份不错的综合调查报告，总结了现有的 26 种 MM-LLMs 。

AI项目, 开源项目

Anything in Any Scene：在现有动态视频中无缝插入任何物体

Tarogo Cloud / 28 2 月, 2024

1、物体的准确放置：确保新插入的物体在视频中的位置看起来自然、合理，与视频场景的其他元素和空间布局协调一致。
2、光照和阴影的真实模拟：通过分析和模拟视频中的光照条件及其对物体的影响，生成看起来自然的阴影和光照效果，增强物体与环境的整合度。
3、风格一致性：应用风格转换技术，调整和优化视频的视觉效果，使得插入的物体在色彩、纹理等方面与背景视频保持一致，进一步提升整个视频的真实感和观感质量。

一场耗资100万美元的竞赛

Tarogo Cloud / 28 2 月, 2024

旨在从公元 79 年维苏威火山喷发埋藏的烧焦卷轴扫描件中提取文本。
获胜的人工智能算法揭示了超过 2,000 个可读字符！

AI项目, 多媒体处理, 开源项目

MetaVoice-1B：高度真实和自然的文本到语音（TTS）转换模型

Tarogo Cloud / 27 2 月, 2024

模型有1.2亿个参数，经过了10万小时的语音数据训练。

专注英语情感演讲
跨语言语音克隆
支持美国和英国声音的零样本克隆
支持长篇内容语音合成

MLBlocks：无代码AI图像生成和分析工作流平台

Tarogo Cloud / 27 2 月, 2024

它提供了一个拖放式的界面，允许用户轻松地创建复杂的图像处理工作流，无需编写任何代码。
你只根据需要将不同的功能块（如图像编辑功能和AI模型）组合在一起，即可实现个性化的图像自动化处理。
该工具主要解决在电商领域遇到的批量处理图片问题。

ElevenLabs 推出了自己的官方GPTs

Tarogo Cloud / 26 2 月, 2024

通过你的提示生成有声读物
提供在线链接，帮你朗读在线文章
上传的任何文档内容，帮你转换成语音
粘贴或输入任何内容转换为语音

Stable Video 处理图像运动能力效果演示

Tarogo Cloud / 26 2 月, 2024

可以看出Stable Video在处理动作场景，尤其是当视频中包含跑步者、汽车或舞者等动态元素时，能力惊人

Glif StyleHunter：一个Chrome浏览器扩展

Tarogo Cloud / 25 2 月, 2024

只需右键点击图像并输入你的提示词，就能将该图像风格直接应用到你想要创造的新图像上，无论是模仿那个风格，还是将其与其他风格结合创造出全新的作品。

AI项目, Alphabet

谷歌在Bard谷歌地图和Imagen-2升级

Tarogo Cloud / 25 2 月, 2024

谷歌在Bard谷歌地图和Imagen-2升级，亚马逊推出了人工智能购物助手“Rufus”

此外，亚马逊、Sam Altman、佐治亚理工学院、Meta、Arc 和 Anthropic 在人工智能方面取得了巨大进展。

Midjourney发布了Niji-v6

Tarogo Cloud / 24 2 月, 2024

在创作疯狂的动漫图像和视频

在 Midjourney V6 中测试了新的 Niji 风格，并使用 Domo AI 对其进行了动画处理。

动漫武士超级英雄和恶棍！
使用 @runwayml #AI 视频工具和 Midjourney 新发布的 Niji v6 创建。

@MultiOn_AI 是一个很牛X的AI代理

Tarogo Cloud / 24 2 月, 2024

可以利用GPT访问网络，订机票、订酒店、订外卖…访问各种网站模拟人类操作。

AppleVisionPro的数款新应用：

Tarogo Cloud / 23 2 月, 2024

1/ @seasons_app
2/ 苹果音乐
3/ JigSpace app

退出移动版