分类： AI行业应用 - 第 11 页 - Tarogo Cloud Bloger & Shop

Kyutai 发布全新的开源 AI语音助手 Moshi

188

13 8 月, 20249 8 月, 2024

AI行业应用, 多媒体处理

法国独立非盈利AI研究实验室Kyutai推出了具备70种情绪的语音助手Moshi，被视为GPT-4的新挑战者。此次在巴黎的演示显示，Moshi不仅具备多模态交互能力，还能实时生成具有情绪变化的语音，开创性地实现了语音AI的全新应用。

LobeChat：一键免费部署自己的私有聊天机器人

214

10 8 月, 20246 8 月, 2024

AI行业应用, 机器人

LobeChat 已经支持 OpenAI 最新的 gpt-4-vision 支持视觉识别的模型，这是一个具备视觉识别能力的多模态智能。用户可以轻松上传图片或者拖拽图片到对话框中，助手将能够识别图片内容，并在此基础上进行智能对话，构建更智能、更多元化的聊天场景。

EmoLLM ：一个用于心理健康领域的大模型项目

272

9 8 月, 20245 8 月, 2024

AI行业应用, 医疗AI

EmoLLM 是一个用于心理健康领域的大模型项目，通过对大型语言模型（LLM）进行指令微调，旨在支持用户理解、帮助用户进行心理健康辅导。帮助用户理解和管理情绪改善行为模式和应对策略提供心理健康评估和干预措施

Clone Robotics：仿生机器人的公司

599

8 8 月, 20244 8 月, 2024

AI行业应用, 机器人

Clone（克隆）所言，成立于 2021 年的 Clone 是一家致力于开发低成本、生物仿生和智能仿生机器人的公司。 Clone 的宗旨是运用先进的肌肉骨骼技术，打造类似于《西部世界》中的仿生机器人。在近期的宣传物料中，1:1...

Odyssey：提供影视级别的 AI 视频生成和编辑工具

151

3 8 月, 202429 8 月, 2024

AI项目, 多媒体处理

高质量几何生成：生成精细的三维几何形状，用于构建逼真的场景和物体。写实材质生成：创建高度真实的材质，使得生成的物体看起来更加生动和自然。惊艳的光照效果：生成和控制光照效果，增强场景的视觉冲击力和氛围。可控的运动生成：创建和调整动画和运动效果，使得场景和角色更加动态和逼真。

Color Health 与OpenAI 合作开发出Cancer Copilot

162

30 7 月, 202426 7 月, 2024

AI行业应用, 医疗AI

copilot旨在协助医生，而不是取代医生。他说：“我们称其为copilot，是因为它与工程助手的思维和模式非常相似。这并不是说copilot取代了（软件）工程师。” OpenAI和Color Health于去年开始研发本周一发布的copilot。

根据单张图像和音频输入生成唱歌和说话视频

170

28 7 月, 202429 8 月, 2024

AI项目, 多媒体处理

和EMO相比，该项目已开源😄 它能够通过输入语音，生成对应的人物嘴唇同步、表情变化和姿态变化的动画。提高了语音与生成动画之间的对齐精度，使动画的嘴唇、表情和姿态与语音更匹配。提供对角色表情、姿态和嘴唇运动的精确控制。支持多种表情和姿态的自适应控制，增强动画的多样性和真实性。

苹果发布的Translation API

326

26 7 月, 202422 7 月, 2024

AI行业应用, AI项目

苹果新出的翻译 API，不需要联网，完全使用本机大语言模型。使用翻译框架提供应用内翻译。您可以使用内置 UI，让系统代表您向用户提供翻译。或者您可以使用该框架来定制翻译体验。要提供内置系统翻译体验，请将视图修饰符锚定到包含要翻译的文本的 SwiftUI 视图。当您希望显示内置系统翻译...

Diffutoon：将任何真实感视频直接渲染为高清动漫风格

149

16 7 月, 202429 8 月, 2024

AI项目, 多媒体处理

提供了 Colab 笔记，直接运行就可以，不需要摆弄麻烦的 Comfyui 流程和一堆模型了。 Diffutoon 能够以动漫风格渲染出细节丰富、高分辨率和长时间的视频。它还可以通过一个附加模块根据提示编辑内容。

RTranslator ：一款开源、免费离线的实时翻译应用

140

15 7 月, 202411 7 月, 2024

AI行业应用, 多媒体处理

可实现多人、多语言的实时对话翻译用户可以通过蓝牙耳机连接应用，将手机放进口袋，与他人进行实时语言转换的对话，应用会自动翻译并播报对方的语言。

Runway最新视频生成模型上线

254

14 7 月, 202429 8 月, 2024

AI项目, 多媒体处理

Gen-3 Alpha是Runway的反击之作。Gen-3 Alpha的一大特点是生成的视频具有高精细度，它可以理解并生成复杂的场景和运动画面，还能胜任多种电影艺术手法。

未来的你，麻省理工学院让你与聪明、年长的自己聊天

143

13 7 月, 202410 7 月, 2024

AI行业应用, AI项目

麻省理工学院的研究人员（麻省理工学院简介）创建了一个聊天机器人感动于人工智能 (AI) 它模拟用户以前的“自我”并提供观察和建议。目标是鼓励人们今天更多地思考他们明天想成为的人。

世界上最小、最便宜的网络交换机

169

12 7 月, 202410 7 月, 2024

AI行业应用, 工具软件

高中机器人团队开发的世界上最小、最便宜的网络交换机 — Murex Robotics 使硬件完全开源高中生可以节省 90% 以上的价格，并减少专业解决方案的占用空间。

谷歌：个人健康大语言模型和智能体研究

155

11 7 月, 202410 7 月, 2024

AI巨头, AI行业应用

整合到临床任务中的移动和可穿戴设备为个人健康监测提供了丰富、连续和纵向的数据来源。本文提出一个新模型，个人健康大型语言模型(PH-LLM)，一个经过微调的Gemini版本，用于对数字时间序列个人健康数据的文本理解和推理，用于睡眠和健身应用。

Mobile-Agent-v2：让AI可以像真人一样来操控你的手机执行各种任务

192

9 7 月, 20245 7 月, 2024

AI行业应用, 机器人

阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2，一款通过多智能体协作实现有效导航的移动设备操作助手，它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能，让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机，从而执行各种任务。

自动翻译油管语言的插件

154

9 7 月, 20245 7 月, 2024

AI行业应用, Chrome插件

YouTube Dubbing插件，一键将英语视频转换为中文的声音进行播放，非常适合用来看国外教程类的视频，目前支持Youtube 和Udemy 。PC，Android ，IOS 都支持。