高质量几何生成:生成精细的三维几何形状,用于构建逼真的场景和物体。 写实材质生成:创建高度真实的材质,使得生成的物体看起来更加生动和自然。 惊艳的光照效果:生成和控制光照效果,增强场景的视觉冲击力和氛围。 可控的运动生成:创建和调整动画和运动效果,使得场景和角色更加动态和逼真。
分类: AI行业应用
Color Health 与OpenAI 合作 开发出Cancer Copilot
copilot旨在协助医生,而不是取代医生。他说:“我们称其为copilot,是因为它与工程助手的思维和模式非常相似。这并不是说copilot取代了(软件)工程师。” OpenAI和Color Health于去年开始研发本周一发布的copilot。
根据单张图像和音频输入生成唱歌和说话视频
和EMO相比,该项目已开源😄 它能够通过输入语音,生成对应的人物嘴唇同步、表情变化和姿态变化的动画。 提高了语音与生成动画之间的对齐精度,使动画的嘴唇、表情和姿态与语音更匹配。 提供对角色表情、姿态和嘴唇运动的精确控制。 支持多种表情和姿态的自适应控制,增强动画的多样性和真实性。
苹果发布的Translation API
苹果新出的翻译 API,不需要联网,完全使用本机大语言模型。 使用翻译框架提供应用内翻译。您可以使用内置 UI,让系统代表您向用户提供翻译。或者您可以使用该框架来定制翻译体验。 要提供内置系统翻译体验,请将视图修饰符锚定到包含要翻译的文本的 SwiftUI 视图。当您希望显示内置系统翻译...
Diffutoon:将任何真实感视频直接渲染为高清动漫风格
提供了 Colab 笔记,直接运行就可以,不需要摆弄麻烦的 Comfyui 流程和一堆模型了。 Diffutoon 能够以动漫风格渲染出细节丰富、高分辨率和长时间的视频。它还可以通过一个附加模块根据提示编辑内容。
RTranslator :一款开源、免费离线的实时翻译应用
可实现多人、多语言的实时对话翻译 用户可以通过蓝牙耳机连接应用,将手机放进口袋,与他人进行实时语言转换的对话,应用会自动翻译并播报对方的语言。
Runway最新视频生成模型上线
Gen-3 Alpha是Runway的反击之作。Gen-3 Alpha的一大特点是生成的视频具有高精细度,它可以理解并生成复杂的场景和运动画面,还能胜任多种电影艺术手法。
未来的你,麻省理工学院让你与聪明、年长的自己聊天
麻省理工学院的研究人员(麻省理工学院简介)创建了一个 聊天机器人 感动于 人工智能 (AI) 它模拟用户以前的“自我”并提供观察和建议。 目标是鼓励人们今天更多地思考他们明天想成为的人。
世界上最小、最便宜的网络交换机
高中机器人团队开发的世界上最小、最便宜的网络交换机 — Murex Robotics 使硬件完全开源 高中生可以节省 90% 以上的价格,并减少专业解决方案的占用空间。
谷歌:个人健康大语言模型和智能体研究
整合到临床任务中的移动和可穿戴设备为个人健康监测提供了丰富、连续和纵向的数据来源。本文提出一个新模型,个人健康大型语言模型(PH-LLM),一个经过微调的Gemini版本,用于对数字时间序列个人健康数据的文本理解和推理,用于睡眠和健身应用。
Mobile-Agent-v2:让AI可以像真人一样来操控你的手机执行各种任务
阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2,一款通过多智能体协作实现有效导航的移动设备操作助手,它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能,让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机,从而执行各种任务。
自动翻译油管语言的插件
YouTube Dubbing插件,一键将英语视频转换为中文的声音进行播放,非常适合用来看国外教程类的视频, 目前支持Youtube 和Udemy 。PC,Android ,IOS 都支持。
Whisper WebGPU:使用 OpenAI Whisper 进行浏览器内实时语音识别
直接在网络浏览器中实现实时语音识别长期以来一直是一个备受追捧的里程碑。 Hugging Face 工程师(昵称“Xenova”)开发的 Whisper WebGPU 是一项突破性技术,利用 OpenAI 的 Whisper...
Luma AI推出了视频生成器,名为 Dream Machine
Luma AI 刚刚推出了一款类似 Sora 的 AI 视频生成器,名为 Dream Machine。 但与 Sora 或 KLING 不同的是,它完全向公众开放。
Truecaller允许用户克隆自己的声音,来让AI接听电话
Truecaller 很自豪地宣布与 Microsoft 建立合作伙伴关系,利用 Microsoft Azure AI Speech 的全新个人语音技术。 Truecaller 的 AI 助手于 2022 年 9 月首次推出,已经融合了多种 AI...
Google AI 医学影像模型
机器学习 (ML) 有潜力彻底改变医疗保健,从减少工作量和提高效率到发现新的生物标志物和疾病信号。为了负责任地利用这些好处,研究人员采用可解释性技术来了解机器学习模型如何进行预测。然而,当前基于显着性的方法突出了重要的图像区域,通常无法解释特定的视觉变化如何驱动机器学习决策。