FRESCO这个视频转绘项目的代码已经发布,也在项目页面发布了更多的演示,看起来相当稳定。
分类: AI行业应用
Gatekeep:一个新型的文本转视频 AI,专注与教学
它可以通过文本提示将数学、物理问题转换成视频内容 它会自动生成包括图表、图示、动画原理,还包含讲解内容的2分钟左右的视频。 能非常直观的帮助你了解一些知识和原理。
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目 VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频
H2O:将人类动作实时转换为机器人动作,实时全身遥控机器人
Human to Humanoid (H2O)由卡内基梅隆大学的研究团队开发,它允许人们通过一个简单的RGB摄像头让机器人实时模仿人的全部动作。
Optimizer AI:专门为视频自动生成音效的AI工具 可以为AI视频自动配音
能够通过文字提示创造出适用于各种场景的声音和音效 如游戏中的射击和跳跃声音、动画中的雨声环境以及视频中的地铁到站声音等。
ChatGPT 语音朗读功能开始灰度测试
设置好语音,点击播放按钮,可以自动朗读GPT生成的内容 ChatGPT 的数据分析Data Analysis 将升级到V2 版本,功能更加强大!
Sanctuary AI旗下的Phoenix机器人最新演示视频
Phoenix是世界上第一个由Carbon驱动的人形通用机器人,这是一个开创性且独特的AI控制系统,可以赋予机器人人类般的智能! Carbon可以将自然语言转化为现实世界中的行动。可以使机器人可以完成十几个不同行业确定的数百项任务。
Pika推出LipSync【唇部同步】功能
Lip Sync即可将生成视频中人物的嘴部动画和音频同步
YOLOv9:实时对象检测,能够快速准确地在图像或视频中识别和定位多个对象
之前的YOLO系列模型相比,YOLOv9在不牺牲性能的前提下实现模型的轻量化,同时保持更高的准确率和效率。 这使得它可以在各种设备和环境中运行,如移动设备、嵌入式系统和边缘计算设备。 YOLOv9通过改进模型架构和训练方法,提高了对象检测的准确性和效率
UMI:斯坦福开发的一个机器人数据收集和策略学习框架
UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。 也就是通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务 UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。
YOLOv8:目标检测跟踪模型
YOLOv8能够在图像或视频帧中快速准确地识别和定位多个对象,还能跟踪它们的移动,并将其分类。 除了检测对象,YOLOv8还可以区分对象的确切轮廓,进行实例分割、估计人体的姿态、帮助识别和分析医学影像中的特定模式等多种计算机视觉任务。
Google的一个新的视频模型:VideoPoet
它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。 不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从视频中生成音频。 一条龙服务... 例如,VideoPoet...
Vicarious :允许外科医生360度可视化和进入腹部的手术机器人
该机器人只需要1.5厘米的小切口来进行腹部手术,这比一枚硬币还小,大大减少了手术对患者身体的伤害和术后恢复时间。
1X’s :神经网络视觉端到端学习机器人
该机器人能够完全独立地执行任务,无需人类远程操控或通过预设脚本。 所有动作都是实时通过神经网络计算得出。 机器人基于视觉的端到端神经网络直接从图像中学习如何控制其动作,包括驾驶、操纵手臂和抓取器、控制躯干和头部等。
AzureOpenAIService宣布了一系列新功能
包括公开预览的Assistants API、新的文本到语音(TTS)功能、即将推出的GPT-4 Turbo和GPT-3.5 Turbo模型更新、新的嵌入模型以及微调API的更新。 与之前的聊天完成API相比,Assistants API能够记住之前的对话内容,创建持久化和无限长的线程。 ...
Archax:是一款搭乘操作型机器人
通过驾驶舱进行直接操控,用户可以打开舱盖,进入驾驶舱,与机器人合为一体进行操控。 26个关节自由度,有机器人 / 车辆两种模式。 驾驶舱内部设有四面显示屏,用于显示机器人外部的摄像头画面。