复旦大学的一个研究团队开发了 SpeechAlign,这是一个针对语音合成核心的创新框架,使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同,SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。
分类: AI行业应用
Open Sora 团队发布了另一个视频生成项目 MagicTime
开发了一套名为 MagicAdapter 的技术,通过分开处理空间和时间训练,它能从变形视频中提取更多的物理知识,并使预训练的T2V模型能够生成这类视频。 ...
国产的机器人:星尘智能AI机器人S1
星尘智能的英文名:Astribot 一款超级令人印象深刻的家用机器人,可以做饭、打扫卫生、洗衣服等。 它可以模仿人类动作迅速做出学习,而且灵活性极强
SAM模型视频分割项目
本项目的目标是运动分割——发现并分割视频中的运动对象。这是一个被广泛研究的领域,有许多仔细的、有时甚至是复杂的方法和训练方案,包括:自监督学习、从合成数据集学习、以对象为中心的表示、非模态表示等等。对本文的兴趣是确定 Segment Anything 模型 (SAM) 是否有助于完成此任务。
斯坦福大学和麻省理工学院的研究人员推出了搜索流
来自斯坦福大学、麻省理工学院和 Harvey Mudd 的研究人员设计了一种方法,通过将搜索过程表示为序列化字符串“搜索流”(SoS),来教授语言模型如何搜索和回溯。他们提出了一种统一的搜索语言,并通过倒计时游戏进行了演示。在搜索流上预训练基于 Transformer 的语言模型将准确率提高了...
巴西医生使用 Apple Vision Pro辅助手术
巴西的骨科医生Bruno Gobbato最近使用Vision Pro成功进行了肩袖撕裂的手术。这种手术通常是由于肌腱组织的长期磨损和撕裂造成的。
由人工智能控制的战斗机已经与人类飞行员进行了空中“狗斗”
2023年9月美国空军取得全球首次的突破,他们成功使用一架改装的F-16战斗机(X-62)与一架有人驾驶的F-16战机进行了空中对抗。
波士顿动力公司刚刚展示了新一代纯电动Atlas机器人
阿特拉斯一动不动地俯卧在互锁的健身垫上。唯一的配乐是电动机的呼呼声。确切地说,它并不安静,但与它祖先的液压冲击相比,这算不了什么。
一款开源的低成本的机器人手臂,成本只需$250
可以用来自己进行机器学习 机器人手臂设计为5自由度(DoF)加夹持器,允许它进行广泛的运动,包括旋转、上下举起、弯曲等。 两个这样的手臂还能够折叠衣服。
MuseV:虚拟人视频的完整解决方案
基于SD,支持文生视频、图生视频、视频生视频,能保持角色一致,不限视频长度。 后续会发布MuseTalk来支持实时嘴型同步。
哥伦比亚大学开发出了一种名为 Emo的人形机器人头
哥伦比亚大学的创意机器实验室开发出了一种名为 Emo 的人形机器人头它能够精准恰如其分的模拟面部表情。 Emo装备了26个精密的执行器,可以在 840 毫秒内预测和反映人类的面部表情,包括微笑。
NoLang:输入任何主题或者网页链接直接生成视频
它支持文字、网页链接、PDF、提问等直接转视频 也就是你输入文字、链接NoLang能以视频形式快速回答。 输入PDF文件,会先给你总结内容,然后根据总结的内容在生成一个解答视频。
VoiceCraft:官宣超过XTTS的语音模型
支持克隆音频,支持通过修改原始音频的文本来编辑音频,演示效果非常好,看起来很有潜力。
Gatekeep:一个新型的文本转视频 AI,专注与教学
它可以通过文本提示将数学、物理问题转换成视频内容 它会自动生成包括图表、图示、动画原理,还包含讲解内容的2分钟左右的视频。 能非常直观的帮助你了解一些知识和原理。
FRESCO这个视频转绘项目
FRESCO这个视频转绘项目的代码已经发布,也在项目页面发布了更多的演示,看起来相当稳定。
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目 VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频