分类: 开源项目

WhisperSpeech:一个开源的文本到语音系统

是通过对OpenAI的Whisper语音识别模型反向工程来实现的。 通过这种反转过程,WhisperSpeech能够接收文本输入,并利用修改后的Whisper模型生成听起来自然的语音输出。 输出的语音在发音准确性和自然度方面都非常的优秀。

BakedAvatar:实时创建和渲染逼真的动态 3D头像

只需要一个简短的视频,BakedAvatar就能从这个视频中复制出该人物3D头部模型。同时精确捕捉其面部特征,模拟表情和头部运动。 而且它还能对3D头部进行实时渲染,编辑和调整头像的表情、姿势等。 即使是在普通的移动设备上也能实现。

Google 发明了一种估算照片中光照条件的新方法

该技术可以在照片中加入一个看起来像是真实反射环境的铬球。这个铬球可以帮助计算出照片中的光照是怎样的。 然后,他们使用这些光照信息在照片中添加新的物体,使得这些物体看起来好像是在原来的光照条件下拍摄的一样。

GEO的概念:生成引擎优化

个专门针对生成引擎的印象度量标准! 实验表明,使用GEO的简单策略可以在商业生成引擎上显著提高内容的可见性,提升幅度高达40%。

M2UGen:多模态音乐理解和生成模型

M2UGen能够理解各种音乐,包括风格、演奏乐器、表达的情绪情感等,并进行音乐问答。 而且还能根据文本、图像、视频和音频生成各种音乐,同时对生成的音乐也能理解并根据文字描述对音乐进行编辑。