是通过对OpenAI的Whisper语音识别模型反向工程来实现的。 通过这种反转过程,WhisperSpeech能够接收文本输入,并利用修改后的Whisper模型生成听起来自然的语音输出。 输出的语音在发音准确性和自然度方面都非常的优秀。
分类: 开源项目
PhotoMaker:创造出一个新的、个性化的人物图像
能根据描述生成符合描述的人物照片。 也能把几个不同人的照片特征混合在一起,创造出一个全新的人物形象。 还能改变照片人物的性别、年龄和生成多种风格的其他照片。
BakedAvatar:实时创建和渲染逼真的动态 3D头像
只需要一个简短的视频,BakedAvatar就能从这个视频中复制出该人物3D头部模型。同时精确捕捉其面部特征,模拟表情和头部运动。 而且它还能对3D头部进行实时渲染,编辑和调整头像的表情、姿势等。 即使是在普通的移动设备上也能实现。
斯坦福大学开发出一个几乎不会产生幻觉的模型:WikiChat
高度准确:因为它直接依赖于维基百科这个权威且更新频繁的信息源,所以WikiChat在提供事实和数据时非常准确。 减少“幻觉”:LLM在谈论最新事件或不太流行的话题时容易产生错误信息。WikiChat通过结合维基百科数据,减少了这种信息幻觉的发生。...
Clipper:一个开源的HTML到Markdown转换器和爬虫工具
它可以轻松的将网页内容转换成Markdown格式。 或者从网页中剪辑内容并将其转换为Markdown格式。 Clipper还提供了一个爬虫功能,用于爬取网站并剪辑所有页面。
Google 发明了一种估算照片中光照条件的新方法
该技术可以在照片中加入一个看起来像是真实反射环境的铬球。这个铬球可以帮助计算出照片中的光照是怎样的。 然后,他们使用这些光照信息在照片中添加新的物体,使得这些物体看起来好像是在原来的光照条件下拍摄的一样。
ChatGPT套壳开源程序大集合
提供一站式指南,涵盖常见问题解答和基础攻略,帮助用户成功运营套壳站。 同时提供了一些低成本的ChatGPT、Midjourney的API资源的信息。
GEO的概念:生成引擎优化
个专门针对生成引擎的印象度量标准! 实验表明,使用GEO的简单策略可以在商业生成引擎上显著提高内容的可见性,提升幅度高达40%。
M2UGen:多模态音乐理解和生成模型
M2UGen能够理解各种音乐,包括风格、演奏乐器、表达的情绪情感等,并进行音乐问答。 而且还能根据文本、图像、视频和音频生成各种音乐,同时对生成的音乐也能理解并根据文字描述对音乐进行编辑。
Pile:一款开源的界面非常整洁美观的AI日记软件
可以帮助你撰写和保存日记条目,记录你的思考和经历,当备忘录也可以!内置了OpenAI 的API功能,可以自己写提示词让AI帮你扩展你的想法和日记。
OpenVoice:多功能即时语音克隆
由MyShell TTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音,然后能生成多种语言的语音。
SSR-Encoder:从图像中提取关键特征来生成新的图像
SSR-Encoder能够提取图像中的多种特征,包括人物、视觉元素、风格、情感和细节等 然后它会利用提取的这些特征再结合文字提示,重新生成新的图像。
Radishes:分分钟复制一个网易云音乐🎵😁
Radishes一个开源的跨平台的无版权音乐平台,它提供的音乐全是无版权音乐。你可以自由地听歌和下载音乐,而不用担心版权问题。
GPT- Academic:专门为学术论文研究定制了一个优化的ChatGPT界面
界面包含了多种专门针对学术研究的编辑和交互功能,可以提高学术论文研究、编程和数据分析的效率和质量。
Flowpilot:只需一台二手手机,让老旧的燃油车也能实现自动驾驶
Flowpilot是一个开源的自动驾驶辅助系统。它可以运行在Android系统上。 你只需要在一台普通智能手机上运行Flowpilot,然后通过熊猫硬件连接车辆的OBD-II 端口,再把它和手机相连
Amphion:是一个开源工具包,可实现语音、声音和歌唱功能。
除了文字转语音功能,它还能可以将一首歌的声音换成另一个歌手的声音。还支持声音转换、歌声合成、文本到音频、文本到音乐等功能!