设置好语音,点击播放按钮,可以自动朗读GPT生成的内容 ChatGPT 的数据分析Data Analysis 将升级到V2 版本,功能更加强大!
最新文章
Sanctuary AI旗下的Phoenix机器人最新演示视频
Phoenix是世界上第一个由Carbon驱动的人形通用机器人,这是一个开创性且独特的AI控制系统,可以赋予机器人人类般的智能! Carbon可以将自然语言转化为现实世界中的行动。可以使机器人可以完成十几个不同行业确定的数百项任务。
Pi 支持通过 iMessage 聊天了
让我意外的是它竟然支持中文了
CSM_ai生成的3D素材能直接在游戏中应用
现在只需要使用文本、图像或草图,将提示输入到 @CSM_ai 中,生成的3D素材就能直接在游戏中应用。
北京大学Yuangroup团队发起了一个 Open-Sora计划
旨在复现OpenAI 的Sora模型 Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。
Chat-With-MLX:在Mac上轻松运行各种开源模型
并以RAG的方式聊天 是利用苹果MLX框架实现的一个高效、多语言支持进行检索增强生成(RAG)的聊天界面。
Google MusicFX推出DJ打碟模式
你可以调整每个风格的强度来控制音乐的节奏和曲调🥁 实现DJ打碟一样的编辑生成的音乐
Pika推出LipSync【唇部同步】功能
Lip Sync即可将生成视频中人物的嘴部动画和音频同步
AFFiNE的“Where Notion meets Miro”
调研:在画板中自由粘贴链接,视频以及编辑文档,提炼精华内容 总结:画板中总结精华内容一键转换成文档 演示:写完文档可以直接转成 PPT 模式演示
ChatMusician: 能够理解和生成音乐的大语言模型
通过根据给定的文本提示、和弦序列、旋律线索、音乐主题或形式等条件。 ChatMusician能自动生成结构完整、风格多样的音乐作品。 包括单声部旋律、和声编配,乃至完整的乐曲结构设计。 同时它还能理解和分析音乐理论的各个方面。
阿里巴巴的EMO: 情感肖像活灵活现
提出了 EMO,一个能够根据单张参考图片和声音(如说话或唱歌)生成充满表情的肖像视频的框架。这种方法不仅能够捕捉到丰富的面部表情和多样的头部姿势,还能根据声音的长度自由调整视频的持续时间。
STORM:是一个创新的写作系统
挑战:维基百科样式的文章要求深入研究和计划,包括广泛收集参考资料和精心制作大纲。现有的生成维基百科文章的工作往往绕过了这一写作前阶段。 解决方案:STORM通过模拟人类写作过程中的预写、起草和修订阶段,特别是在预写阶段,通过有效的问题提问来自动化这一过程。
MeloTTS:由MyShell AI开发的一个高质量的多语言文本到语音(TTS)库
支持英语、西班牙语、法语、中文、日语和韩语等多种语言。 速度非常快,支持中英混合的发音,能生成清晰、自然的语音输出。 即使在普通的在CPU上也能实现实时语音合成。
OpenAI有一个地方可以提前体验Sora的功能
OpenAI的技术报告里 有一个地方可以提前体验Sora的功能
Chrome好的扩展介绍
1. ScribeHow / @ScribeHow 2. GoFullPage 3. Color Zilla 4. Fonts Ninja 5. Mail tracker 6. Loom
感觉像是可视化的维基百科
感觉像是可视化的维基百科,就是你搜索关键词,它会搜索各种信息,然后进行快速的自我组织整理。