IT/AI知识库: 跟踪最新的IT/AI类资讯
ChatGPT 语音朗读功能开始灰度测试
设置好语音,点击播放按钮,可以自动朗读GPT生成的内容
ChatGPT 的数据分析Data Analysis 将升级到V2 版本,功能更加强大!
AutoPrompt:自动优化你的提示词
专为优化提示而设计的框架,通过不断的迭代过程,AutoPrompt 构建了一个包含各种挑战性边缘案例的数据集,用于测试和优化提示。
它能根据用户的具体意图自动生成定制化的提示,确保生成的提示能够精准地满足用户的需求。
Sanctuary AI旗下的Phoenix机器人最新演示视频
Phoenix是世界上第一个由Carbon驱动的人形通用机器人,这是一个开创性且独特的AI控制系统,可以赋予机器人人类般的智能!
Carbon可以将自然语言转化为现实世界中的行动。可以使机器人可以完成十几个不同行业确定的数百项任务。
北京大学Yuangroup团队发起了一个 Open-Sora计划
旨在复现OpenAI 的Sora模型
Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。
AFFiNE的“Where Notion meets Miro”
调研:在画板中自由粘贴链接,视频以及编辑文档,提炼精华内容
总结:画板中总结精华内容一键转换成文档
演示:写完文档可以直接转成 PPT 模式演示
阿里巴巴的EMO: 情感肖像活灵活现
提出了 EMO,一个能够根据单张参考图片和声音(如说话或唱歌)生成充满表情的肖像视频的框架。这种方法不仅能够捕捉到丰富的面部表情和多样的头部姿势,还能根据声音的长度自由调整视频的持续时间。
ChatMusician: 能够理解和生成音乐的大语言模型
通过根据给定的文本提示、和弦序列、旋律线索、音乐主题或形式等条件。
ChatMusician能自动生成结构完整、风格多样的音乐作品。
包括单声部旋律、和声编配,乃至完整的乐曲结构设计。
同时它还能理解和分析音乐理论的各个方面。
MeloTTS:由MyShell AI开发的一个高质量的多语言文本到语音(TTS)库
支持英语、西班牙语、法语、中文、日语和韩语等多种语言。
速度非常快,支持中英混合的发音,能生成清晰、自然的语音输出。
即使在普通的在CPU上也能实现实时语音合成。
STORM:是一个创新的写作系统
挑战:维基百科样式的文章要求深入研究和计划,包括广泛收集参考资料和精心制作大纲。现有的生成维基百科文章的工作往往绕过了这一写作前阶段。
解决方案:STORM通过模拟人类写作过程中的预写、起草和修订阶段,特别是在预写阶段,通过有效的问题提问来自动化这一过程。
Chrome好的扩展介绍
1. ScribeHow / @ScribeHow
2. GoFullPage
3. Color Zilla
4. Fonts Ninja
5. Mail tracker
6. Loom