比阿里EMO先开源 AniPortrait:根据音频和图像输入 生成会说话、唱歌的动态视频 它可以根据音频(比如说话声)和一张静态的人脸图片,自动生成逼真的人脸动画,并保持口型一致。
作者: Tarogo Cloud
Databricks发布了最强的开源模型DBRX
它在语言理解、编程、数学和逻辑方面轻松击败了开源模型,如 LLaMA2-70B、Mixtral 和 Grok-1。 DBRX 在大多数基准测试中超过了 GPT-3.5。 DBRX 是基于 MegaBlocks 研究和开源项目构建的专家混合模型(MoE),使得该模型在每秒处理的标记数量方面非常快速。
T-Rex2涵盖了所有物体检测场景
是从农业和医药到运输和物流等现实世界应用程序的游戏规则改变者 支持文本提示、交互式和通用视觉提示
NoLang:输入任何主题或者网页链接直接生成视频
它支持文字、网页链接、PDF、提问等直接转视频 也就是你输入文字、链接NoLang能以视频形式快速回答。 输入PDF文件,会先给你总结内容,然后根据总结的内容在生成一个解答视频。
Awesome-Generative-AI-Guide: 一站式AI最新研究更新、面试资源、免费课程等综合库
最新研究更新:提供每月最佳生成式AI论文列表,包括各项研究的摘要和主题。 免费课程列表:超过65个与生成式AI相关的免费课程。 面试资源:面试准备材料,特别是针对生成式AI领域的面试问题。 课程材料:《Applied LLMs Mastery 2024》课程材料。
GeoWizard 的拥抱脸渐变演示已经推出!
单击即可获得深度和法线,并具有丰富的细节。
Cobra将Mamba扩展为多模态LLM
以实现高效推理。尝试拥抱 Huggingface 演示上线了!欢迎大家来尝试一下!代码和重量也更新了。
DragAPart,可以实现对输入图像内容的“拖动”
例如打开/关闭抽屉、开合电脑等。DragAPart 可以预测对象组件的交互,下图为我实测结果 这项研究的目标是迈向通用运动模型而非针对特定运动结构或对象类别的模型
SMPLer-X:扩大富有表现力的人体姿势和形状估计
网站: GitHub 存储库: https://github.com/caizhongang/SMPLer-X
SunoAI音乐新手指南
Suno创作音乐的小技巧: 如果你想参考某个现有歌曲的节奏,可以在这个网站查询歌曲的BPM和Key,作为提示词写进去。
Alex Reben, 雕塑家艺术家,OpenAI 的驻地艺术家
Alexander Reben 这十年来致力于创作艺术作品,这些作品探讨了人工智能(AI)中人性的幽默与荒谬。 他通过手工将 AI 生成的图像转换成三维模型,并将这些模型具象化于现实世界中,创造出一系列雕塑作品。
Google Gemini API Cookbook
Google 官方Gemini API提供的指南和示例集合 帮助开发者更好地理解和使用Gemini API,包括如何构建应用程序、编写提示以及利用API的不同特性。
开源的服务:Linkwarden可以创建分类、标签
颜值还挺高,可以创建分类、标签,使用官方提供的浏览器扩展一键添加书签,最后还可以转换成图片、PDF、Readable 格式进行阅读或分享。
VoiceCraft:官宣超过XTTS的语音模型
支持克隆音频,支持通过修改原始音频的文本来编辑音频,演示效果非常好,看起来很有潜力。
Synclabs发布新版的唇型同步模型:Sync-1.6.0
新版模型进行了唇形同步升级,能够产生平滑、准确的唇形,同时减少视频帧之间的闪烁现象 SyncLabs构建了基于给定音频条件生成视频的音视频模型。
FRESCO这个视频转绘项目
FRESCO这个视频转绘项目的代码已经发布,也在项目页面发布了更多的演示,看起来相当稳定。