1)从音频中提取3D中间表示,并将它们投影到一系列2D面部标志点上 2)利用一个结合了运动模块的扩散模型,将标志点序列进一步转化为具有高视觉质量的动画
分类: AI项目
与世界上第一个有情商的人工智能 EVI 交谈
转录、语言建模和 TTS 表达理解和生成 中断性和回合结束检测
服装三维生成器
引入了 Garment3DGen 一种新方法,以单个输入图像作为指导,从基础网格合成 3D 服装资产。我们提出的方法允许用户根据两者生成 3D 纹理衣服
SuperBeasts的ComfyUI真好用
调整阴影、高光和整体 HDR 效果的强度。 应用伽玛校正来控制整体亮度和对比度。 增强对比度和色彩饱和度,以获得更鲜艳的效果。 通过在 LAB 色彩空间中处理图像来保持色彩准确性
Al Comic Factory:漫画工厂
自动生成有情感、有故事性的漫画内容 它使用大语言模型和如SDXL来自动创建漫画面板。 你只需提供一个简单的文本提示,AI Comic Factory就能根据这个提示生成包含人物对话和场景描述的漫画。
LaVague现已作为托管应用程序在huggingface Space上
现在,您可以在不安装任何东西的情况下尝试 LaVague,并根据自然语言指令实现自动化 Web 操作。 这个当中最好的部分?所有堆栈都是开源的!我们使用 Hugging Face #Gradio 作为 UI,他们的 Inference API 调用 #Mixtral 、...
腾讯也搞了一个让照片能唱歌说话的项目
比阿里EMO先开源 AniPortrait:根据音频和图像输入 生成会说话、唱歌的动态视频 它可以根据音频(比如说话声)和一张静态的人脸图片,自动生成逼真的人脸动画,并保持口型一致。
Databricks发布了最强的开源模型DBRX
它在语言理解、编程、数学和逻辑方面轻松击败了开源模型,如 LLaMA2-70B、Mixtral 和 Grok-1。 DBRX 在大多数基准测试中超过了 GPT-3.5。 DBRX 是基于 MegaBlocks 研究和开源项目构建的专家混合模型(MoE),使得该模型在每秒处理的标记数量方面非常快速。
T-Rex2涵盖了所有物体检测场景
是从农业和医药到运输和物流等现实世界应用程序的游戏规则改变者 支持文本提示、交互式和通用视觉提示
NoLang:输入任何主题或者网页链接直接生成视频
它支持文字、网页链接、PDF、提问等直接转视频 也就是你输入文字、链接NoLang能以视频形式快速回答。 输入PDF文件,会先给你总结内容,然后根据总结的内容在生成一个解答视频。
Awesome-Generative-AI-Guide: 一站式AI最新研究更新、面试资源、免费课程等综合库
最新研究更新:提供每月最佳生成式AI论文列表,包括各项研究的摘要和主题。 免费课程列表:超过65个与生成式AI相关的免费课程。 面试资源:面试准备材料,特别是针对生成式AI领域的面试问题。 课程材料:《Applied LLMs Mastery 2024》课程材料。
GeoWizard 的拥抱脸渐变演示已经推出!
单击即可获得深度和法线,并具有丰富的细节。
Cobra将Mamba扩展为多模态LLM
以实现高效推理。尝试拥抱 Huggingface 演示上线了!欢迎大家来尝试一下!代码和重量也更新了。
DragAPart,可以实现对输入图像内容的“拖动”
例如打开/关闭抽屉、开合电脑等。DragAPart 可以预测对象组件的交互,下图为我实测结果 这项研究的目标是迈向通用运动模型而非针对特定运动结构或对象类别的模型
SMPLer-X:扩大富有表现力的人体姿势和形状估计
网站: GitHub 存储库: https://github.com/caizhongang/SMPLer-X
SunoAI音乐新手指南
Suno创作音乐的小技巧: 如果你想参考某个现有歌曲的节奏,可以在这个网站查询歌曲的BPM和Key,作为提示词写进去。