CVPR2024们提出CityDreamer ,一种用于合成无界3D城市的组合生成模型
分类: AI项目
Hugging和英特尔发布了提高文生图模型空间一致性的方案
大幅提高了模型对提示词中空间关系的理解能力。 还有一个详细标注了空间关系的 600 万张图片的数据集,模型和数据集都会开源。
有意思的项目:EMAGE
可以为输入的音频生成与之同步的面部和身体动作,速度很快,效果很不错!
动画自动填色技术:可自动为动画中的线条图着色
南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术。 通过仅需对一帧进行手动彩色化,算法便能自动将颜色传播到后续的所有帧。
Living Images:只要输入网址,自动优化你网站上的图片,使其更吸引人
输入你的网址它会自动分析和改进您网站上的图片,使它们更具吸引力、更能促进用户行动,比如点击、购买或注册。
MuseV:虚拟人视频的完整解决方案
基于SD,支持文生视频、图生视频、视频生视频,能保持角色一致,不限视频长度。 后续会发布MuseTalk来支持实时嘴型同步。
哥伦比亚大学开发出了一种名为 Emo的人形机器人头
哥伦比亚大学的创意机器实验室开发出了一种名为 Emo 的人形机器人头它能够精准恰如其分的模拟面部表情。 Emo装备了26个精密的执行器,可以在 840 毫秒内预测和反映人类的面部表情,包括微笑。
OpenAI公布其语音生成模型:Voice Engine
根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。 Voice Engine最初于2022年底开发,并已经提供给包括Heygen在内的少数公司进行测试性使用。
介绍 Private LLM(@private_llm)
Mac 可以通过 Private LLM 运行更大模型(32k 令牌长度窗口),无需 Nvidia RTX,无需 GPU。 将 AI 添加到你的工作流程变得更简单!无需代码,只需你的创造力和 Apple 快捷指令即可进行提示工程。
DALL·E的编辑功能即将上线
可以对DALL·E生成的图片进行二次再编辑和修改特定部分! 包括替换、删除、添加特定对象等 功能还没上线
音乐到3D二重奏舞蹈生成
提出 🕺 Duolando 💃 ,一种基于 GPT 的模型,可自回归预测领舞者和随从舞者的 3D 运动 @iclr_conf
通过聊天的方式来进行UI设计
W&B 团队开发的一个开源工具,你可以通过文字来描述你想要的UI界面,OpenUI可以帮你实时进行渲染出效果。 你还可以通过聊天的方式进行任意修改,并将HTML转换为React、Svelte、Web Components等多种前端框架。
让你的手机“活起来” ,把你的手机变成桌面机器人
Looi采用了仿生行为系统,时刻感知你和你周围的环境。同时接入了ChatGPT,能够通过对话与用户进行互动,可以在手机上显示富有表情的画面。
TextCraftor是一种创新的文本编码器微调技术
为了解决现有模型的局限性,研究者们提出了TextCraftor,这是一种端到端的文本编码器微调技术。TextCraftor的核心思想是通过奖励函数来增强预训练的文本编码器,从而显著提高图像质量和文本图像对齐的准确性。这种方法不需要额外的文本-图像配对数据集,而是仅使用文本提示进行训练,从而减轻了存储
AI21发布世界首个Mamba的生产级模型:Jamba
Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型(Structured State Space Model,...
腾讯发布了AniPortrait:
1)从音频中提取3D中间表示,并将它们投影到一系列2D面部标志点上 2)利用一个结合了运动模块的扩散模型,将标志点序列进一步转化为具有高视觉质量的动画