AI项目

AI项目 MicroSoft

DALL·E的编辑功能即将上线

可以对DALL·E生成的图片进行二次再编辑和修改特定部分！
包括替换、删除、添加特定对象等
功能还没上线

25 4 月, 2024

音乐到3D二重奏舞蹈生成

提出 🕺 Duolando 💃 ，一种基于 GPT 的模型，可自回归预测领舞者和随从舞者的 3D 运动 @iclr_conf

24 4 月, 2024

AI项目开源项目

通过聊天的方式来进行UI设计

W&B 团队开发的一个开源工具，你可以通过文字来描述你想要的UI界面，OpenUI可以帮你实时进行渲染出效果。
你还可以通过聊天的方式进行任意修改，并将HTML转换为React、Svelte、Web Components等多种前端框架。

24 4 月, 2024

让你的手机“活起来” ，把你的手机变成桌面机器人

Looi采用了仿生行为系统，时刻感知你和你周围的环境。同时接入了ChatGPT，能够通过对话与用户进行互动，可以在手机上显示富有表情的画面。

23 4 月, 2024

TextCraftor是一种创新的文本编码器微调技术

为了解决现有模型的局限性，研究者们提出了TextCraftor，这是一种端到端的文本编码器微调技术。TextCraftor的核心思想是通过奖励函数来增强预训练的文本编码器，从而显著提高图像质量和文本图像对齐的准确性。这种方法不需要额外的文本-图像配对数据集，而是仅使用文本提示进行训练，从而减轻了存储和加载大规模图像数据集的负担。

23 4 月, 2024

AI21发布世界首个Mamba的生产级模型：Jamba

Jamba代表了在模型设计上的一大创新。这里的”Mamba”指的是一种结构化状态空间模型（Structured State Space Model, SSM），这是一种用于捕捉和处理数据随时间变化的模型，特别适合处理序列数据，如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据，但它在处理复杂模式和依赖时可能不如其他模型强大。

22 4 月, 2024

腾讯发布了AniPortrait：

1）从音频中提取3D中间表示，并将它们投影到一系列2D面部标志点上
2）利用一个结合了运动模块的扩散模型，将标志点序列进一步转化为具有高视觉质量的动画

22 4 月, 2024

与世界上第一个有情商的人工智能 EVI 交谈

转录、语言建模和 TTS
表达理解和生成
中断性和回合结束检测

21 4 月, 2024

服装三维生成器

引入了 Garment3DGen 一种新方法，以单个输入图像作为指导，从基础网格合成 3D 服装资产。我们提出的方法允许用户根据两者生成 3D 纹理衣服

21 4 月, 2024

AI项目开源项目

Al Comic Factory：漫画工厂

自动生成有情感、有故事性的漫画内容
它使用大语言模型和如SDXL来自动创建漫画面板。
你只需提供一个简单的文本提示，AI Comic Factory就能根据这个提示生成包含人物对话和场景描述的漫画。

20 4 月, 2024

SuperBeasts的ComfyUI真好用

调整阴影、高光和整体 HDR 效果的强度。
应用伽玛校正来控制整体亮度和对比度。
增强对比度和色彩饱和度，以获得更鲜艳的效果。
通过在 LAB 色彩空间中处理图像来保持色彩准确性

20 4 月, 2024

AI项目开源项目

LaVague现已作为托管应用程序在huggingface Space上

现在，您可以在不安装任何东西的情况下尝试 LaVague，并根据自然语言指令实现自动化 Web 操作。

这个当中最好的部分？所有堆栈都是开源的！我们使用 Hugging Face #Gradio 作为 UI，他们的 Inference API 调用 #Mixtral 、 @llama_index 用于 #RAG ，LaVague 本身也是开放的-来源。

19 4 月, 2024

AI项目开源项目

腾讯也搞了一个让照片能唱歌说话的项目

比阿里EMO先开源

AniPortrait：根据音频和图像输入生成会说话、唱歌的动态视频

它可以根据音频（比如说话声）和一张静态的人脸图片，自动生成逼真的人脸动画，并保持口型一致。

19 4 月, 2024

Databricks发布了最强的开源模型DBRX

它在语言理解、编程、数学和逻辑方面轻松击败了开源模型，如 LLaMA2-70B、Mixtral 和 Grok-1。
DBRX 在大多数基准测试中超过了 GPT-3.5。
DBRX 是基于 MegaBlocks 研究和开源项目构建的专家混合模型（MoE），使得该模型在每秒处理的标记数量方面非常快速。

18 4 月, 2024

T-Rex2涵盖了所有物体检测场景

是从农业和医药到运输和物流等现实世界应用程序的游戏规则改变者
支持文本提示、交互式和通用视觉提示

18 4 月, 2024

AI项目多媒体处理

NoLang：输入任何主题或者网页链接直接生成视频

它支持文字、网页链接、PDF、提问等直接转视频
也就是你输入文字、链接NoLang能以视频形式快速回答。
输入PDF文件，会先给你总结内容，然后根据总结的内容在生成一个解答视频。

17 4 月, 2024

分類