AI news tracing site - 第 46 页

AI项目, 开源项目

腾讯也搞了一个让照片能唱歌说话的项目

Tarogo Cloud / 19 4 月, 2024

比阿里EMO先开源

AniPortrait：根据音频和图像输入生成会说话、唱歌的动态视频

它可以根据音频（比如说话声）和一张静态的人脸图片，自动生成逼真的人脸动画，并保持口型一致。

AI项目, 开源项目

LaVague现已作为托管应用程序在huggingface Space上

Tarogo Cloud / 19 4 月, 2024

现在，您可以在不安装任何东西的情况下尝试 LaVague，并根据自然语言指令实现自动化 Web 操作。

这个当中最好的部分？所有堆栈都是开源的！我们使用 Hugging Face #Gradio 作为 UI，他们的 Inference API 调用 #Mixtral 、 @llama_index 用于 #RAG ，LaVague 本身也是开放的-来源。

AI项目

T-Rex2涵盖了所有物体检测场景

Tarogo Cloud / 18 4 月, 2024

是从农业和医药到运输和物流等现实世界应用程序的游戏规则改变者
支持文本提示、交互式和通用视觉提示

AI项目

Databricks发布了最强的开源模型DBRX

Tarogo Cloud / 18 4 月, 2024

它在语言理解、编程、数学和逻辑方面轻松击败了开源模型，如 LLaMA2-70B、Mixtral 和 Grok-1。
DBRX 在大多数基准测试中超过了 GPT-3.5。
DBRX 是基于 MegaBlocks 研究和开源项目构建的专家混合模型（MoE），使得该模型在每秒处理的标记数量方面非常快速。

AI项目, 开源项目

Awesome-Generative-AI-Guide: 一站式AI最新研究更新、面试资源、免费课程等综合库

Tarogo Cloud / 17 4 月, 2024

最新研究更新：提供每月最佳生成式AI论文列表，包括各项研究的摘要和主题。
免费课程列表：超过65个与生成式AI相关的免费课程。
面试资源：面试准备材料，特别是针对生成式AI领域的面试问题。
课程材料：《Applied LLMs Mastery 2024》课程材料。

AI项目, 多媒体处理

NoLang：输入任何主题或者网页链接直接生成视频

Tarogo Cloud / 17 4 月, 2024

它支持文字、网页链接、PDF、提问等直接转视频
也就是你输入文字、链接NoLang能以视频形式快速回答。
输入PDF文件，会先给你总结内容，然后根据总结的内容在生成一个解答视频。

AI项目, 开源项目

Cobra将Mamba扩展为多模态LLM

Tarogo Cloud / 16 4 月, 2024

以实现高效推理。尝试拥抱
Huggingface 演示上线了！欢迎大家来尝试一下！代码和重量也更新了。

AI项目

GeoWizard 的拥抱脸渐变演示已经推出！

Tarogo Cloud / 16 4 月, 2024

单击即可获得深度和法线，并具有丰富的细节。

AI项目

SMPLer-X：扩大富有表现力的人体姿势和形状估计

Tarogo Cloud / 15 4 月, 2024

网站： https://caizhongang.com/projects/SMPLer-X/
GitHub 存储库： https://github.com/caizhongang/SMPLer-X

AI项目

DragAPart，可以实现对输入图像内容的“拖动”

Tarogo Cloud / 15 4 月, 2024

例如打开/关闭抽屉、开合电脑等。DragAPart 可以预测对象组件的交互，下图为我实测结果
这项研究的目标是迈向通用运动模型而非针对特定运动结构或对象类别的模型

AI项目, OpenAI

Alex Reben, 雕塑家艺术家，OpenAI 的驻地艺术家

Tarogo Cloud / 14 4 月, 2024

Alexander Reben 这十年来致力于创作艺术作品，这些作品探讨了人工智能（AI）中人性的幽默与荒谬。
他通过手工将 AI 生成的图像转换成三维模型，并将这些模型具象化于现实世界中，创造出一系列雕塑作品。

AI项目, MicroSoft

SunoAI音乐新手指南

Tarogo Cloud / 14 4 月, 2024

Suno创作音乐的小技巧：
如果你想参考某个现有歌曲的节奏，可以在这个网站查询歌曲的BPM和Key，作为提示词写进去。