AI项目

AI21发布世界首个Mamba的生产级模型：Jamba

Tarogo Cloud / 22 4 月, 2024

Jamba代表了在模型设计上的一大创新。这里的”Mamba”指的是一种结构化状态空间模型（Structured State Space Model, SSM），这是一种用于捕捉和处理数据随时间变化的模型，特别适合处理序列数据，如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据，但它在处理复杂模式和依赖时可能不如其他模型强大。

腾讯发布了AniPortrait：

Tarogo Cloud / 22 4 月, 2024

1）从音频中提取3D中间表示，并将它们投影到一系列2D面部标志点上
2）利用一个结合了运动模块的扩散模型，将标志点序列进一步转化为具有高视觉质量的动画

与世界上第一个有情商的人工智能 EVI 交谈

Tarogo Cloud / 21 4 月, 2024

转录、语言建模和 TTS
表达理解和生成
中断性和回合结束检测

服装三维生成器

Tarogo Cloud / 21 4 月, 2024

引入了 Garment3DGen 一种新方法，以单个输入图像作为指导，从基础网格合成 3D 服装资产。我们提出的方法允许用户根据两者生成 3D 纹理衣服

AI项目, 开源项目

Al Comic Factory：漫画工厂

Tarogo Cloud / 20 4 月, 2024

自动生成有情感、有故事性的漫画内容
它使用大语言模型和如SDXL来自动创建漫画面板。
你只需提供一个简单的文本提示，AI Comic Factory就能根据这个提示生成包含人物对话和场景描述的漫画。

SuperBeasts的ComfyUI真好用

Tarogo Cloud / 20 4 月, 2024

调整阴影、高光和整体 HDR 效果的强度。
应用伽玛校正来控制整体亮度和对比度。
增强对比度和色彩饱和度，以获得更鲜艳的效果。
通过在 LAB 色彩空间中处理图像来保持色彩准确性

AI项目, 开源项目

LaVague现已作为托管应用程序在huggingface Space上

Tarogo Cloud / 19 4 月, 2024

现在，您可以在不安装任何东西的情况下尝试 LaVague，并根据自然语言指令实现自动化 Web 操作。

这个当中最好的部分？所有堆栈都是开源的！我们使用 Hugging Face #Gradio 作为 UI，他们的 Inference API 调用 #Mixtral 、 @llama_index 用于 #RAG ，LaVague 本身也是开放的-来源。

AI项目, 开源项目

腾讯也搞了一个让照片能唱歌说话的项目

Tarogo Cloud / 19 4 月, 2024

比阿里EMO先开源

AniPortrait：根据音频和图像输入生成会说话、唱歌的动态视频

它可以根据音频（比如说话声）和一张静态的人脸图片，自动生成逼真的人脸动画，并保持口型一致。

T-Rex2涵盖了所有物体检测场景

Tarogo Cloud / 18 4 月, 2024

是从农业和医药到运输和物流等现实世界应用程序的游戏规则改变者
支持文本提示、交互式和通用视觉提示

Databricks发布了最强的开源模型DBRX

Tarogo Cloud / 18 4 月, 2024

它在语言理解、编程、数学和逻辑方面轻松击败了开源模型，如 LLaMA2-70B、Mixtral 和 Grok-1。
DBRX 在大多数基准测试中超过了 GPT-3.5。
DBRX 是基于 MegaBlocks 研究和开源项目构建的专家混合模型（MoE），使得该模型在每秒处理的标记数量方面非常快速。

AI项目, 多媒体处理

NoLang：输入任何主题或者网页链接直接生成视频

Tarogo Cloud / 17 4 月, 2024

它支持文字、网页链接、PDF、提问等直接转视频
也就是你输入文字、链接NoLang能以视频形式快速回答。
输入PDF文件，会先给你总结内容，然后根据总结的内容在生成一个解答视频。

AI项目, 开源项目

Awesome-Generative-AI-Guide: 一站式AI最新研究更新、面试资源、免费课程等综合库

Tarogo Cloud / 17 4 月, 2024

最新研究更新：提供每月最佳生成式AI论文列表，包括各项研究的摘要和主题。
免费课程列表：超过65个与生成式AI相关的免费课程。
面试资源：面试准备材料，特别是针对生成式AI领域的面试问题。
课程材料：《Applied LLMs Mastery 2024》课程材料。