AI项目

北大发布一个新的图像生成框架VAR

Tarogo Cloud / 4 5 月, 2024

VAR首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。
同时展现出了与大语言模型观察到的类似Scaling laws的规律。
在ImageNet 256×256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍

AI项目, Alphabet

Google DeepMind 展示深度混合：

Tarogo Cloud / 3 5 月, 2024

来自 Google DeepMind、麦吉尔大学和 Mila 的研究人员推出了一种突破性的方法，称为深度混合 (MoD)，它不同于传统的统一资源分配模型。 MoD 使 Transformer 能够动态分配计算资源，重点关注序列中最关键的标记。该方法代表了管理计算资源的范式转变，并有望显着提高效率和性能。

斯坦福大学的研究人员推出 Octopus v2：

Tarogo Cloud / 3 5 月, 2024

斯坦福大学的研究人员推出了 Octopus v2，这是一种先进的设备上语言模型，旨在解决与当前LLM应用程序相关的普遍存在的延迟、准确性和隐私问题。与之前的型号不同，Octopus v2 显着减少了延迟并提高了设备上应用程序的准确性。其独特之处在于通过功能标记进行微调的方法，可以实现精确的函数调用，在效率和速度上超越GPT-4，同时将上下文长度大幅削减95%。

AI项目, Claude

Claude发布函数调用工具：Tool use

Tarogo Cloud / 2 5 月, 2024

允许模型与外部系统和数据进行交互

使用Tool use (function calling)功能，Claude不仅能够生成文本或回答问题，还能实际调用外部定义的函数或工具来执行特定操作，如获取当前的天气信息、执行数学计算等。

Octopus-v2：可以在移动设备上运行的2B LLMs

Tarogo Cloud / 2 5 月, 2024

Octopus-V2-2B是由斯坦福大学Nexa AI开发专为Android API的功能调用定制。
采用了一种独特的功能性标记策略，超越了基于RAG的方法，特别适用于边缘计算设备。
比Llama7B + RAG方案快36倍，性能优于 GPT-4，延迟时间小于 1 秒。

Meta 宣布推出 URHand

Tarogo Cloud / 1 5 月, 2024

模型是基于光级数据构建的 Relightable Hands 的高保真通用先验。它概括为新颖的观点、姿势、身份和照明，从而可以通过手机扫描进行快速个性化

POM给Animatediff训练了三个MotionLora

Tarogo Cloud / 1 5 月, 2024

WAS26：这个模型是在Banodoco Discord平台分享的艺术作品中挑选出来进行训练的。
Smoooth：专门针对那些动作流畅的视频进行训练。
LiquidAF：这个模型则是在液体模拟的基础上训练的

AI项目, 开源项目, 机器人

一款开源的低成本的机器人手臂，成本只需$250

Tarogo Cloud / 30 4 月, 2024

可以用来自己进行机器学习
机器人手臂设计为5自由度（DoF）加夹持器，允许它进行广泛的运动，包括旋转、上下举起、弯曲等。
两个这样的手臂还能够折叠衣服。

AI项目, 开源项目

阿里巴巴推出Qwen1.5-32B模型

Tarogo Cloud / 30 4 月, 2024

Qwen1.5-32B 是Qwen1.5语言模型系列的最新成员，这个系列致力于在性能、效率和内存占用之间找到理想的平衡

Hugging和英特尔发布了提高文生图模型空间一致性的方案

Tarogo Cloud / 29 4 月, 2024

大幅提高了模型对提示词中空间关系的理解能力。

还有一个详细标注了空间关系的 600 万张图片的数据集，模型和数据集都会开源。

AI项目, 开源项目

无界3D城市生成

Tarogo Cloud / 29 4 月, 2024

CVPR2024们提出CityDreamer ，一种用于合成无界3D城市的组合生成模型

有意思的项目：EMAGE

Tarogo Cloud / 28 4 月, 2024

可以为输入的音频生成与之同步的面部和身体动作，速度很快，效果很不错！