清华大学BNRist计算机科学与技术系的研究人员介绍了SPMamba,这是一种植根于SSM原理的新颖架构。通过引入平衡效率和效果的创新模型,围绕语音分离的讨论得到了丰富。 SSM 体现了这种平衡。通过巧妙地整合 CNN 和 RNN 的优势,SSM...
最新文章
iComMa:通过比较和匹配反转 3D 高斯泼溅进行相机姿势估计
准备数据并训练3DGS模型。我们使用 NeRF 和 Mip-NeRF 360 提供的 Blender、LLFF 和 360° 场景数据集评估了我们的方法。您可以从各自的项目页面下载它们。
北大发布一个新的图像生成框架VAR
VAR首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。 同时展现出了与大语言模型观察到的类似Scaling laws的规律。 在ImageNet...
Google DeepMind 展示深度混合:
来自 Google DeepMind、麦吉尔大学和 Mila 的研究人员推出了一种突破性的方法,称为深度混合 (MoD),它不同于传统的统一资源分配模型。 MoD 使 Transformer...
斯坦福大学的研究人员推出 Octopus v2:
斯坦福大学的研究人员推出了 Octopus v2,这是一种先进的设备上语言模型,旨在解决与当前LLM应用程序相关的普遍存在的延迟、准确性和隐私问题。与之前的型号不同,Octopus v2...
Claude发布函数调用工具:Tool use
允许模型与外部系统和数据进行交互 使用Tool use (function calling)功能,Claude不仅能够生成文本或回答问题,还能实际调用外部定义的函数或工具来执行特定操作,如获取当前的天气信息、执行数学计算等。
Octopus-v2:可以在移动设备上运行的2B LLMs
Octopus-V2-2B是由斯坦福大学Nexa AI开发专为Android API的功能调用定制。 采用了一种独特的功能性标记策略,超越了基于RAG的方法,特别适用于边缘计算设备。 比Llama7B + RAG方案快36倍,性能优于 GPT-4,延迟时间小于 1 秒。
POM给Animatediff训练了三个MotionLora
WAS26:这个模型是在Banodoco Discord平台分享的艺术作品中挑选出来进行训练的。 Smoooth:专门针对那些动作流畅的视频进行训练。 LiquidAF:这个模型则是在液体模拟的基础上训练的
Meta 宣布推出 URHand
模型是基于光级数据构建的 Relightable Hands 的高保真通用先验。它概括为新颖的观点、姿势、身份和照明,从而可以通过手机扫描进行快速个性化
一款开源的低成本的机器人手臂,成本只需$250
可以用来自己进行机器学习 机器人手臂设计为5自由度(DoF)加夹持器,允许它进行广泛的运动,包括旋转、上下举起、弯曲等。 两个这样的手臂还能够折叠衣服。
阿里巴巴推出Qwen1.5-32B模型
Qwen1.5-32B 是Qwen1.5语言模型系列的最新成员,这个系列致力于在性能、效率和内存占用之间找到理想的平衡
Hugging和英特尔发布了提高文生图模型空间一致性的方案
大幅提高了模型对提示词中空间关系的理解能力。 还有一个详细标注了空间关系的 600 万张图片的数据集,模型和数据集都会开源。
无界3D城市生成
CVPR2024们提出CityDreamer ,一种用于合成无界3D城市的组合生成模型
有意思的项目:EMAGE
可以为输入的音频生成与之同步的面部和身体动作,速度很快,效果很不错!
动画自动填色技术:可自动为动画中的线条图着色
南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术。 通过仅需对一帧进行手动彩色化,算法便能自动将颜色传播到后续的所有帧。
Living Images:只要输入网址,自动优化你网站上的图片,使其更吸引人
输入你的网址它会自动分析和改进您网站上的图片,使它们更具吸引力、更能促进用户行动,比如点击、购买或注册。