能够应对各种类型的线条艺术作品,无论是手绘草图、不同的 ControlNet 线预处理工具,还是由模型生成的轮廓,都能高精确性和稳定地处理。 一个重要特点是其泛化能力极强,无需针对不同的线预处理工具更换不同的 ControlNet 模型。
分类: 开源项目
LGM:生成高质量3D模型
支持文字生成模型、图片生成模型,分辨率512x512,5秒内即可生成。 3D内容创作在质量和速度方面都取得了显着进步。尽管当前的前馈模型可以在几秒钟内生成 3D 对象,但其分辨率受到训练期间所需的密集计算的限制。在本文中,介绍了大型多视图高斯模型...
PhysDreamer:由多所大学合作开发
PhysDreamer:由多所大学(包括麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学)合作开发。 真实的对象交互对于创建沉浸式虚拟体验至关重要,但合成真实的 3D 对象动态以响应新颖的交互仍然是一项重大挑战。与无条件或文本条件动力学生成不同,动作条件动力学需要感知对象的物理材料属性,并将...
OpenVoice V2版本发布
OpenVoice,这是一种多功能的即时语音克隆方法,只需要参考说话者的一个简短的音频剪辑即可复制他们的声音并生成多种语言的语音。除了复制参考说话者的音色之外,OpenVoice 还可以对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调。
企图通过开源复现SORA的三个项目
Open-Sora Colossal-AI 团队牵头的项目,目前发布了 1.1 模型,支持 2s~15s,144p 到 720p,任何宽高比文本到图像,文本到视频,图像到视频,视频到视频,无限时间生成的版本。
VSR:利用AI算法精确识别 一键去除视频中的字幕
Video-subtitle-remover (VSR) 是一款基于AI技术,将视频中的硬字幕去除的软件。 主要实现了以下功能: 无损分辨率将视频中的硬字幕去除,生成去除字幕后的文件 通过超强AI算法模型,对去除字幕文本的区域进行填充(非相邻像素填充与马赛克去除)...
MeetKai发布OpenAI 函数调用模型的替代方案
Functionary 是一种可以解释和执行函数/插件的语言模型。 该模型确定何时执行函数,无论是并行还是串行,并且可以理解它们的输出。它仅根据需要触发功能。函数定义以 JSON 架构对象的形式给出,类似于 OpenAI GPT 函数调用。
LiteLLM:统一100多种 LLM 的 API 输入输出操作的开源项目
统一 Bedrock、Azure、OpenAI、Cohere、Anthropic、Ollama、Sagemaker、HuggingFace、Replicate 等 100 多种 LLM 的 API 输入输出、异常处理和负载均衡等操作的开源项目
线性注意力序列并行(LASP)
上海人工智能实验室和 TapTap 的研究人员提出了线性注意序列并行 (LASP) 技术,该技术优化了线性 Transformer 上的序列并行性。它采用点对点 (P2P) 通信在节点内或节点间的 GPU 之间进行有效的状态交换。 LASP...
Vercel 上一键部署babyAGI
Morphic 只用 OpenAI 与搜索服务 @tavilyai 的 API 就能整得像模像样,换成 Gemini 与 Google Search 的 API 也一样能行。感觉 Perplexity 给大家带了 AI 时代的问答式搜索体验后,这种模式就会被大家学去强化自己的功能了
一款开源的低成本的机器人手臂,成本只需$250
可以用来自己进行机器学习 机器人手臂设计为5自由度(DoF)加夹持器,允许它进行广泛的运动,包括旋转、上下举起、弯曲等。 两个这样的手臂还能够折叠衣服。
阿里巴巴推出Qwen1.5-32B模型
Qwen1.5-32B 是Qwen1.5语言模型系列的最新成员,这个系列致力于在性能、效率和内存占用之间找到理想的平衡
无界3D城市生成
CVPR2024们提出CityDreamer ,一种用于合成无界3D城市的组合生成模型
动画自动填色技术:可自动为动画中的线条图着色
南洋理工大学的S-lab团队开发了一种新型的动画填色桶彩色化技术。 通过仅需对一帧进行手动彩色化,算法便能自动将颜色传播到后续的所有帧。
MuseV:虚拟人视频的完整解决方案
基于SD,支持文生视频、图生视频、视频生视频,能保持角色一致,不限视频长度。 后续会发布MuseTalk来支持实时嘴型同步。
通过聊天的方式来进行UI设计
W&B 团队开发的一个开源工具,你可以通过文字来描述你想要的UI界面,OpenUI可以帮你实时进行渲染出效果。 你还可以通过聊天的方式进行任意修改,并将HTML转换为React、Svelte、Web Components等多种前端框架。