边打字边生成图片,速度贼拉快
分类: 开源项目
YOLOv9:实时对象检测,能够快速准确地在图像或视频中识别和定位多个对象
之前的YOLO系列模型相比,YOLOv9在不牺牲性能的前提下实现模型的轻量化,同时保持更高的准确率和效率。 这使得它可以在各种设备和环境中运行,如移动设备、嵌入式系统和边缘计算设备。 YOLOv9通过改进模型架构和训练方法,提高了对象检测的准确性和效率
YOLO-World&EfficientSAM&Stable Diffusion 能干啥?
实时检测视频中的特定对象,然后分割对象,使用自然语言来对特定的对象进行替换、修改、风格化等! 是不是很熟悉?科幻片里面的场景就实现了! 这意味着你可以对任意图像和视频里面的内容进行实时的替换和修改,甚至换掉视频中的某个人物。
UMI:斯坦福开发的一个机器人数据收集和策略学习框架
UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。 也就是通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务 UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。
YOLOv8:目标检测跟踪模型
YOLOv8能够在图像或视频帧中快速准确地识别和定位多个对象,还能跟踪它们的移动,并将其分类。 除了检测对象,YOLOv8还可以区分对象的确切轮廓,进行实例分割、估计人体的姿态、帮助识别和分析医学影像中的特定模式等多种计算机视觉任务。
OpenAI推出的一音乐生成模型:Jukebox
OpenAI在2019年8月份就推出了他们的一音乐生成模型:Jukebox Jukebox能够根据提供的歌词、艺术家和流派信息生成多种流派和艺术家风格的完整音乐和人声歌曲。 最牛P的是,3年前的质量就已经这样了... 而且据说Jukebox 2即将发布
AnyGPT:任意模态到任意多模态的大语言模型
通过连接大语言模型与多模态适配器和扩散解码器,AnyGPT实现了对各种模态输入的理解和能够在任意模态中生成输出的能力。 也就是可以处理任何组合的模态输入(如文本、图像、视频、音频),并生成任何模态的输出... 实现了真正的多模态通信能力。 这个项目之前叫NExT-GPT
OOTDiffusion:一个高度可控的虚拟服装试穿开源工具
可以根据不同性别和体型自动调整,和模特非常贴合。也可以根据自己的需求和偏好调整试穿效果 OOTDiffusion支持半身模型和全身模型两种模式。
PixelPlayer:MIT研究团队开发的项目
能自动从视频中识别和分离出不同的声音源,并与画面位置匹配。 例如,它可以识别出视频中哪个人物正在说话或哪个乐器正在被演奏。 而且还能够分别提取和分离这些声音源的声音。 PixelPlayer能自我学习分析,无需人工标注数据。...
UFO:由微软开发的专注于Windows操作系统交互的UI代理
它可以通过理解用户的自然语言指令和屏幕的视觉内容,自动执行一系列复杂的任务。 比如“删除Word文档中的所有图片”或“在PowerPoint文稿中添加一个新幻灯片”。 它结合了GPT 4-V,能够理解和Windows应用程序的图形用户界面(GUI)并执行操作。 ...
OS-Copilot:能够与操作系统(OS)进行交互
完成一系列广泛且复杂的计算机任务的智能代理框架。 它能够自我学习和改进,处理各种操作系统级别的任务。 包括但不限于文件管理、数据处理、环境设置、多媒体操作、网页浏览、代码编写、第三方应用交互、自动化测试等。 该项目由上海AI实验室、华东师范大学、普林斯顿大学和香港大学的研究人员共同开发。
YOLO-World:腾讯AI实验室开发的一个实时目标检测工具
它能够自动识别和定位图像中的各种对象 YOLO-World在速度和准确性方面都优于许多最先进的方法。 零样本检测能力,无需训练即可进行实时目标检测,即便某些物品之前没有见过。
Anything in Any Scene:在现有动态视频中无缝插入任何物体
1、物体的准确放置:确保新插入的物体在视频中的位置看起来自然、合理,与视频场景的其他元素和空间布局协调一致。 2、光照和阴影的真实模拟:通过分析和模拟视频中的光照条件及其对物体的影响,生成看起来自然的阴影和光照效果,增强物体与环境的整合度。...
MetaVoice-1B:高度真实和自然的文本到语音(TTS)转换模型
模型有1.2亿个参数,经过了10万小时的语音数据训练。 专注英语情感演讲 跨语言语音克隆 支持美国和英国声音的零样本克隆 支持长篇内容语音合成
Media2Face:通过语音合成3D面部画面
Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。 同时允许用户对生成的面部动画进行更细致的个性化调整,如情感调整,“快乐”或“悲伤”等。 它还能理解多种类型的输入信息(音频、文本、图像),并将这些信息作为生成面部动画的指引。
MedSAM:通用医学影像分割模型
MedSAM是一种医学影像分割工具,它能够自动识别和描绘医学影像中的重要区域,比如肿瘤或其他组织的病变。 通过学习大量医学影像和对应的掩模(即正确的分割结果),它能够处理各种不同的医学影像和复杂情况。 它可以帮助医生更快、更准确地诊断疾病。