分類: 开源项目 - 第 12 頁 - Tarogo Cloud Bloger & Shop

AI项目开源项目

UFO：由微软开发的专注于Windows操作系统交互的UI代理

它可以通过理解用户的自然语言指令和屏幕的视觉内容，自动执行一系列复杂的任务。

比如“删除Word文档中的所有图片”或“在PowerPoint文稿中添加一个新幻灯片”。

它结合了GPT 4-V，能够理解和Windows应用程序的图形用户界面（GUI）并执行操作。

UFO能够在Windows应用程序中执行各种操作，如点击按钮、填写表单、浏览文件等，就好像一个人在使用鼠标和键盘操作电脑一样。

8 3 月, 2024

OS-Copilot：能够与操作系统（OS）进行交互

完成一系列广泛且复杂的计算机任务的智能代理框架。
它能够自我学习和改进，处理各种操作系统级别的任务。
包括但不限于文件管理、数据处理、环境设置、多媒体操作、网页浏览、代码编写、第三方应用交互、自动化测试等。

该项目由上海AI实验室、华东师范大学、普林斯顿大学和香港大学的研究人员共同开发。

4 3 月, 2024

AI项目开源项目

YOLO-World：腾讯AI实验室开发的一个实时目标检测工具

它能够自动识别和定位图像中的各种对象
YOLO-World在速度和准确性方面都优于许多最先进的方法。
零样本检测能力，无需训练即可进行实时目标检测，即便某些物品之前没有见过。

29 2 月, 2024

AI项目开源项目

Anything in Any Scene：在现有动态视频中无缝插入任何物体

1、物体的准确放置：确保新插入的物体在视频中的位置看起来自然、合理，与视频场景的其他元素和空间布局协调一致。
2、光照和阴影的真实模拟：通过分析和模拟视频中的光照条件及其对物体的影响，生成看起来自然的阴影和光照效果，增强物体与环境的整合度。
3、风格一致性：应用风格转换技术，调整和优化视频的视觉效果，使得插入的物体在色彩、纹理等方面与背景视频保持一致，进一步提升整个视频的真实感和观感质量。

28 2 月, 2024

AI项目多媒体处理开源项目

MetaVoice-1B：高度真实和自然的文本到语音（TTS）转换模型

模型有1.2亿个参数，经过了10万小时的语音数据训练。

专注英语情感演讲
跨语言语音克隆
支持美国和英国声音的零样本克隆
支持长篇内容语音合成

27 2 月, 2024

AI项目开源项目

Media2Face：通过语音合成3D面部画面

Media2Face能够根据声音来生成与语音同步的、表现力丰富的3D面部动画。

同时允许用户对生成的面部动画进行更细致的个性化调整，如情感调整，“快乐”或“悲伤”等。

它还能理解多种类型的输入信息（音频、文本、图像），并将这些信息作为生成面部动画的指引。

23 2 月, 2024

AI项目医疗AI 开源项目

MedSAM：通用医学影像分割模型

MedSAM是一种医学影像分割工具，它能够自动识别和描绘医学影像中的重要区域，比如肿瘤或其他组织的病变。

通过学习大量医学影像和对应的掩模（即正确的分割结果），它能够处理各种不同的医学影像和复杂情况。

它可以帮助医生更快、更准确地诊断疾病。

16 2 月, 2024

AI项目开源项目

vx. dev：v0.dev的开源替代品

vx. dev与GitHub无缝集成，你只需在GitHub上提交一个新的Issue，vx. dev就可以你的需求生成React、Vue或Svelte等UI代码。

支持用户自定义代码生成模式，生成的代码通过拉取请求呈现，方便用户查看和修改。

13 2 月, 2024

AI项目多媒体处理开源项目

WhisperSpeech：一个开源的文本到语音系统

是通过对OpenAI的Whisper语音识别模型反向工程来实现的。

通过这种反转过程，WhisperSpeech能够接收文本输入，并利用修改后的Whisper模型生成听起来自然的语音输出。

输出的语音在发音准确性和自然度方面都非常的优秀。

12 2 月, 2024

AI项目开源项目

PhotoMaker：创造出一个新的、个性化的人物图像

能根据描述生成符合描述的人物照片。
也能把几个不同人的照片特征混合在一起，创造出一个全新的人物形象。
还能改变照片人物的性别、年龄和生成多种风格的其他照片。

6 2 月, 2024

AI项目开源项目

BakedAvatar：实时创建和渲染逼真的动态 3D头像

只需要一个简短的视频，BakedAvatar就能从这个视频中复制出该人物3D头部模型。同时精确捕捉其面部特征，模拟表情和头部运动。
而且它还能对3D头部进行实时渲染，编辑和调整头像的表情、姿势等。
即使是在普通的移动设备上也能实现。

4 2 月, 2024

AI项目开源项目

斯坦福大学开发出一个几乎不会产生幻觉的模型：WikiChat

高度准确：因为它直接依赖于维基百科这个权威且更新频繁的信息源，所以WikiChat在提供事实和数据时非常准确。
减少“幻觉”：LLM在谈论最新事件或不太流行的话题时容易产生错误信息。WikiChat通过结合维基百科数据，减少了这种信息幻觉的发生。
对话性强：尽管重视准确性，WikiChat仍然能够维持流畅、自然的对话风格。
适应性强：它可以适应各种类型的查询和对话场景。
高效性能：通过优化，WikiChat在回答问题时更快速，同时减少了运行成本