多媒体处理

AI行业应用, AI项目, 多媒体处理, 开源项目

Web应用程序：支持文本到图像和图像到文本的转换

Tarogo Cloud / 21 2 月, 2025

网站功能：AI 图像生成
网站名称：PainterLeaf
网站简介：一个免费的Web应用程序，支持文本到图像和图像到文本的转换。
支持多种模型，包括Flux.1和StableDiffusion 3.5，可以通过输入文本生成图像，或将本地图像转换为文本提示。

AI行业应用, AI资讯, AI项目, 多媒体处理

Riffusion FUZZ 音乐生成模型

Tarogo Cloud / 20 2 月, 2025

使用扩散技术生成完整的三分钟以上歌曲

简介：FUZZ 是 Riffusion 推出的最新音乐生成模型，利用扩散模型生成音乐谱图，并转换为音轨可供下载。尽管目前中文语言能力有待提高，但 FUZZ 的功能与 Suno V2 相当，且承诺在 GPU 资源允许的情况下保持免费。
音乐风格：支持多种音乐风格，助力创作多样化的音乐作品。

AI行业应用, AI资讯, AI项目, 多媒体处理

一个专注于AI视频生成的社区平台：MiniMaxAI

Tarogo Cloud / 18 2 月, 2025

网站功能：AI 视频生成
网站简介：一个专注于AI视频生成的社区平台，通过用户生成的视频、教程和博客，激发创作者的灵感。
可以利用MiniMax AI的强大功能，将文本和图像转换为动态视频，快速生成高质量的视觉内容。
大語言模型（LLMs ）和多模型模型已成為改變遊戲規則的人

AI行业应用, AI项目, 多媒体处理, 开源项目

X-to-Voice：自动生成能说话的个人资料头像

Tarogo Cloud / 17 2 月, 2025

ElevenLabs 发布了一个开源的小项目，X-to-Voice ，允许用户通过分析 Twitter 资料生成自定义的声音和头像。这个项目使用了 ElevenLabs 的新声音设计 API 和 Taedra 动态头像生成工具。
用户可以输入 Twitter 账号名称，系统将分析其资料数据生成特有的语音和动画头像。

AI行业应用, AI项目, 多媒体处理, 开源项目

一个完全本地运行的开源语音转文本 API

Tarogo Cloud / 16 2 月, 2025

该项目基于 OpenAI 的 Whisper 模型，并利用 FastAPI 的异步特性对其进行高效包装，支持异步任务队列，文件处理，网络爬虫，以及更多自定义功能。
「Fast-Powerful-Whisper-AI-Services-API 」的愿景是打造一个强大且开箱即用的 Whisper 服务 API

AI行业应用, AI项目, 多媒体处理, 开源项目

VITA开源版视频+语音模型

Tarogo Cloud / 10 2 月, 2025

一个开源的多模态大语言模型，旨在实现实时的视觉和语音交互。
能够同时处理视频、图像、文本和音频数据，通过减少交互延迟、增强语音处理能力和改进多模态理解，达到了接近GPT-4o的水平。
顯著降低交互延遲。

AI行业应用, AI项目, 多媒体处理, 开源项目

一款开源的AI试衣模型，能够精确操控人物的外观和姿势

Tarogo Cloud / 3 2 月, 2025

可控人物影像產生旨在產生以參考影像為條件的人物影像，從而允許精確控制人物的外觀或姿勢。然而，現有方法儘管實現了較高的整體影像質量，但通常會扭曲參考影像的細粒度紋理細節。我們將這些扭曲歸因於對參考影像中相應區域的關注不夠

AI行业应用, 多媒体处理

将照片即时转换为卡通和动画艺术风格的人工智能工具

Tarogo Cloud / 31 1 月, 2025

网站简介：一款可以将照片即时转换为卡通和动画艺术风格的人工智能工具。
只需上传一张照片，网站的AI技术会迅速将其转换为一个个性化的《海贼王》动漫角色。

AI巨头, AI行业应用, AI项目, Claude, 多媒体处理, 开源项目

Claude iOS 和 Android App 迎来新界面

Tarogo Cloud / 21 1 月, 2025

新增分析工具，支持编写和运行JavaScript代码以处理和分析CSV文件数据
Anthropic 今日上线了全新的 Claude AI 内置工具，可以编写和运行 JavaScript 代码，处理数据、进行分析并生成洞察。

AI行业应用, AI项目, 多媒体处理, 开源项目

Power-over-Skin “皮肤供电”技术

Tarogo Cloud / 20 1 月, 2025

现代计算设备功能强大且小巧，可以轻松佩戴在身体上。然而，电池成为设计和用户体验的主要障碍，增加了设备的重量和体积，并且需要定期充电和移除设备。

为了解决这些问题，卡内基梅隆大学的研究人员提出了通过人体传输能量的“皮肤供电”技术。

強大的計算設備現在足夠小，可以輕鬆佩戴在身上。然而，電池造成了主要的設計和使用者體驗障礙

AI行业应用, AI项目, 多媒体处理, 开源项目

几个开源AI项目一览

Tarogo Cloud / 16 1 月, 2025

Ebook2Audiobook开源项目
将电子书自动转换为有声书支持语音克隆、多种语言

Hertz-dev：首个会话音频开源模型

小宾AI抠图

AI 头像动起来

AI行业应用, AI项目, 多媒体处理, 开源项目

PDF2Audio

Tarogo Cloud / 29 12 月, 2024

将 PDF 文件转换为播客、讲座、摘要等音频内容

PDF2Audio 是一个开源项目，旨在将 PDF 文件转换为音频格式，如播客、讲座或摘要。该项目利用 OpenAI 的 GPT 模型进行文本生成和文本转语音（TTS）转换。用户可以上传多个 PDF 文件，并根据不同的模板（例如播客、讲座、摘要）生成音频内容。

退出移动版