FLUX 是由 Black Forest Labs 开发的先进文本到图像 AI 模型,旨在生成高质量的图像,包括发型设计等。
分类: 多媒体处理
WanX 2.1 – 阿里巴巴先进视频生成模型
WanX 2.1 是由阿里巴巴通义万相团队开发的前沿视频生成模型,代表了 AI 驱动视觉内容创作的重大突破。它不仅支持高质量的文本到视频和图像到视频生成,还在物理模拟、多语言支持和视觉一致性方面表现出色。通过其开源计划,WanX 2.1...
Google Whisk:革新图像生成的全新工具
Google Whisk 是一款创新的图像生成工具,用户无需输入复杂的文本提示,只需上传参考图片,即可快速生成符合预期的图像。 该工具结合了 Gemini 和 Imagen 3 模型,提供直观且高效的创作体验,适用于多种创作需求。
VideoChat:实时语音互动数字人演示项目
该项目演示了与可定制数字人进行实时语音互动的功能。它支持端到端和级联语音解决方案。
让静态角色绘画实现流畅的动态效果
该项目是一个关于 数字人(Digital Human)和 Live2D 技术 的精选资源列表,包含相关的开源工具、学习资料、示例代码和社区讨论。Live2D 作为一种 2D 动画技术,能够让静态角色绘画实现流畅的动态效果,广泛应用于 虚拟主播(Vtuber)、游戏角色动画、AI...
PainterLeaf是一个免费的模型创建AI绘画网站
PainterLeaf 是一个开源的数字绘画应用,旨在为艺术家和创作者提供高效且直观的绘画工具。该项目支持多层次绘图,允许用户自定义画笔、调色板以及绘画工具,以适应不同的创作需求。PainterLeaf 还包含图像编辑功能,帮助用户调整图像的色彩、对比度和亮度等。
Sana:高效的文本到图像生成框架,能够生成4K高清图像
Sana 是 NVIDIA 发布的一个开源项目,专为加速大规模深度学习模型训练而设计。通过 GPU 加速、分布式训练以及高效的数据处理,Sana 极大提升了计算机视觉、自然语言处理等任务的训练效率。项目提供模块化设计,支持多种神经网络架构,并可在多个 GPU...
一个高容量的真实世界图像恢复开源项目
DreamClear 是一个开源项目,利用深度学习技术,特别是卷积神经网络(CNN),进行图像去噪和增强。通过训练深度神经网络,DreamClear 能有效去除图像中的噪声并恢复图像的清晰度,尤其适用于低光照或损坏的图像。该项目支持自定义模型训练和优化,适应不同的应用场景。DreamClear...
几个免费AI绘画工具网站浏览
YFT Pro Editor 是一个基于 Web 的 AI 设计和编辑工具,专注于生成和编辑高质量的图像。它适用于设计师、艺术家和创作者,提供多种 AI 辅助功能,如智能修图、样式转换和自动优化。该平台简化了设计流程,使用户能够快速创建视觉内容,而无需掌握复杂的设计软件。 CivitAI...
利用人工智能技术将图像转换为文本提示词的工具
Image to Prompt 是一个 AI 工具,可将图像转换为精准的文本提示词。用户可上传 JPEG、PNG...
Web应用程序:支持文本到图像和图像到文本的转换
网站功能:AI 图像生成 网站名称:PainterLeaf 网站简介:一个免费的Web应用程序,支持文本到图像和图像到文本的转换。 支持多种模型,包括Flux.1和StableDiffusion 3.5,可以通过输入文本生成图像,或将本地图像转换为文本提示。
Riffusion FUZZ 音乐生成模型
使用扩散技术生成完整的三分钟以上歌曲 简介:FUZZ 是 Riffusion 推出的最新音乐生成模型,利用扩散模型生成音乐谱图,并转换为音轨可供下载。尽管目前中文语言能力有待提高,但 FUZZ 的功能与 Suno V2 相当,且承诺在 GPU 资源允许的情况下保持免费。...
一个专注于AI视频生成的社区平台:MiniMaxAI
网站功能:AI 视频生成 网站简介:一个专注于AI视频生成的社区平台,通过用户生成的视频、教程和博客,激发创作者的灵感。 可以利用MiniMax AI的强大功能,将文本和图像转换为动态视频,快速生成高质量的视觉内容。 大語言模型(LLMs )和多模型模型已成為改變遊戲規則的人
X-to-Voice:自动生成能说话的个人资料头像
ElevenLabs 发布了一个开源的小项目,X-to-Voice ,允许用户通过分析 Twitter 资料生成自定义的声音和头像。这个项目使用了 ElevenLabs 的新声音设计 API 和 Taedra 动态头像生成工具。 用户可以输入 Twitter...
一个完全本地运行的开源语音转文本 API
该项目基于 OpenAI 的 Whisper 模型,并利用 FastAPI 的异步特性对其进行高效包装,支持异步任务队列,文件处理,网络爬虫,以及更多自定义功能。 「Fast-Powerful-Whisper-AI-Services-API 」的愿景是打造一个强大且开箱即用的 Whisper...
VITA开源版视频+语音模型
一个开源的多模态大语言模型,旨在实现实时的视觉和语音交互。 能够同时处理视频、图像、文本和音频数据,通过减少交互延迟、增强语音处理能力和改进多模态理解,达到了接近GPT-4o的水平。 顯著降低交互延遲。