在你输入的指令后面加上 --cref URL,URL是你选择的角色图像的链接。 你还可以用 --cw 来调整参照的“强度”,范围从100到0。 默认的强度是100 (--cw 100),这时会参考人物的脸部、发型和衣着。 如果设置为强度0 (--cw...
分类: AI项目
Optimizer AI:专门为视频自动生成音效的AI工具 可以为AI视频自动配音
能够通过文字提示创造出适用于各种场景的声音和音效 如游戏中的射击和跳跃声音、动画中的雨声环境以及视频中的地铁到站声音等。
deepseek_ai 的视觉语言模型
@deepseek_ai 的视觉语言模型专为现实世界的视觉和语言理解应用程序而设计。
MusicLang-基于 Llama 2 的音乐生成模型!
基于 Llama2,从头开始训练。 许可 - 开源。 优化在 CPU 上运行。 🔥 高度可控,可选择节奏、和弦进行、小节范围等等!
高质量的文本转语音库MeloTTS是开源的
多语言、多口音、CPU 实时且完全免费。 它支持英语、西班牙语、法语、中文、日语和韩语。回顾一下开源历史上导致 Linux 诞生的重要时刻
AI开源项目:NavAIGuide-TS
这证明了 GPT-4V 作为通用移动 AI 代理的出色程度 - 无需任何微调或基础,仅通过与启用 JSON 模式的文本模型集成即可。 建议观看此演示,了解(可能)令人惊叹的因素以及使用 NavAIGuide 在 iOS 17 上的结果, NavAIGuide 是 LLMs 的移动和 Web...
Claude3最新已经上线AWS
Anthropic太牛了。Claude-3 发布的两件事: 领域专家基准。我对饱和的 MMLU 和 HumanEval 不那么感兴趣。Claude特别挑选了金融、医学和哲学作为专家领域并报告性能。我建议所有 LLM 模型卡都遵循这一点,这样不同的下游应用程序就会知道该期待什么。 ...
Devv Agent 可以提供更准确、更详细的回答
它会理解你的需求,并分解任务,最终输出一个详尽的答案。
OpenReplay:用户操作记录回放
OpenReplay是一个自托管的会话回放和分析开源工具 可以让开发人员像看电影一样回看用户如何与你的产品互动,包括他们点击了什么,输入了什么,甚至在遇到问题时他们的屏幕上发生了什么。 帮助你优化用户体验和提高产品性能。
AutoPrompt:自动优化你的提示词
专为优化提示而设计的框架,通过不断的迭代过程,AutoPrompt 构建了一个包含各种挑战性边缘案例的数据集,用于测试和优化提示。 它能根据用户的具体意图自动生成定制化的提示,确保生成的提示能够精准地满足用户的需求。
ChatGPT 语音朗读功能开始灰度测试
设置好语音,点击播放按钮,可以自动朗读GPT生成的内容 ChatGPT 的数据分析Data Analysis 将升级到V2 版本,功能更加强大!
Sanctuary AI旗下的Phoenix机器人最新演示视频
Phoenix是世界上第一个由Carbon驱动的人形通用机器人,这是一个开创性且独特的AI控制系统,可以赋予机器人人类般的智能! Carbon可以将自然语言转化为现实世界中的行动。可以使机器人可以完成十几个不同行业确定的数百项任务。
Pi 支持通过 iMessage 聊天了
让我意外的是它竟然支持中文了
CSM_ai生成的3D素材能直接在游戏中应用
现在只需要使用文本、图像或草图,将提示输入到 @CSM_ai 中,生成的3D素材就能直接在游戏中应用。
北京大学Yuangroup团队发起了一个 Open-Sora计划
旨在复现OpenAI 的Sora模型 Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件,来实现Sora模型的功能。
Chat-With-MLX:在Mac上轻松运行各种开源模型
并以RAG的方式聊天 是利用苹果MLX框架实现的一个高效、多语言支持进行检索增强生成(RAG)的聊天界面。