Openrouter提供了一个统一的接口,通过这个接口,你可以直接访问和使用几十种AI模型 你可以使用这个接口对各种模型进行测试和比价,选择最适合自己的,避免了东奔西跑
分类: AI项目
基于真实果蝇行为训练的人工智能模型
通过结合解剖学精确的模型、物理模拟器和基于真实果蝇行为训练的人工智能模型 @HHMIJanelia 和 @GoogleDeepMind 的科学家创造了一种计算机化昆虫,它能够像真实果蝇一样,在复杂的轨迹上行走和飞行。
3D视觉-语言-动作生成世界模型
最近的视觉-语言-动作 (VLA) 模型依赖于 2D 输入,缺乏与更广泛的 3D 物理世界领域的集成。此外,他们通过学习直接映射来执行动作预测
Maisa推出的一种新型技术框架:KPU
通过将推理与数据处理分开,优化和提升了大语言模型处理复杂任务的能力。 使用KPU后,在多个基准测试和推理任务中GPT-4 、Claude 3 Opus等模型等能力得到大幅提升,都超越了没有使用KPU的原模型本身!
Claude 3 Haiku API发布
速度最快最有性价比的型号 每百万输入token0.25美元,每百万输出token1.25美元。
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目
Google也弄了一个:一张照片+音频即可生成会说话唱歌的视频的项目 VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频
DexCap开源版经济版的Optimus
成本大约 $3,600,可以用来记录真人手指的动作来训练机器人进行灵活的操作。 并且不是遥控操作,它有一对特制的手套,通过各种传感器捕捉手部运动的精确数据。与传统基于视觉的运动捕捉技术相比,这些手套不会因为视线遮挡而失效,更适合在日常活动中使用。
Musepro这个iPad应用看起来是真的可用
与其他画笔快速生成图片的尴尬应用不同,Musepro这个iPad 应用看起来是真的可用。借助 iPad 搭配的 Apple Pencil以及内置的丰富笔刷,应该可以极大的提高画图效率。
LaVague一个开源的浏览器自动化操作Agents
通过提供一个将自然语言查询转化为 Selenium 代码的引擎,LaVague 可让用户或其他人工智能轻松实现自动化,轻松表达网络工作流程并在浏览器上执行。
H2O:将人类动作实时转换为机器人动作,实时全身遥控机器人
Human to Humanoid (H2O)由卡内基梅隆大学的研究团队开发,它允许人们通过一个简单的RGB摄像头让机器人实时模仿人的全部动作。
Midjourney角色一致性功能发布
在你输入的指令后面加上 --cref URL,URL是你选择的角色图像的链接。 你还可以用 --cw 来调整参照的“强度”,范围从100到0。 默认的强度是100 (--cw 100),这时会参考人物的脸部、发型和衣着。 如果设置为强度0 (--cw...
Optimizer AI:专门为视频自动生成音效的AI工具 可以为AI视频自动配音
能够通过文字提示创造出适用于各种场景的声音和音效 如游戏中的射击和跳跃声音、动画中的雨声环境以及视频中的地铁到站声音等。
deepseek_ai 的视觉语言模型
@deepseek_ai 的视觉语言模型专为现实世界的视觉和语言理解应用程序而设计。
MusicLang-基于 Llama 2 的音乐生成模型!
基于 Llama2,从头开始训练。 许可 - 开源。 优化在 CPU 上运行。 🔥 高度可控,可选择节奏、和弦进行、小节范围等等!
高质量的文本转语音库MeloTTS是开源的
多语言、多口音、CPU 实时且完全免费。 它支持英语、西班牙语、法语、中文、日语和韩语。回顾一下开源历史上导致 Linux 诞生的重要时刻
Claude3最新已经上线AWS
Anthropic太牛了。Claude-3 发布的两件事: 领域专家基准。我对饱和的 MMLU 和 HumanEval 不那么感兴趣。Claude特别挑选了金融、医学和哲学作为专家领域并报告性能。我建议所有 LLM 模型卡都遵循这一点,这样不同的下游应用程序就会知道该期待什么。 ...