OpenAI宣布收购 Rockset
这是一家领先的实时分析数据库公司,提供世界级的数据索引和查询能力。
OpenAI称通过这次收购,OpenAI计划将Rockset的技术集成到其产品中,以增强其检索基础设施,使AI能够更好地利用和访问实时数据。
这是一家领先的实时分析数据库公司,提供世界级的数据索引和查询能力。
OpenAI称通过这次收购,OpenAI计划将Rockset的技术集成到其产品中,以增强其检索基础设施,使AI能够更好地利用和访问实时数据。
Florence-2 是 Microsoft 在 MIT 许可下开源的轻量级视觉语言模型。该模型在字幕、对象检测、接地和分割等任务中展示了强大的零样本和微调功能。
尽管尺寸很小,但它所取得的结果与大许多倍的模型(如 Kosmos-2)相当。该模型的优势不在于复杂的架构,而在于大规模的 FLD-5B 数据集,其中包含 1.26 亿张图像和 54 亿个综合视觉注释。
支持从图片生成提示词和指定位置的蒙版。
从图片生成提示词支持三个详细等级,内容会越来越多,蒙版生成类似 SAM 输入区域的单词就行。
提示词推理比 WD14 快非常多,也比较准确。
提供了 Colab 笔记,直接运行就可以,不需要摆弄麻烦的 Comfyui 流程和一堆模型了。
Diffutoon 能够以动漫风格渲染出细节丰富、高分辨率和长时间的视频。它还可以通过一个附加模块根据提示编辑内容。
可实现多人、多语言的实时对话翻译
用户可以通过蓝牙耳机连接应用,将手机放进口袋,与他人进行实时语言转换的对话,应用会自动翻译并播报对方的语言。
Gen-3 Alpha是Runway的反击之作。Gen-3 Alpha的一大特点是生成的视频具有高精细度,它可以理解并生成复杂的场景和运动画面,还能胜任多种电影艺术手法。
麻省理工学院的研究人员(麻省理工学院简介)创建了一个 聊天机器人 感动于 人工智能 (AI) 它模拟用户以前的“自我”并提供观察和建议。 目标是鼓励人们今天更多地思考他们明天想成为的人。
高中机器人团队开发的世界上最小、最便宜的网络交换机 — Murex Robotics 使硬件完全开源
高中生可以节省 90% 以上的价格,并减少专业解决方案的占用空间。
整合到临床任务中的移动和可穿戴设备为个人健康监测提供了丰富、连续和纵向的数据来源。本文提出一个新模型,个人健康大型语言模型(PH-LLM),一个经过微调的Gemini版本,用于对数字时间序列个人健康数据的文本理解和推理,用于睡眠和健身应用。
一款开源 AI 工具,有望通过将 GPU 使用率降低 20% 来彻底改变 LLM 训练
开发大型语言模型需要大量时间和 GPU 资源投资,这直接转化为高昂的成本。模型越大,这些挑战就越明显。
阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2,一款通过多智能体协作实现有效导航的移动设备操作助手,它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能,让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机,从而执行各种任务。