这是一家领先的实时分析数据库公司,提供世界级的数据索引和查询能力。 OpenAI称通过这次收购,OpenAI计划将Rockset的技术集成到其产品中,以增强其检索基础设施,使AI能够更好地利用和访问实时数据。
作者: Tarogo Cloud
Florence-2:微软开源视觉基础模型
Florence-2 是 Microsoft 在 MIT 许可下开源的轻量级视觉语言模型。该模型在字幕、对象检测、接地和分割等任务中展示了强大的零样本和微调功能。 尽管尺寸很小,但它所取得的结果与大许多倍的模型(如 Kosmos-2)相当。该模型的优势不在于复杂的架构,而在于大规模的...
kijai 开发的 Florence-2 ComfyUI 插件上线
支持从图片生成提示词和指定位置的蒙版。 从图片生成提示词支持三个详细等级,内容会越来越多,蒙版生成类似 SAM 输入区域的单词就行。 提示词推理比 WD14 快非常多,也比较准确。
Diffutoon:将任何真实感视频直接渲染为高清动漫风格
提供了 Colab 笔记,直接运行就可以,不需要摆弄麻烦的 Comfyui 流程和一堆模型了。 Diffutoon 能够以动漫风格渲染出细节丰富、高分辨率和长时间的视频。它还可以通过一个附加模块根据提示编辑内容。
RTranslator :一款开源、免费离线的实时翻译应用
可实现多人、多语言的实时对话翻译 用户可以通过蓝牙耳机连接应用,将手机放进口袋,与他人进行实时语言转换的对话,应用会自动翻译并播报对方的语言。
Runway最新视频生成模型上线
Gen-3 Alpha是Runway的反击之作。Gen-3 Alpha的一大特点是生成的视频具有高精细度,它可以理解并生成复杂的场景和运动画面,还能胜任多种电影艺术手法。
未来的你,麻省理工学院让你与聪明、年长的自己聊天
麻省理工学院的研究人员(麻省理工学院简介)创建了一个 聊天机器人 感动于 人工智能 (AI) 它模拟用户以前的“自我”并提供观察和建议。 目标是鼓励人们今天更多地思考他们明天想成为的人。
世界上最小、最便宜的网络交换机
高中机器人团队开发的世界上最小、最便宜的网络交换机 — Murex Robotics 使硬件完全开源 高中生可以节省 90% 以上的价格,并减少专业解决方案的占用空间。
谷歌:个人健康大语言模型和智能体研究
整合到临床任务中的移动和可穿戴设备为个人健康监测提供了丰富、连续和纵向的数据来源。本文提出一个新模型,个人健康大型语言模型(PH-LLM),一个经过微调的Gemini版本,用于对数字时间序列个人健康数据的文本理解和推理,用于睡眠和健身应用。
Yandex 推出 YaFSDP:
一款开源 AI 工具,有望通过将 GPU 使用率降低 20% 来彻底改变 LLM 训练 开发大型语言模型需要大量时间和 GPU 资源投资,这直接转化为高昂的成本。模型越大,这些挑战就越明显。
Apple Intelligence 新功能
动画指示按钮被按下:如此光滑和简约! 地图重新设计:(@Apple,重新绘制你的地图) 新的控制中心很疯狂:
自动翻译油管语言的插件
YouTube Dubbing插件,一键将英语视频转换为中文的声音进行播放,非常适合用来看国外教程类的视频, 目前支持Youtube 和Udemy 。PC,Android ,IOS 都支持。
Mobile-Agent-v2:让AI可以像真人一样来操控你的手机执行各种任务
阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2,一款通过多智能体协作实现有效导航的移动设备操作助手,它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能,让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机,从而执行各种任务。
Whisper WebGPU:使用 OpenAI Whisper 进行浏览器内实时语音识别
直接在网络浏览器中实现实时语音识别长期以来一直是一个备受追捧的里程碑。 Hugging Face 工程师(昵称“Xenova”)开发的 Whisper WebGPU 是一项突破性技术,利用 OpenAI 的 Whisper...
OpenAI 推出 ChatGPT Edu 为大学设计的专用版本
ChatGPT Edu,这是 ChatGPT 的一个版本,专为大学打造,旨在负责任地将 AI 部署到学生、教师、研究人员和校园运营中。ChatGPT Edu 由 GPT-4o 提供支持,可以跨文本和视觉进行推理,并使用数据分析等高级工具。
Luma AI推出了视频生成器,名为 Dream Machine
Luma AI 刚刚推出了一款类似 Sora 的 AI 视频生成器,名为 Dream Machine。 但与 Sora 或 KLING 不同的是,它完全向公众开放。