Google 推出了全新语音聊天模式,名为 Gemini Live,现已面向高级订阅用户开放。此功能允许用户与多个语音选项进行自然对话,并支持打断,无需点击按钮。用户可以暂停讨论并在稍后恢复,增强对话流程。 目前正在 Android 设备上以英语推出,计划在未来几周内支持 iOS...
分类: Alphabet
Google 开发出一个能够达到人类业余水平的乒乓球机器人
DeepMind的工程师团队开发了一款能够打业余水平乒乓球的机器人。该机器人的核心硬件基于ABB IRB 1100机械臂,这款机械臂以其高速度和高精度著称,广泛应用于工业场景。通过结合了先进的机器人技术和人工智能,能够执行快速且有策略的乒乓球动作。 ...
Google Home 借助 Gemini AI 变得更智能
新功能包括: 智能摄像头字幕: Gemini 将为 Nest 摄像头画面生成描述性字幕,提供超越简单警报的上下文信息。 自然语言自动化: 用户可以使用 Google Home 应用中的自然语言提示创建复杂例程。 增强型 助理: 新的语音和改进的对话能力将使 助理听起来更自然,并更好地理解用户请求。
桌面版 Chrome 添加了三项新人工智能功能
Google Lens 现已可用于 Chrome 桌面浏览器,用户可以通过快速拖动和搜索手势搜索浏览器屏幕上看到的内容。“标签比较”功能可让用户跨站点比较商品,网上购物时,来回切换标签页对比商品价格与评论很麻烦,该功能可在一处显示人工智能生成的多个标签页中的产品概览。
谷歌发布全新“开放式”AI模型 重点关注安全
谷歌发布了三款新的“开放式”生成式人工智能模型,并称这些模型比大多数模型“更安全”、“更小巧”、“更透明”。这是谷歌 Gemma 2 生成模型系列的新成员,该系列于5月份首次亮相。新模型 Gemma 2 2B、ShieldGemma 和 Gemma Scope...
苹果弃用英伟达,转而使用谷歌 AI 芯片
苹果透露,其新的人工智能模型训练使用了谷歌的张量处理单元 (TPU),而不是英伟达的 GPU。这一决定意义重大,因为英伟达在 AI 芯片市场占据主导地位,份额高达 80%。 苹果在其 iPhone AI 模型中部署了 2048 个 TPUv5p 芯片,在其服务器 AI 模型中部署了 8192 个...
人工智能在国际数学奥林匹克中达到银牌标准
谷歌的人工智能系统AlphaProof和AlphaGeometry 2取得了突破性成就,成功解决了2024年国际数学奥林匹克(IMO)中的六个问题中的四个,获得了相当于银牌的分数。这是首次有人工智能系统在这一享有盛誉的比赛中达到如此高水平的表现。 ...
谷歌将Gemini 1.5 Pro安装到机器人上 实现记忆导航能力
Google DeepMind 他们把一个叫Gemini1.5Pro的系统装到了机器人身上。这可不是普通的升级,这玩意儿让机器人有了记忆导航的超能力。 ...
谷歌:个人健康大语言模型和智能体研究
整合到临床任务中的移动和可穿戴设备为个人健康监测提供了丰富、连续和纵向的数据来源。本文提出一个新模型,个人健康大型语言模型(PH-LLM),一个经过微调的Gemini版本,用于对数字时间序列个人健康数据的文本理解和推理,用于睡眠和健身应用。
Chrome 已经内置大模型(Gemini Nano)
本地和远端大模型混合使用的方案。 使用 chrome 本地模型的好处: 1、本地处理敏感数据; 2、流畅的用户体验; 3、对 AI 的访问权限更高; 4、离线使用 AI。
Google AI 医学影像模型
机器学习 (ML) 有潜力彻底改变医疗保健,从减少工作量和提高效率到发现新的生物标志物和疾病信号。为了负责任地利用这些好处,研究人员采用可解释性技术来了解机器学习模型如何进行预测。然而,当前基于显着性的方法突出了重要的图像区域,通常无法解释特定的视觉变化如何驱动机器学习决策。
谷歌家的好东西:艺术家
say-what-you-see 可以帮你学会如何写 AI 画图提示词 除了教你技巧外还会有对应的练习,给你一张图片让你用学习的技巧写提示词复刻图片。 藏师傅第一等级全部 70 分以上通过,哈哈。 来测试一下你的 AI 画图提示词能力吧,又要干苦力给谷歌打标了
LearnLM-Tutor:DeepMind 开发 专门用于一对一的教学辅导的 AI 模型
LearnLM-Tutor 是一个由 Google DeepMind 开发的生成式 AI 模型,专门用于教育领域,旨在提供一对一的对话辅导。 ...
谷歌在Chrome中允许用户输入“@”来启动 Gemini
谷歌在 Chrome 中集成了一项新功能,允许用户输入“@”来启动 Gemini。 新的人工智能工具几乎没有学习曲线 立即改进产品并利用现有分销 慢慢提高非人工智能用户的技能
Google推出开源视觉语言模型:PaliGemma
支持图像视频等多种视觉语言任务 包括支持图像和短视频字幕、视觉问答、图像文本理解、物体检测文件图表解读、图像分割等任务。 PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。
Google使用Gemini 让Android 开发更快、更简单
Android Studio提供了一站式解决方案,集成了代码编辑、编译、调试和测试的工具,减少了开发者在不同工具间切换的需要。 支持自动编写代码、语法高亮和代码重构