谷歌为 Gemini 订阅者推出定制 AI 聊天机器人
谷歌正在通过其 Gemini AI 聊天机器人重新引入生成人物图像的功能。此前,由于对历史不准确的描绘的担忧,该功能在今年早些时候被暂停。该功能将在几天内以早期访问版本的形式提供给使用英语的 Gemini Advanced、Business 和 Enterprise 用户。此升级利用了 Imagen 3,这是谷歌最新的文本到图像生成器,能够从逼真的风景到纹理绘画创建各种视觉效果。
谷歌正在通过其 Gemini AI 聊天机器人重新引入生成人物图像的功能。此前,由于对历史不准确的描绘的担忧,该功能在今年早些时候被暂停。该功能将在几天内以早期访问版本的形式提供给使用英语的 Gemini Advanced、Business 和 Enterprise 用户。此升级利用了 Imagen 3,这是谷歌最新的文本到图像生成器,能够从逼真的风景到纹理绘画创建各种视觉效果。
谷歌将AI驱动的搜索摘要扩展到六个新国家
谷歌现在在搜索页面顶部显示基于人工智能的便捷答案,这意味着用户可能永远不会点击进入那些为这些结果提供数据的网站。
但许多网站所有者表示,他们无法承受阻止谷歌人工智能总结他们的内容的后果。
谷歌发布了其新款Pixel9智能手机,包括起售价为 799 美元,比其前代产品贵了 100 美元。此次发布比往常更早,这是谷歌战略的一部分,旨在将其设备中整合先进的人工智能 (AI) 功能,并在苹果 9 月份发布 iPhone 之前与竞争对手展开竞争。新功能包括独有的截图搜索功能,以及可跨应用程序提供帮助的 Gemini 聊天机器人的叠加层。
Google 推出了全新语音聊天模式,名为 Gemini Live,现已面向高级订阅用户开放。此功能允许用户与多个语音选项进行自然对话,并支持打断,无需点击按钮。用户可以暂停讨论并在稍后恢复,增强对话流程。
目前正在 Android 设备上以英语推出,计划在未来几周内支持 iOS 和其他语言。此次更新还引入了十种新语音和上下文感知功能,允许用户询问屏幕或视频上显示的内容。其他即将推出的功能包括 Keep 和 YouTube Music 等应用程序的扩展。
DeepMind的工程师团队开发了一款能够打业余水平乒乓球的机器人。该机器人的核心硬件基于ABB IRB 1100机械臂,这款机械臂以其高速度和高精度著称,广泛应用于工业场景。通过结合了先进的机器人技术和人工智能,能够执行快速且有策略的乒乓球动作。
通过观看物理模拟和人类比赛,使用小规模数据集进行训练,并通过迭代过程不断提升技能。机器人在与不同水平的人类选手对战时,轻松战胜了初学者,并在与中级选手的比赛中赢得了超过一半的比赛,但在面对高级选手时表现不佳。
新功能包括:
智能摄像头字幕: Gemini 将为 Nest 摄像头画面生成描述性字幕,提供超越简单警报的上下文信息。
自然语言自动化: 用户可以使用 Google Home 应用中的自然语言提示创建复杂例程。
增强型 助理: 新的语音和改进的对话能力将使 助理听起来更自然,并更好地理解用户请求。
Google Lens 现已可用于 Chrome 桌面浏览器,用户可以通过快速拖动和搜索手势搜索浏览器屏幕上看到的内容。“标签比较”功能可让用户跨站点比较商品,网上购物时,来回切换标签页对比商品价格与评论很麻烦,该功能可在一处显示人工智能生成的多个标签页中的产品概览。
谷歌发布了三款新的“开放式”生成式人工智能模型,并称这些模型比大多数模型“更安全”、“更小巧”、“更透明”。这是谷歌 Gemma 2 生成模型系列的新成员,该系列于5月份首次亮相。新模型 Gemma 2 2B、ShieldGemma 和 Gemma Scope 的设计针对略有不同的应用和用例,但都具有安全性的共同点。
Gemma 2 2B 是一个用于生成分析文本的轻量级模型,可在笔记本电脑和边缘设备等多种硬件上运行。至于 ShieldGemma,是一组“安全分类器”,旨在检测仇恨言论、骚扰和色情内容等有害信息。最后,Gemma Scope 允许开发人员“放大” Gemma 2 模型内的特定点,使其内部运作更易于解释。
苹果透露,其新的人工智能模型训练使用了谷歌的张量处理单元 (TPU),而不是英伟达的 GPU。这一决定意义重大,因为英伟达在 AI 芯片市场占据主导地位,份额高达 80%。
苹果在其 iPhone AI 模型中部署了 2048 个 TPUv5p 芯片,在其服务器 AI 模型中部署了 8192 个 TPUv4 处理器。
谷歌的人工智能系统AlphaProof和AlphaGeometry 2取得了突破性成就,成功解决了2024年国际数学奥林匹克(IMO)中的六个问题中的四个,获得了相当于银牌的分数。这是首次有人工智能系统在这一享有盛誉的比赛中达到如此高水平的表现。
AlphaProof是一种强化学习系统,解决了两个代数问题和一个数论问题,包括本次比赛中最具挑战性的题目。AlphaGeometry 2是其前身的改进版本,解决了几何问题。这些人工智能系统总共获得28分,在每个解决的问题上都得到了满分。
Google DeepMind 他们把一个叫Gemini1.5Pro的系统装到了机器人身上。这可不是普通的升级,这玩意儿让机器人有了记忆导航的超能力。
想象一下,这个机器人在将近9000平方英尺的地盘上,能执行57种不同的任务,而且成功率达到了90%。这不是简单的任务,比如找到画画的地方,机器人不仅听懂了,还带你找到了一块大白板。这操作,简直比真人还靠谱。
整合到临床任务中的移动和可穿戴设备为个人健康监测提供了丰富、连续和纵向的数据来源。本文提出一个新模型,个人健康大型语言模型(PH-LLM),一个经过微调的Gemini版本,用于对数字时间序列个人健康数据的文本理解和推理,用于睡眠和健身应用。
本地和远端大模型混合使用的方案。
使用 chrome 本地模型的好处:
1、本地处理敏感数据;
2、流畅的用户体验;
3、对 AI 的访问权限更高;
4、离线使用 AI。
机器学习 (ML) 有潜力彻底改变医疗保健,从减少工作量和提高效率到发现新的生物标志物和疾病信号。为了负责任地利用这些好处,研究人员采用可解释性技术来了解机器学习模型如何进行预测。然而,当前基于显着性的方法突出了重要的图像区域,通常无法解释特定的视觉变化如何驱动机器学习决策。
say-what-you-see
可以帮你学会如何写 AI 画图提示词
除了教你技巧外还会有对应的练习,给你一张图片让你用学习的技巧写提示词复刻图片。
藏师傅第一等级全部 70 分以上通过,哈哈。
来测试一下你的 AI 画图提示词能力吧,又要干苦力给谷歌打标了
LearnLM-Tutor 是一个由 Google DeepMind 开发的生成式 AI 模型,专门用于教育领域,旨在提供一对一的对话辅导。
通过即时反馈、多轮对话、错误识别和积极学习促进等功能,模型不仅帮助学生解决具体问题,还培养他们的自主学习和批判性思维能力。结合定制化学习计划、多学科支持和进步追踪功能,LearnLM-Tutor 成为一个强大的教育工具,为学生的全面发展提供了有力支持。