AI巨头

Google Home 借助 Gemini AI 变得更智能

新功能包括:
智能摄像头字幕: Gemini 将为 Nest 摄像头画面生成描述性字幕,提供超越简单警报的上下文信息。
自然语言自动化: 用户可以使用 Google Home 应用中的自然语言提示创建复杂例程。
增强型 助理: 新的语音和改进的对话能力将使 助理听起来更自然,并更好地理解用户请求。

OPENAI 确认正在研究 ChatGPT 文本水印

OpenAI 的团队已经开发出一种文本水印方法,并会在研究替代方案时继续考虑这种方法。
虽然它在抵御例如释义等局部篡改方面具有很高的准确性,甚至很有效,但对全局篡改的防御能力较弱;例如使用翻译系统,用另一个生成模型改写,或者要求模型在每个单词之间插入一个特殊字符,然后删除该字符,这使得不良行为者可以轻松规避。
以及可能对非英语人士等群体造成不成比例的影响。该公司正在讨论是否真正发布该工具。OpenAI 去年关闭了其之前的 AI 文本检测器,理由是“准确率低”。

ChatGPT API SRT 字幕翻译器

此工具采用OpenAI ChatGPT API进行文本翻译,专注于行对行翻译,特别用于SRT字幕。通过去除SRT文件的额外开销并将文本分批处理,优化了令牌使用,确保输入和输出行数一致。支持Web UI和CLI接口,提供流式输出、请求速率限制、进度恢复等功能,适用于多种语言和特殊书写形式,如表情符号和单词打乱排序。

微软 Google 在 AI 基础设施上投入数百亿美元

微软披露,在截至 6 月的季度它的现金资本支出和设备支出高达 190 亿美元,相当于 5 年前的全年支出。这笔支出大部分和 AI 有关,其中半数被用于建造和租赁数据中心。Google 的情况类似,它在上半年大幅增加了 AI 基础设施的支出,预计年底将花费高达 490 亿美元。
但在 AI 上的投资至少在短期内是无法回本的,微软首席财务官 Amy Hood 表示,该公司预测这些投资可能需要 15 年或更长时间才能货币化。这一言论令分析师们感到担忧。

桌面版 Chrome 添加了三项新人工智能功能

Google Lens 现已可用于 Chrome 桌面浏览器,用户可以通过快速拖动和搜索手势搜索浏览器屏幕上看到的内容。“标签比较”功能可让用户跨站点比较商品,网上购物时,来回切换标签页对比商品价格与评论很麻烦,该功能可在一处显示人工智能生成的多个标签页中的产品概览。

谷歌发布全新“开放式”AI模型 重点关注安全

谷歌发布了三款新的“开放式”生成式人工智能模型,并称这些模型比大多数模型“更安全”、“更小巧”、“更透明”。这是谷歌 Gemma 2 生成模型系列的新成员,该系列于5月份首次亮相。新模型 Gemma 2 2B、ShieldGemma 和 Gemma Scope 的设计针对略有不同的应用和用例,但都具有安全性的共同点。

Gemma 2 2B 是一个用于生成分析文本的轻量级模型,可在笔记本电脑和边缘设备等多种硬件上运行。至于 ShieldGemma,是一组“安全分类器”,旨在检测仇恨言论、骚扰和色情内容等有害信息。最后,Gemma Scope 允许开发人员“放大” Gemma 2 模型内的特定点,使其内部运作更易于解释。

Meta 的 Quest 3 迎来家居装饰应用:Layout

Meta 的 Quest 3 头显即将迎来一款名为 Layout 的新应用,允许用户测量空间、可视化家具摆放,甚至调整图片水平。该应用是 v68 更新的一部分,允许用户虚拟放置电视等物体,以查看它们是否合适。

Apple云端大模型取得了超过 GPT-4 的成绩

Apple大模型的报告也已出炉,披露了大量技术细节。报告显示,在指令遵循、文本总结等任务上,苹果云端大模型取得了超过 GPT-4 的成绩。

苹果进行了 IFEval 测试,结果在指令和 prompt 两个层次上,云侧 AFM 都超过了 GPT-4,成为了新的 SOTA。端侧模型的表现,也超过了 Llama 3-8B、Mistral-7B 等近似规模的模型。在 AlpacaEval 当中,端侧和云侧 AFM 也都取得了第二名的成绩。

苹果弃用英伟达,转而使用谷歌 AI 芯片

苹果透露,其新的人工智能模型训练使用了谷歌的张量处理单元 (TPU),而不是英伟达的 GPU。这一决定意义重大,因为英伟达在 AI 芯片市场占据主导地位,份额高达 80%。
苹果在其 iPhone AI 模型中部署了 2048 个 TPUv5p 芯片,在其服务器 AI 模型中部署了 8192 个 TPUv4 处理器。

人工智能在国际数学奥林匹克中达到银牌标准

谷歌的人工智能系统AlphaProof和AlphaGeometry 2取得了突破性成就,成功解决了2024年国际数学奥林匹克(IMO)中的六个问题中的四个,获得了相当于银牌的分数。这是首次有人工智能系统在这一享有盛誉的比赛中达到如此高水平的表现。

AlphaProof是一种强化学习系统,解决了两个代数问题和一个数论问题,包括本次比赛中最具挑战性的题目。AlphaGeometry 2是其前身的改进版本,解决了几何问题。这些人工智能系统总共获得28分,在每个解决的问题上都得到了满分。

OpenAI测试AI搜索功能SearchGPT

SearchGPT目前只是临时的原型,计划未来将新功能中最佳的那些直接融入ChatGPT。OpenAI将首先只对一小部分用户和发行商开放SearchGPT,从中获取反馈。

OpenAI并未在官网透露具体将接纳多少测试者。不过,OpenAI的发言人Kayla Wood告诉媒体,SearchGPT的服务由GPT-4系列模型提供支持,SearchGPT发布时仅提供1万名用户的测试名额。

Adobe 发布Firefly Vector AI 模型

Adobe 最新的 Firefly Vector AI 模型,该模型今天开始公开测试。

这个新的 Firefly Vector 模型为 Illustrator 带来了诸多新功能,比如生成形状填充 (Generative Shape Fill),用户可以通过描述性文本提示为形状添加详细的矢量图形。更新后的模型还改进了文本到图案 (Text to Pattern) 的测试功能,可以用来创建可扩展的自定义矢量图案,如壁纸;还有样式参考 (Style Reference),能够生成与现有样式相匹配的输出。

Mistral AI 和NVIDIA 发布 Mistral NeMo 12B

Mistral AI 宣布发布 Mistral NeMo,这是一个由 NVIDIA 协作开发的 12B 参数模型,具备高达 128k 令牌的上下文窗口。
该模型旨在支持企业应用,包括聊天机器人、多语言任务、编码和摘要。在其尺寸类别中,Mistral NeMo 在推理、世界知识和代码准确性方面均处于领先地位。使用标准架构,Mistral NeMo 易于使用,可作为任何使用 Mistral 7B 系统的直接替代品。

微软正式推出 Microsoft Designer

Microsoft Designer 与 Microsoft 产品无缝集成,包括 Word 和 PowerPoint,通过 Microsoft Copilot 进一步提升创意体验。订阅 Copilot Pro 后,当你在 Word 和 PowerPoint 中时,可以在你的工作流程中直接创建图像和设计。在 Word 或 PowerPoint 中,点击 Copilot 图标并描述你想创建的图像。在即将推出的 Word 版本中,你甚至可以请求创建文档横幅,并根据文档内容为你生成设计。

微软团队可以让大语言模型更好地理解和处理电子表格数据

微软发布了一个新的大型语言模型,计划为 Excel、 Sheets 等电子表格应用程序开发全新的 AI 大语言模型–SpreadsheetLLM。

Microsoft在论文指出,SpreadsheetLLM作为一款全新的AI模型,将广泛使用于理解和处理但复杂的电子表格数据。

或许会让会计师和数据分析师们对他们的未来工作前景感到担忧。网友们在社交平台X上调侃,认为“凯伦的工作很快就会被人工智能取代”。

亚马逊推出了一款人工智能购物助手:Rufus

经过数月的测试,亚马逊今天向所有美国客户推出了其生成式人工智能购物助手Rufus。这个对话式购物助手旨在帮助客户节省时间并做出更明智的购买决策。
Rufus现已在亚马逊购物应用中上线,恰逢Prime Day