IT/AI知识库: 跟踪最新的IT/AI类资讯

人工智能在国际数学奥林匹克中达到银牌标准

谷歌的人工智能系统AlphaProof和AlphaGeometry 2取得了突破性成就,成功解决了2024年国际数学奥林匹克(IMO)中的六个问题中的四个,获得了相当于银牌的分数。这是首次有人工智能系统在这一享有盛誉的比赛中达到如此高水平的表现。

AlphaProof是一种强化学习系统,解决了两个代数问题和一个数论问题,包括本次比赛中最具挑战性的题目。AlphaGeometry 2是其前身的改进版本,解决了几何问题。这些人工智能系统总共获得28分,在每个解决的问题上都得到了满分。

Vozo:AI视频生成器

Vozo Rewrite & Redub 是一款创新的视频编辑工具,你可以通过简单的提示重写视频脚本、然后这个工具会自动给视频重新配音、翻译语音并口型同步,然后生成新的视频。

无论是将经典视频转变为病毒视频宣传片,还是将普通视频变成喜剧,亦或是将一种语言翻译成多种语言,Vozo 都能在几秒钟内完成。

Udio进行重大升级,大幅提升音乐音质和控制

大部分新功能需要订阅标准版才可以用,目前的定价是 10 美元/月

AI 说唱生成器是一款尖端工具,利用先进的人工智能来创作独特的说唱歌曲。无论您是经验丰富的艺术家还是只是想享受乐趣,我们的人工智能说唱生成器都提供了一种无缝的方式来制作个性化的说唱音乐。您可以输入自己的歌词、选择乐器并选择音乐风格,以根据您的喜好精确定制您的说唱歌曲。

OpenAI测试AI搜索功能SearchGPT

SearchGPT目前只是临时的原型,计划未来将新功能中最佳的那些直接融入ChatGPT。OpenAI将首先只对一小部分用户和发行商开放SearchGPT,从中获取反馈。

OpenAI并未在官网透露具体将接纳多少测试者。不过,OpenAI的发言人Kayla Wood告诉媒体,SearchGPT的服务由GPT-4系列模型提供支持,SearchGPT发布时仅提供1万名用户的测试名额。

RoboflowSports :跟踪检测和识别运动员行为

RoboflowSports是一个使用深度学习模型检测和识别运动员行为分析的工具。它通过检测和分割运动员和足球等对象,为体育数据分析提供了强大的工具。

它能识别并分割图像中的不同对象,例如运动员和足球,提供更精细的图像分析。通过精确的对象检测和图像分割技术,提供更高精度的体育数据分析,帮助教练和分析师更好地了解比赛情况和运动员表现。

SpeechGPT2:一个端到端的语音对话语言模型

它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应,如说唱、戏剧、机器人、搞笑和低语等。

超过10万小时的学术和野外收集的语音数据, 涵盖了丰富的语音场景和风格。

SpeechGPT2 是在有限资源下的技术探索,由于计算和数据资源的限制,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。

Mistral AI 发布最新一代开源模型:Mistral Large 2

Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。

紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大」。

PixVerse 发布V2版本视频模型

升级版的PixVerse V2,不光能生成8秒的视频,还能让你的创意天花乱坠。

别以为8秒就敷衍了事。这V2可是个细节控,分辨率、动态效果都跟打了鸡血似的。
就连蚂蚁打喷嚏,它都能给你拍得清清楚楚。

Adobe 发布Firefly Vector AI 模型

Adobe 最新的 Firefly Vector AI 模型,该模型今天开始公开测试。

这个新的 Firefly Vector 模型为 Illustrator 带来了诸多新功能,比如生成形状填充 (Generative Shape Fill),用户可以通过描述性文本提示为形状添加详细的矢量图形。更新后的模型还改进了文本到图案 (Text to Pattern) 的测试功能,可以用来创建可扩展的自定义矢量图案,如壁纸;还有样式参考 (Style Reference),能够生成与现有样式相匹配的输出。

Exa AI:真正的AI搜索引擎

一个AI搜索引擎诞生:Exa AI。该公司最近宣布获得了1700万美元的A轮融资,由Lightspeed领投,Nvidia的NVentures和Y Combinator参投。

与其他旨在取代谷歌的AI驱动搜索引擎不同,Exa的目标是创建一个专门为AI设计的搜索工具。

WayveScenes101:一个用于自动驾驶应用的高分辨率图像数据集

WayveScenes101,这是一个数据集,旨在帮助社区推进新颖视图合成的最新技术,该数据集专注于具有挑战性的驾驶场景,其中包含许多具有不断变化的几何和纹理的动态和可变形元素。

该数据集包含 101 个驾驶场景,涵盖各种环境条件和驾驶场景。该数据集专为野外驾驶场景的基准重建而设计,场景重建方法面临许多固有的挑战,包括图像眩光、快速曝光变化以及具有明显遮挡的高动态场景。

StockBot:由Llama3-70B驱动的实时股票数据聊天机器人

StockBot 是一款基于 ai 的聊天机器人,它利用 Groq 上的 Llama3 70b、Vercel 的 AI SDK 和 TradingView 的实时小部件,通过专门针对您的请求定制的实时交互式图表和界面进行对话响应。 StockBot由Groq 提供支持,闪电般快速的AI聊天机器人,可实时响应交互式股票图表、财务、新闻等。

它不仅能够展示每日市场表现热图、股票财务数据、价格历史和烛台图表,还能提供头条新闻和股票筛选器。它不仅支持股票,还涵盖了外汇、债券和加密货币,提供全面的市场分析。

一个开源项目:AI相册

相册AI是一个实验项目,使用最近发布的gpt-4o-mini作为视觉模型,自动识别相册中图像文件的元数据。然后,它利用 RAG 技术来实现与专辑的对话。

它可以用作传统相册,也可以用作图像知识库来辅助LLM进行内容生成。

Mistral AI 和NVIDIA 发布 Mistral NeMo 12B

Mistral AI 宣布发布 Mistral NeMo,这是一个由 NVIDIA 协作开发的 12B 参数模型,具备高达 128k 令牌的上下文窗口。
该模型旨在支持企业应用,包括聊天机器人、多语言任务、编码和摘要。在其尺寸类别中,Mistral NeMo 在推理、世界知识和代码准确性方面均处于领先地位。使用标准架构,Mistral NeMo 易于使用,可作为任何使用 Mistral 7B 系统的直接替代品。

微软正式推出 Microsoft Designer

Microsoft Designer 与 Microsoft 产品无缝集成,包括 Word 和 PowerPoint,通过 Microsoft Copilot 进一步提升创意体验。订阅 Copilot Pro 后,当你在 Word 和 PowerPoint 中时,可以在你的工作流程中直接创建图像和设计。在 Word 或 PowerPoint 中,点击 Copilot 图标并描述你想创建的图像。在即将推出的 Word 版本中,你甚至可以请求创建文档横幅,并根据文档内容为你生成设计。