作者： Tarogo Cloud - 第 19 页 - Tarogo Cloud Bloger & Shop

WayveScenes101：一个用于自动驾驶应用的高分辨率图像数据集

340

29 8 月, 202425 8 月, 2024

AI行业应用, 自动驾驶

WayveScenes101，这是一个数据集，旨在帮助社区推进新颖视图合成的最新技术，该数据集专注于具有挑战性的驾驶场景，其中包含许多具有不断变化的几何和纹理的动态和可变形元素。该数据集包含 101...

StockBot：由Llama3-70B驱动的实时股票数据聊天机器人

261

28 8 月, 202424 8 月, 2024

AI行业应用, 机器人

StockBot 是一款基于 ai 的聊天机器人，它利用 Groq 上的 Llama3 70b、Vercel 的 AI SDK 和 TradingView 的实时小部件，通过专门针对您的请求定制的实时交互式图表和界面进行对话响应。 StockBot由Groq...

一个开源项目：AI相册

282

27 8 月, 202423 8 月, 2024

AI项目, 开源项目

相册AI是一个实验项目，使用最近发布的gpt-4o-mini作为视觉模型，自动识别相册中图像文件的元数据。然后，它利用 RAG 技术来实现与专辑的对话。它可以用作传统相册，也可以用作图像知识库来辅助LLM进行内容生成。

AudioNotes：音视频内容转笔记系统

265

26 8 月, 202422 8 月, 2024

AI行业应用, 多媒体处理

AudioNotes 是一个基于 FunASR 和 Qwen2 构建的音视频内容转结构化笔记系统。它的主要功能是快速提取音视频的内容，并通过调用大模型进行整理，将这些内容转换为结构化的Markdown笔记，便于用户快速阅读和理解。

Mistral AI 和NVIDIA 发布 Mistral NeMo 12B

237

25 8 月, 202421 8 月, 2024

AI巨头, Nvdia

Mistral AI 宣布发布 Mistral NeMo，这是一个由 NVIDIA 协作开发的 12B 参数模型，具备高达 128k 令牌的上下文窗口。该模型旨在支持企业应用，包括聊天机器人、多语言任务、编码和摘要。在其尺寸类别中，Mistral NeMo...

微软正式推出 Microsoft Designer

213

24 8 月, 202420 8 月, 2024

AI巨头, MicroSoft

Microsoft Designer 与 Microsoft 产品无缝集成，包括 Word 和 PowerPoint，通过 Microsoft Copilot 进一步提升创意体验。订阅 Copilot Pro 后，当你在 Word 和 PowerPoint...

ElevenLabs 发布Turbo 2.5模型

223

23 8 月, 202419 8 月, 2024

AI行业应用, 多媒体处理

该模型支持包括普通话在内的 32 种语言，能为全球近 80%的地区提供高质量、低延迟的 AI 对话；首次支持越南语、匈牙利语和挪威语；重点提高了印地语、法语、西班牙语、普通话等 27 种语言的响应速度，其中英语速度提高了 25%，最高提升达 3 倍；...

Emilia 一个开源多语言高质量语音数据集

811

22 8 月, 202418 8 月, 2024

AI行业应用, 多媒体处理

港中大（深圳）联合中科院声学所、上海人工智能实验室等机构发布了超过10万小时包含6种语言的多样化的语音生成数据集—— Emilia！ ...

微软团队可以让大语言模型更好地理解和处理电子表格数据

274

21 8 月, 202417 8 月, 2024

AI巨头, MicroSoft

微软发布了一个新的大型语言模型，计划为 Excel、 Sheets 等电子表格应用程序开发全新的 AI 大语言模型--SpreadsheetLLM。 Microsoft在论文指出，SpreadsheetLLM作为一款全新的AI模型，将广泛使用于理解和处理但复杂的电子表格数据。 ...

H2O-Danube3：可以直接在手机上运行的开源模型

230

20 8 月, 202416 8 月, 2024

AI项目, 开源项目

H2O.ai 凭借最新的 Danube3-4B 版本超越苹果并与微软竞争，在 10 次 HellaSwag 基准测试中实现了超过 80% 的准确率新发布的 H2O-Danube3 现已在 Hugging Face 上全球发售。 H2O SLM 系列的最新成员包括 H2O-Danube3-4B...

DETECT-2B ：音频深度伪造检测工具

501

19 8 月, 202415 8 月, 2024

AI行业应用, 多媒体处理

etect-2B的子模型由带有关键层插入适配模块的冻结音频表示模型组成。这些适配模块专注于识别真实音频与伪造音频的细微差别——即录音中不经意留下的声音痕迹。大多数AI生成的音频片段听起来都“过于完美”。Detect-2B能够预测音频中AI制作的成分，而且无需每次听到新片段时都重新训练模型。这些子模型