分類: AI项目 - 第 18 頁 - Tarogo Cloud Bloger & Shop

AI项目多媒体处理

Vidu：可生成16秒、1080P视频的模型

这款模型被视为国内首个达到Sora级别的视频模型。

Vidu 不仅能模拟真实物理世界，还具备丰富的想象力，支持多镜头生成和高时空一致性。

Vidu 模型融合了 Diffusion 与 Transformer 技术，创新性地开发了 U-ViT 架构。

29 5 月, 2024

AI项目工具软件

Hugging Face模型镜像站

AI快站的特点：
高速下载：提供的模型下载速度相对较快，减少等待时间
模型资源丰富：涵盖大部分常用开源模型，更新速度快
支持断点续传：提供下载器，大模型下载时遇到中断也不再是问题

29 5 月, 2024

AI项目

通过人工智能教程获得超能力

构建 Perplexity 样式 LLM 答案引擎：前端到后端教程

这个仓库在过去的一周里一直在流行
关于从头开始构建答案引擎的精彩介绍！

28 5 月, 2024

AI项目

亚马逊推出了 Amazon Q AI 助手

Amazon Q 不仅可以生成高度准确的代码，还可以进行测试、调试，并具有多步骤规划和推理功能，可以转换和实施根据开发人员请求生成的新代码。 Amazon Q 还通过连接到企业数据存储库以逻辑方式汇总数据、分析趋势，使员工能够更轻松地获得跨业务数据的问题的答案，例如公司政策、产品信息、业务成果、代码库、员工和许多其他主题，并参与有关数据的对话。

27 5 月, 2024

AI项目开源项目

企图通过开源复现SORA的三个项目

Open-Sora
Colossal-AI 团队牵头的项目，目前发布了 1.1 模型，支持 2s~15s，144p 到 720p，任何宽高比文本到图像，文本到视频，图像到视频，视频到视频，无限时间生成的版本。

27 5 月, 2024

AI项目 Meta 医疗AI

基于LLAMA3构建的医疗领域的多模态模型

@ICepfl 和 @YaleMed 的研究人员联手构建了 Meditron，这是一款适用于资源匮乏的医疗环境的 LLM 套件。借助 Llama 3，他们的新模型在 MedQA 和 MedMCQA 等基准测试中优于其参数类别中的大多数开放模型。

26 5 月, 2024

AI项目医疗AI

希波克拉底：用于推进医疗保健领域大型语言模型的开源机器学习框架

Koç 大学、Hacettepe 大学、Yıldız Technical University 和 Robert College 的研究人员推出了“Hippocrates”，这是一个专为 LLMs 医疗保健应用量身定制的开源框架。与依赖专有数据的先前模型不同，希波克拉底授予对其广泛资源的完全访问权限，从而促进医疗人工智能研究领域的更大创新和协作。该框架的突出之处在于将持续的预训练和强化学习与人类专家的反馈相结合，增强了模型在医疗环境中的实用性。

26 5 月, 2024

AI项目开源项目

VSR：利用AI算法精确识别一键去除视频中的字幕

Video-subtitle-remover (VSR) 是一款基于AI技术，将视频中的硬字幕去除的软件。主要实现了以下功能：

无损分辨率将视频中的硬字幕去除，生成去除字幕后的文件
通过超强AI算法模型，对去除字幕文本的区域进行填充（非相邻像素填充与马赛克去除）
支持自定义字幕位置，仅去除定义位置中的字幕（传入位置）

25 5 月, 2024

AI项目 Alphabet 医疗AI

谷歌发布基于 Gemini 微调的医疗领域模型 Med-Gemini

在临床推理、多模态理解和长文本处理方面都有很大的提升。

研究人员用了14个医疗基准测试Med-Gemini的能力。

结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型。

25 5 月, 2024

AI项目多媒体处理

SpeechAlign：利用人类反馈改变语音合成，以增强技术交互的自然性和表现力

复旦大学的一个研究团队开发了 SpeechAlign，这是一个针对语音合成核心的创新框架，使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同，SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。

24 5 月, 2024

Adobe AI项目

Adobe Premiere Pro 发布重大更新

引入 AI 视频编辑和第三方Sora等AI视频模型

Adobe Premiere Pro将在今年晚些时候推出第三方AI模型，让编辑人员可以选择最适合他们素材的模型，直接在软件中生成和编辑。

24 5 月, 2024

AI项目

Chat2DB：AI驱动的数据开发和分析平台

该项目已经吸引了超过100万开发者的使用，并且在 GitHub 上获得了大量的关注和支持。

Chat2DB通过人工智能技术，使得用户可以使用自然语言来处理和查询数据，无需深入了解复杂的数据库语言或编程技能。

23 5 月, 2024

AI项目

马里兰大学开发出一种”隐形斗篷”

本文研究了对物体探测器发起对抗性攻击的艺术和科学。大多数关于现实世界对抗性攻击的工作都集中在分类器上，分类器为整个图像分配整体标签，而不是定位图像内对象的检测器。检测器的工作原理是考虑图像中具有不同位置、大小和纵横比的数千个“先验”（潜在的边界框）。为了欺骗对象检测器，对抗性示例必须欺骗图像中的每个先验，这比欺骗分类器的单个输出要困难得多。

23 5 月, 2024

AI项目

SeaLLMs东南亚大型语言模型

尽管大型语言模型（LLMs）在各种任务中取得了显着的成就，但仍然存在偏爱高资源语言（例如英语）的语言偏见，而往往以牺牲低资源语言和区域语言为代价。
为了解决这种不平衡问题，SEA引入了 SeaLLM，这是一系列创新的语言模型，专门针对东南亚 (SEA) 语言。

22 5 月, 2024

AI项目多媒体处理

Open Sora 团队发布了另一个视频生成项目 MagicTime

开发了一套名为 MagicAdapter 的技术，通过分开处理空间和时间训练，它能从变形视频中提取更多的物理知识，并使预训练的T2V模型能够生成这类视频。

接着，引入了动态帧提取策略，这个策略特别适用于变形时光延续视频，因为这类视频变化范围广泛，涵盖了物体戏剧性的变化过程，从而包含了更丰富的物理知识。

21 5 月, 2024

AI项目

DuckDuckGo也推出AIChat

免费使用，不过只有 GPT-3.5 Turbo 和 Claude 1.2 Instant 可选。

使用 WebCatalog Desktop 上“DuckDuckGo AI Chat”的 Mac、Windows、Linux 版桌面应用增强您的体验。

21 5 月, 2024

AI项目

Vidu：可生成16秒、1080P视频的模型

Hugging Face模型镜像站

通过人工智能教程获得超能力

亚马逊推出了 Amazon Q AI 助手

企图通过开源复现SORA的三个项目

基于LLAMA3构建的医疗领域的多模态模型

希波克拉底：用于推进医疗保健领域大型语言模型的开源机器学习框架

VSR：利用AI算法精确识别一键去除视频中的字幕

谷歌发布基于 Gemini 微调的医疗领域模型 Med-Gemini

SpeechAlign：利用人类反馈改变语音合成，以增强技术交互的自然性和表现力

Adobe Premiere Pro 发布重大更新

Chat2DB：AI驱动的数据开发和分析平台

马里兰大学开发出一种”隐形斗篷”

SeaLLMs东南亚大型语言模型

Open Sora 团队发布了另一个视频生成项目 MagicTime

DuckDuckGo也推出AIChat

精选内容 · 赞助推荐

多语言翻译

分類

热门标签

Donate

Subscribe to Blog via Email