通过人工智能教程获得超能力
构建 Perplexity 样式 LLM 答案引擎:前端到后端教程
这个仓库在过去的一周里一直在流行
关于从头开始构建答案引擎的精彩介绍!
Open-Sora
Colossal-AI 团队牵头的项目,目前发布了 1.1 模型,支持 2s~15s,144p 到 720p,任何宽高比文本到图像,文本到视频,图像到视频,视频到视频,无限时间生成的版本。
Amazon Q 不仅可以生成高度准确的代码,还可以进行测试、调试,并具有多步骤规划和推理功能,可以转换和实施根据开发人员请求生成的新代码。 Amazon Q 还通过连接到企业数据存储库以逻辑方式汇总数据、分析趋势,使员工能够更轻松地获得跨业务数据的问题的答案,例如公司政策、产品信息、业务成果、代码库、员工和许多其他主题,并参与有关数据的对话。
Koç 大学、Hacettepe 大学、Yıldız Technical University 和 Robert College 的研究人员推出了“Hippocrates”,这是一个专为 LLMs 医疗保健应用量身定制的开源框架。与依赖专有数据的先前模型不同,希波克拉底授予对其广泛资源的完全访问权限,从而促进医疗人工智能研究领域的更大创新和协作。该框架的突出之处在于将持续的预训练和强化学习与人类专家的反馈相结合,增强了模型在医疗环境中的实用性。
@ICepfl 和 @YaleMed 的研究人员联手构建了 Meditron,这是一款适用于资源匮乏的医疗环境的 LLM 套件。借助 Llama 3,他们的新模型在 MedQA 和 MedMCQA 等基准测试中优于其参数类别中的大多数开放模型。
在临床推理、多模态理解和长文本处理方面都有很大的提升。
研究人员用了14个医疗基准测试Med-Gemini的能力。
结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型。
Video-subtitle-remover (VSR) 是一款基于AI技术,将视频中的硬字幕去除的软件。 主要实现了以下功能:
无损分辨率将视频中的硬字幕去除,生成去除字幕后的文件
通过超强AI算法模型,对去除字幕文本的区域进行填充(非相邻像素填充与马赛克去除)
支持自定义字幕位置,仅去除定义位置中的字幕(传入位置)
引入 AI 视频编辑和第三方Sora等AI视频模型
Adobe Premiere Pro将在今年晚些时候推出第三方AI模型,让编辑人员可以选择最适合他们素材的模型,直接在软件中生成和编辑。
复旦大学的一个研究团队开发了 SpeechAlign,这是一个针对语音合成核心的创新框架,使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同,SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。
该项目已经吸引了超过100万开发者的使用,并且在 GitHub 上获得了大量的关注和支持。
Chat2DB通过人工智能技术,使得用户可以使用自然语言来处理和查询数据,无需深入了解复杂的数据库语言或编程技能。
本文研究了对物体探测器发起对抗性攻击的艺术和科学。大多数关于现实世界对抗性攻击的工作都集中在分类器上,分类器为整个图像分配整体标签,而不是定位图像内对象的检测器。检测器的工作原理是考虑图像中具有不同位置、大小和纵横比的数千个“先验”(潜在的边界框)。为了欺骗对象检测器,对抗性示例必须欺骗图像中的每个先验,这比欺骗分类器的单个输出要困难得多。
尽管大型语言模型(LLMs)在各种任务中取得了显着的成就,但仍然存在偏爱高资源语言(例如英语)的语言偏见,而往往以牺牲低资源语言和区域语言为代价。
为了解决这种不平衡问题,SEA引入了 SeaLLM,这是一系列创新的语言模型,专门针对东南亚 (SEA) 语言。