分类: AI行业应用

基于LLAMA3构建的医疗领域的多模态模型

@ICepfl 和 @YaleMed 的研究人员联手构建了 Meditron,这是一款适用于资源匮乏的医疗环境的 LLM 套件。借助 Llama 3,他们的新模型在 MedQA 和 MedMCQA 等基准测试中优于其参数类别中的大多数开放模型。

SpeechAlign:利用人类反馈改变语音合成,以增强技术交互的自然性和表现力

复旦大学的一个研究团队开发了 SpeechAlign,这是一个针对语音合成核心的创新框架,使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同,SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。

SAM模型视频分割项目

本项目的目标是运动分割——发现并分割视频中的运动对象。这是一个被广泛研究的领域,有许多仔细的、有时甚至是复杂的方法和训练方案,包括:自监督学习、从合成数据集学习、以对象为中心的表示、非模态表示等等。对本文的兴趣是确定 Segment Anything 模型 (SAM) 是否有助于完成此任务。

斯坦福大学和麻省理工学院的研究人员推出了搜索流

来自斯坦福大学、麻省理工学院和 Harvey Mudd 的研究人员设计了一种方法,通过将搜索过程表示为序列化字符串“搜索流”(SoS),来教授语言模型如何搜索和回溯。他们提出了一种统一的搜索语言,并通过倒计时游戏进行了演示。在搜索流上预训练基于 Transformer 的语言模型将准确率提高了...