一切从任务开始:从一个 GitHub Issue、Pull Request 或仓库中打开 GitHub Copilot Workspace。(截图显示了 octoacademy 仓库中的一个 Issue。)
分类: AI项目
微软官方出的 PowerToys
很好用的小工具集合,还是开源的。 尤其是里面的 Text Extractor 用作 OCR 很方便。 当前 PowerToy 实用工具
中国机器人公司LimX Dynamics
中国机器人公司LimX Dynamics展示了双足平衡和导航技术已经发展到了多么高的水平 ...
微软必应的一项新专利详细介绍了“视觉搜索”
微软在 Bing 图片搜索中已引入视觉搜索选项,通过识别图片中的内容,并扩展显示相关的图片资源,实现以图搜图功能。 微软计划将必应的图片搜索引入到聊天平台上,增强用户参与度并提供更全面的搜索结果。
Synthesia推出虚拟数字人:Expressive-1
Synthesia 是一个基于人工智能的 AI 视频生成制作平台,利用深度学习算法来合成逼真的人脸表情和口型,从而让虚拟的人物能够根据用户输入的文字来说话。用户只需要在网页上输入文字,就可以生成一段专业、有说服力的视频。 Expressive-1能根据文本自动做出皱眉、微笑、皱眉头等表情。
Vidu:可生成16秒、1080P视频的模型
这款模型被视为国内首个达到Sora级别的视频模型。 Vidu 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成和高时空一致性。 Vidu 模型融合了 Diffusion 与 Transformer 技术,创新性地开发了 U-ViT 架构。
Hugging Face模型镜像站
AI快站的特点: 高速下载:提供的模型下载速度相对较快,减少等待时间 模型资源丰富:涵盖大部分常用开源模型,更新速度快 支持断点续传:提供下载器,大模型下载时遇到中断也不再是问题
通过人工智能教程获得超能力
构建 Perplexity 样式 LLM 答案引擎:前端到后端教程 这个仓库在过去的一周里一直在流行 关于从头开始构建答案引擎的精彩介绍!
亚马逊推出了 Amazon Q AI 助手
Amazon Q 不仅可以生成高度准确的代码,还可以进行测试、调试,并具有多步骤规划和推理功能,可以转换和实施根据开发人员请求生成的新代码。 Amazon Q...
企图通过开源复现SORA的三个项目
Open-Sora Colossal-AI 团队牵头的项目,目前发布了 1.1 模型,支持 2s~15s,144p 到 720p,任何宽高比文本到图像,文本到视频,图像到视频,视频到视频,无限时间生成的版本。
基于LLAMA3构建的医疗领域的多模态模型
@ICepfl 和 @YaleMed 的研究人员联手构建了 Meditron,这是一款适用于资源匮乏的医疗环境的 LLM 套件。借助 Llama 3,他们的新模型在 MedQA 和 MedMCQA 等基准测试中优于其参数类别中的大多数开放模型。
希波克拉底:用于推进医疗保健领域大型语言模型的开源机器学习框架
Koç 大学、Hacettepe 大学、Yıldız Technical University 和 Robert College 的研究人员推出了“Hippocrates”,这是一个专为 LLMs...
VSR:利用AI算法精确识别 一键去除视频中的字幕
Video-subtitle-remover (VSR) 是一款基于AI技术,将视频中的硬字幕去除的软件。 主要实现了以下功能: 无损分辨率将视频中的硬字幕去除,生成去除字幕后的文件 通过超强AI算法模型,对去除字幕文本的区域进行填充(非相邻像素填充与马赛克去除)...
谷歌发布基于 Gemini 微调的医疗领域模型 Med-Gemini
在临床推理、多模态理解和长文本处理方面都有很大的提升。 研究人员用了14个医疗基准测试Med-Gemini的能力。 结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型。
SpeechAlign:利用人类反馈改变语音合成,以增强技术交互的自然性和表现力
复旦大学的一个研究团队开发了 SpeechAlign,这是一个针对语音合成核心的创新框架,使生成的语音与人类偏好保持一致。与优先考虑技术准确性的传统模型不同,SpeechAlign 通过直接将人类反馈纳入语音生成而引入了巨大转变。这个反馈循环确保产生的语音在技术上是合理的并且在人类层面上产生共鸣。
Adobe Premiere Pro 发布重大更新
引入 AI 视频编辑和第三方Sora等AI视频模型 Adobe Premiere Pro将在今年晚些时候推出第三方AI模型,让编辑人员可以选择最适合他们素材的模型,直接在软件中生成和编辑。