AI巨头

Florence-2:微软开源视觉基础模型

Florence-2 是 Microsoft 在 MIT 许可下开源的轻量级视觉语言模型。该模型在字幕、对象检测、接地和分割等任务中展示了强大的零样本和微调功能。

尽管尺寸很小,但它所取得的结果与大许多倍的模型(如 Kosmos-2)相当。该模型的优势不在于复杂的架构,而在于大规模的 FLD-5B 数据集,其中包含 1.26 亿张图像和 54 亿个综合视觉注释。

OpenAI 推出 ChatGPT Edu 为大学设计的专用版本

ChatGPT Edu,这是 ChatGPT 的一个版本,专为大学打造,旨在负责任地将 AI 部署到学生、教师、研究人员和校园运营中。ChatGPT Edu 由 GPT-4o 提供支持,可以跨文本和视觉进行推理,并使用数据分析等高级工具。

苹果发布个人人工智能集群

用 MLX 把你的 iPhone、iPad 还有 Mac 在本地连接起来组成一个大号 GPU 来用!Nvidia 在数据中心做超级 GPU,Apple 说我 Edge Devices 多,用这种廉价方式串联 GPU 也行

Copilot+ PC 的 Recall 预览功能更新

微软:新电脑上捕捉屏幕截图的Recall AI 功能将默认关闭
该功能每5秒截取一次用户屏幕并记录用户屏幕操作。
使用户能够像查询记忆一样回顾过去的操作。但这一功能引发了网络安全专家的担忧,他们认为黑客有可能获取用户信息。

Google AI 医学影像模型

机器学习 (ML) 有潜力彻底改变医疗保健,从减少工作量和提高效率到发现新的生物标志物和疾病信号。为了负责任地利用这些好处,研究人员采用可解释性技术来了解机器学习模型如何进行预测。然而,当前基于显着性的方法突出了重要的图像区域,通常无法解释特定的视觉变化如何驱动机器学习决策。

谷歌家的好东西:艺术家

say-what-you-see

可以帮你学会如何写 AI 画图提示词

除了教你技巧外还会有对应的练习,给你一张图片让你用学习的技巧写提示词复刻图片。
藏师傅第一等级全部 70 分以上通过,哈哈。
来测试一下你的 AI 画图提示词能力吧,又要干苦力给谷歌打标了

LearnLM-Tutor:DeepMind 开发 专门用于一对一的教学辅导的 AI 模型

LearnLM-Tutor 是一个由 Google DeepMind 开发的生成式 AI 模型,专门用于教育领域,旨在提供一对一的对话辅导。

通过即时反馈、多轮对话、错误识别和积极学习促进等功能,模型不仅帮助学生解决具体问题,还培养他们的自主学习和批判性思维能力。结合定制化学习计划、多学科支持和进步追踪功能,LearnLM-Tutor 成为一个强大的教育工具,为学生的全面发展提供了有力支持。

LlamaFS:基于Llama 3的能自动帮你分类整理电脑里文件的工具

LlamaFS 是一个自组织文件管理器。它会根据文件的内容和众所周知的约定(例如时间)自动重命名和组织文件。它支持多种文件,甚至图像(通过 Moondream)和音频(通过 Whisper)。
LlamaFS 以两种“模式”运行 – 作为批处理作业(批处理模式)和交互式守护进程(监视模式)。

MS Build 2024 的第一天

在 Microsoft Build 2024 上,Microsoft Copilot Studio 中的一系列强大新功能,您可以使用它来创建自己的自定义副驾驶或通过自己的企业数据和场景扩展 Microsoft Copilot 体验。

第一个是Copilot ,现在可以充当独立代理,可以由事件触发,而不仅仅是对话,并且可以自动化和编排复杂的、长期运行的业务流程,具有更多的自主权和更少的人为干预。

RadOnc-GPT 是医学领域中的LLM

在医学领域中,很少有领域比放射肿瘤学需要更高的精度或数据。 RadOnc-GPT 是一种经过微调的 LLM,使用 Meta Llama 2 构建,有可能显着改善放射治疗决策。

很少有领域比放射肿瘤学需要更高的精度或更多的数据。患者的生命取决于在这个专业领域获得正确的治疗。

Google推出开源视觉语言模型:PaliGemma

支持图像视频等多种视觉语言任务
包括支持图像和短视频字幕、视觉问答、图像文本理解、物体检测文件图表解读、图像分割等任务。
PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。