作者: Tarogo Cloud

苹果发布了一个多模态大模型

苹果12月14日释放了一个名为Ferret的多模态大语言模型,该模型不仅可以准确识别图像并描述其内容。 同时它还能够识别和定位图像中的各种元素,无论你用怎样的方式描述图像内容,Ferret都能准确地在图像中找到并识别出来。

Midjourney

这就是它的样子。 从版本 1 到版本 6 的对比

苹果公司隆重推出🫂HUGS:

Human Gaussian Splats - 能够在大约 30 分钟内从休闲视频(50-100 帧)创建可动画 (3DGS) 头像。创作者的化身可以轻松嵌入到其他(NeRF)场景中。