DINOv3是Meta AI的高性能、自我監督視覺模型,涵蓋參數規模高達70億的ViT模型和ConvNeXt模型家族,所有這些都是在17億個網絡或衛星圖像上預先訓練的。您可以通過PyTorch Hub、Hugging Face Transformers(v4.56及以上)或timm(v1.0.20及以上)輕鬆加載這些模型,以及用於特徵提取、深度估計、對象檢測、圖像分割等的代碼樣本。使用此工具,您可以使用這些高性能密集功能,而無需微調模型或注釋數據,從而大大節省圖像分類、對象檢測和零鏡頭分析等任務的開發時間和計算能力成本。
在傳統的計算機視覺中,默認情況下幾乎有一件事: 模特要學會「看圖片」,必須有人告訴它「這是什麼」.
像DINOv3這樣的模型卻恰恰相反。
其目標是:
無需手動注釋,就讓模型自行學習理解圖像結構和語義。
這是第三代 DINO(無標籤自蒸餾) Meta AI(FAIR)推出的視覺自我監督模型,也是最強大的類型 通用視覺特徵提取器(Vision Foundation Model)。
DINOv3在做什麼?
DINOv3 =一個「不會給你答案,但會給你理解」的圖像模型
它不會直接輸出「這是一隻貓」,
相反,它輸出:
- 這張照片整體看起來是什麼樣子?
- 什麼每個 區 該圖表表示
- 哪些部分是 語義相似/結構相似
可以理解為:
圖像領域的「普遍理解基礎」
您正在進行「自我監督視覺建模」嗎?
現實世界的問題是:
- 圖像過多(網頁、監控、遙感、產品圖像、設計材料)
- 標籤太貴了
- 以及許多任務 不應該從「分類」開始 根本
例如:
- 圖像相似性搜索
- 材料重複數據刪除/集群
- 分割和檢測的預處理
- 設計資產管理
- 遙感圖像理解
此類問題需要更多的解決:
「理解結構和關係」,而不是標籤
DINO系列就是為此目的而誕生的。
DINOv3的想法
自蒸餾
DINO的關鍵不是「學習標籤」,而是:
- 不同的角度 在同一張照片上
- 通過同一模式(老師/學生)
- 輸出應該一致
那就是:
如果模型真的理解這個圖,
因此,無論您是裁剪、縮放還是模糊,它「都知道這是同一件事。"
DINOv3使其更穩定、更大。
Vision Transformer +密集功能
DINOv3主要基於 Vision Transformer(ViT):
- 圖像被切割成許多補丁
- 每個補丁都有一個嵌入
- 不僅具有「全貌」的特點
- 還有一個「每一小塊」的語義載體。
DINOv3:密集特徵
許多模型僅輸出一個載體:
這個圖形→嵌入
DINOv3不同,它可以輸出:
- 全局特徵 (full圖表)
- 局部特徵 (per補丁)
這意味著您可以:
- 做一個相似性熱圖
- 進行無監督分割
- 進行目標區域匹配
- 做「看起來像/不像的地方」
你甚至可以 訓練任何新模型,
僅使用Cosine相似性您就可以做很多事情。
DINOv3為開發者提供了什麼
從工程角度來看,這個倉庫不是「論文玩具」,而是 基礎設施層面:
預訓練模型(主幹)
- ViT-S / B / L / G
- 高達 7B參數
- 還提供:
- 通用圖像版本
- 遙感圖像版本
多種使用方法
torch.hub. put()(最快)- 擁抱變形金剛
- 蒂姆生態學
重量需要申請
以下是一些限制:
- 需要申請
- 通過後獲取重量下載地址
DINOv3在哪裡使用?
一句話總結:
如果您不想首先受到「分類標籤」的限制,請使用DINOv3
典型場景包括:
- 類似搜索圖像/設計材料
- 產品圖像集群和重複數據刪除
- 分割/檢測特徵庫
- 遙感圖像分析
- 視覺分析人工智慧產品的「第一層」