它可以自動識別和定位圖像中的各種物體
YOLO-World在速度和準確性方面優於許多最先進的方法。
零樣本檢測功能允許無需訓練即可實時檢測目標,即使某些物品以前從未見過。
主要特點:
1.大規模學習:YOLO-World通過學習大量圖片和相應的描述(例如物品名稱)獲得了豐富的視覺知識和語言知識,使其能夠識別廣泛的物品。
該項目在Objects 365、GQA、Flickr 30 K和CC 3 M等大規模視覺語言數據集上進行了預訓練,為YOLO-World提供了強大的零樣本開放詞彙能力和圖像定位能力。
2.快速準確:YOLO-World在LVIS數據集的零樣本評估中達到了35.4 AP,在V100上的處理速度達到了52.0 FPS,在速度和準確性方面超過了許多最先進的方法。即使在包含複雜場景的圖片中也保持高準確性。YOLO-World聲稱比GroundingDINO快20倍。
3.零樣本測試:最令人印象深刻的是,即使YOLO-World之前沒有見過一些物品,它也可以根據其之前的學習和理解能力,通過圖片中的線索和上下文信息成功識別和定位這些新物品。
4.理解對象:YOLO-World不僅依賴視覺信息,還結合言語信息。它理解人類語言描述,這使得它能夠識別以前沒有直接見過的物體。
項目和演示:http://yoloworld.cc
論文:https://arxiv.org/abs/2401.17270
GitHub:https://github.com/AILab-CVC/YOLO-World
在線體驗:https://huggingface.co/spaces/stevengrove/YOLO-World
視頻:youtu.be/I2aW-jPqilM