OWLv2 擴展了先前的 OWLVit 模型,利用自我訓練的方法,通過使用現有的檢測器在圖像-文本對上生成偽框標註,從而擴大檢測數據的規模。這使其在零樣本物體檢測任務中達到了更高的性能。
論文摘要
論文連結
該論文中提到,開放詞彙物體檢測受益於預訓練的視覺-語言模型,但仍受到可用檢測訓練數據量的限制。研究者們提出了 OWLv2 模型及其自我訓練方法,解決了標籤空間的選擇、偽標註過濾和訓練效率等挑戰。
About 4 min
OWLv2 擴展了先前的 OWLVit 模型,利用自我訓練的方法,通過使用現有的檢測器在圖像-文本對上生成偽框標註,從而擴大檢測數據的規模。這使其在零樣本物體檢測任務中達到了更高的性能。
該論文中提到,開放詞彙物體檢測受益於預訓練的視覺-語言模型,但仍受到可用檢測訓練數據量的限制。研究者們提出了 OWLv2 模型及其自我訓練方法,解決了標籤空間的選擇、偽標註過濾和訓練效率等挑戰。
Siamese Network(暹邏網絡)是一種深度學習架構,主要用於比較兩個輸入的相似性。這種網絡的設計使得它能夠有效地學習相似性度量,常見於圖像檢索、面部識別、文本相似性等應用。
基本結構:
You only look once (YOLO) is a state-of-the-art, real-time object detection system. On a Pascal Titan X it processes images at 30 FPS and has a mAP of 57.9% on COCO test-dev.