Introduction
YOLOv2 (You Only Look Once version 2) 是一種即時目標檢測模型,專為在速度與準確率之間達成平衡而設計。該模型延續 YOLOv1 的單階段目標檢測架構,並引入多項技術改進。論文中主要基於 YOLO 模型提出幾點改善方法來提升其的速度與準確率,並可在 VOC2007 取得 67FPS 與 76.8mAP 的成績。除此之外,因為過往的偵測模型僅能偵測少量的物件,因此論文中也提出一訓練方法,可使偵測的物件數量達到 9000 個。
YOLOv2 (You Only Look Once version 2) 是一種即時目標檢測模型,專為在速度與準確率之間達成平衡而設計。該模型延續 YOLOv1 的單階段目標檢測架構,並引入多項技術改進。論文中主要基於 YOLO 模型提出幾點改善方法來提升其的速度與準確率,並可在 VOC2007 取得 67FPS 與 76.8mAP 的成績。除此之外,因為過往的偵測模型僅能偵測少量的物件,因此論文中也提出一訓練方法,可使偵測的物件數量達到 9000 個。
OWLv2 擴展了先前的 OWLVit 模型,利用自我訓練的方法,通過使用現有的檢測器在圖像-文本對上生成偽框標註,從而擴大檢測數據的規模。這使其在零樣本物體檢測任務中達到了更高的性能。
該論文中提到,開放詞彙物體檢測受益於預訓練的視覺-語言模型,但仍受到可用檢測訓練數據量的限制。研究者們提出了 OWLv2 模型及其自我訓練方法,解決了標籤空間的選擇、偽標註過濾和訓練效率等挑戰。
Siamese Network(暹邏網絡)是一種深度學習架構,主要用於比較兩個輸入的相似性。這種網絡的設計使得它能夠有效地學習相似性度量,常見於圖像檢索、面部識別、文本相似性等應用。
基本結構:
CLIP (Contrastive Language-Image Pre-Training) 是一種在各種(圖像,文本)對上訓練的神經網絡。它可以用自然語言指令來預測給定圖像最相關的文本片段,而不需要直接針對該任務進行優化,類似於GPT-2和GPT-3的零樣本能力。我們發現,CLIP在ImageNet上的“零樣本”表現與原始ResNet50相當,而未使用任何原始的128萬個標註示例,克服了計算機視覺中的多個主要挑戰。
You only look once (YOLO) is a state-of-the-art, real-time object detection system. On a Pascal Titan X it processes images at 30 FPS and has a mAP of 57.9% on COCO test-dev.