Tag: object detection

Introduction

YOLOv2 (You Only Look Once version 2) 是一種即時目標檢測模型，專為在速度與準確率之間達成平衡而設計。該模型延續 YOLOv1 的單階段目標檢測架構，並引入多項技術改進。論文中主要基於 YOLO 模型提出幾點改善方法來提升其的速度與準確率，並可在 VOC2007 取得 67FPS 與 76.8mAP 的成績。除此之外，因為過往的偵測模型僅能偵測少量的物件，因此論文中也提出一訓練方法，可使偵測的物件數量達到 9000 個。

YOLOv2 Improvements Over YOLOv1 (Better)

AyaAbout 10 min

OWLv2

OWLv2 擴展了先前的 OWLVit 模型，利用自我訓練的方法，通過使用現有的檢測器在圖像-文本對上生成偽框標註，從而擴大檢測數據的規模。這使其在零樣本物體檢測任務中達到了更高的性能。

論文摘要

論文連結

該論文中提到，開放詞彙物體檢測受益於預訓練的視覺-語言模型，但仍受到可用檢測訓練數據量的限制。研究者們提出了 OWLv2 模型及其自我訓練方法，解決了標籤空間的選擇、偽標註過濾和訓練效率等挑戰。

AyaAbout 4 min

Siamese Network

Siamese Network（暹邏網絡）是一種深度學習架構，主要用於比較兩個輸入的相似性。這種網絡的設計使得它能夠有效地學習相似性度量，常見於圖像檢索、面部識別、文本相似性等應用。

模型架構

基本結構：

雙分支網絡：Siamese Network 由兩個相同的神經網絡組成，通常是 CNN 或 RNN。這兩個子網絡接收不同的輸入（例如，兩張圖像或兩段文本）並生成各自的特徵向量。
特徵提取：每個子網絡的輸出是高維的特徵向量，這些向量捕捉了輸入數據的關鍵特徵。

AyaAbout 3 min

YOLO: Real-Time Object Detection

You only look once (YOLO) is a state-of-the-art, real-time object detection system. On a Pascal Titan X it processes images at 30 FPS and has a mAP of 57.9% on COCO test-dev.

Demo link (YOLOv3)

AyaAbout 4 min

MediaPipe Gesture Recognition

Demo on Android Device

TeddyAbout 1 min