cs131 lecture 14 Detecting Objects by Parts-Object detection task and evaluation
物件檢測是視覺中常見的任務之一,在影像中透過各種演算法來偵測到物件位置,常見的檢測如找到物件位置,並用矩形框標註,更精細一點的可以分割出物件的輪廓,其中會遇到的挑戰: 物件亮度不同 影像角度不同 物件的形狀變化 同類型不同型態的變化,例如顏色 因此為了測試演算法在不同類別上都能有強大的適應性,網路上有多種不同的大型影像資料庫,並附上物件的位置、類別資訊來進行驗證,以下介紹常見的影像資料庫PASCAL VOC、ImageNet、COCO Benchmarks PASCAL VOC Challenge 介紹 網頁上有每一年的資料更動,起初只有四個類別,1578張影像,比賽方式為檢測與分類 經過多年的資料量擴增,變為20個類別,含有11530張影像,並且有27450個ROI影像與6929個更精細的分割影像區域,並加入影像分割挑戰 競賽從2005年到2012年停止 相關連結 PASCAL Visual Object Classes Homepage paperswithcode PASCAL VOC Semantic Segmentation ImageNet Large Scale Visual Recognition Challenge (ILSVR) ILSVR介紹 ImageNet是一個提供所有研究人員進行大規模影像辨識模型的資料庫,資料庫內以手動標註了1400多萬張影像,並包含2萬多個類別,實際進行挑戰時會整理出1000類來進行比賽 其中ImageNet的標記類別是根據WordNet的結構,WordNet可以想成是一個辭典,這個辭典把相近意義的同義詞連結再一起,成為一個網路架構 引用YOLO9000的圖來說明,WordNet結構是一個樹狀結構,一個節點下有多個子節點,例如飛機節點,下面有雙翼飛機、噴射機、空中巴士、隱形戰鬥機,因此在ImageNet中看到這些標記類別,都可以視為飛機類別 ILSVR相關連結 ImageNet Home Download ImageNet Data on Kaggle paperswithcode ImageNet object detection 的數據可以看到歷年來ImageNet影像分類比賽準確率的模型 Common Objects in Context (COCO) COCO介紹 COCO dataset也是一個大型物件檢測、影像分割的一個資料集,他的特點參考官網介紹: 具有物件分割區塊 330K的影像數,有200K已經標記 包含1.5M個物件 物件類別有80類 場景分類有91類 每張圖片都有五個人工書寫的英文註釋 250000個person類別針對肢體做標記 COCO相關連結 cocodataset home paperswithcode coco object detection ...