cs131 lecture 14 Detecting Objects by Parts-Object detection task and evaluation

物件檢測是視覺中常見的任務之一,在影像中透過各種演算法來偵測到物件位置,常見的檢測如找到物件位置,並用矩形框標註,更精細一點的可以分割出物件的輪廓,其中會遇到的挑戰: 物件亮度不同 影像角度不同 物件的形狀變化 同類型不同型態的變化,例如顏色 因此為了測試演算法在不同類別上都能有強大的適應性,網路上有多種不同的大型影像資料庫,並附上物件的位置、類別資訊來進行驗證,以下介紹常見的影像資料庫PASCAL VOC、ImageNet、COCO Benchmarks PASCAL VOC Challenge 介紹 網頁上有每一年的資料更動,起初只有四個類別,1578張影像,比賽方式為檢測與分類 經過多年的資料量擴增,變為20個類別,含有11530張影像,並且有27450個ROI影像與6929個更精細的分割影像區域,並加入影像分割挑戰 競賽從2005年到2012年停止 相關連結 PASCAL Visual Object Classes Homepage paperswithcode PASCAL VOC Semantic Segmentation ImageNet Large Scale Visual Recognition Challenge (ILSVR) ILSVR介紹 ImageNet是一個提供所有研究人員進行大規模影像辨識模型的資料庫,資料庫內以手動標註了1400多萬張影像,並包含2萬多個類別,實際進行挑戰時會整理出1000類來進行比賽 其中ImageNet的標記類別是根據WordNet的結構,WordNet可以想成是一個辭典,這個辭典把相近意義的同義詞連結再一起,成為一個網路架構 引用YOLO9000的圖來說明,WordNet結構是一個樹狀結構,一個節點下有多個子節點,例如飛機節點,下面有雙翼飛機、噴射機、空中巴士、隱形戰鬥機,因此在ImageNet中看到這些標記類別,都可以視為飛機類別 ILSVR相關連結 ImageNet Home Download ImageNet Data on Kaggle paperswithcode ImageNet object detection 的數據可以看到歷年來ImageNet影像分類比賽準確率的模型 Common Objects in Context (COCO) COCO介紹 COCO dataset也是一個大型物件檢測、影像分割的一個資料集,他的特點參考官網介紹: 具有物件分割區塊 330K的影像數,有200K已經標記 包含1.5M個物件 物件類別有80類 場景分類有91類 每張圖片都有五個人工書寫的英文註釋 250000個person類別針對肢體做標記 COCO相關連結 cocodataset home paperswithcode coco object detection ...

August 10, 2021 · 1 min · yanz

cs131 lecture 13 Visual bag of words

介紹 Visual bag of words視覺詞袋模型概念:將影像取出具有特徵的地方,存在待比對區域中,新影像進來時,逐一比對影像符合詞袋中哪個的特徵比較多,就跟詞袋中的影像越相似,常用來進行影像分類或影像檢索 新影像進來時,逐一比對影像符合詞袋中哪個的特徵比較多,就跟詞袋中的影像越相似,就可以將它分為詞袋中相近的那一類 上圖可以看到在影像中,先取出各自的特徵,將這些特徵統一對各自影像進行評分,可以看到從原影像取出的特徵分數是比較高的 實作流程 & 方法 取出特徵 學習出專屬於每張影像的"視覺詞彙",建立視覺字典 量化特徵 通過“視覺詞”的頻率表示圖像 特徵提取 特徵取得方式參考文本分析方法,文本分析中由單詞出現的頻率來去做分析,圖片則是由紋理特徵出現的頻率高低作分析 而課程中提到的方法的關鍵字: Regular grid Fei-Fei & Perona, 2005 Interest point detector Csurka et al. 2004 Ramdom sampling 隨機採樣 Vidal-Naquet& Ullman, 2002 Segmentation-based patches Barnard et al. 2003 學習視覺詞彙 假設資料集中有狗、貓、飛機、山丘 透過剛剛的特徵提取可能會找到狗尾巴、貓耳朵、飛機的機翼、山丘上的樹等特徵 這些特徵之間會因為他們影像所呈現的方式而有相似性 我們在透過一個歸納個方法來將一群相似的特徵聚集再一起 使用k-means分群法來將相似的特徵組成一群 再取出各群之間的群心代表該群的特徵向量 問題:如何選擇視覺詞彙的大小 太小,此特徵向量不能表示所有群內的特徵性 太大,量化失真,overfitting Vector quantization 向量量化 介紹codebook codebook概念:codebook是由一群codevector或codeword組合而成,最終目標是以這些編碼向量來代表空間中全部的資料向量(ex:k means各群心的結果) 簡單來說,一組大資料用codebook內的codeword組合而成,用來降維,降低資料量 通過視覺詞彙的頻率來代表影像 上圖可以看到當輸入的影像進來時,可以透過各個不同的特徵來評估他屬於哪一類,達到影像分類的效果 範例 可參考BagOfVisualWords 作者使用11個類別,每類影像數不同 輸入影像後,取SIFT descriptor 再透過k-means分群法將特徵分成1000群 訓練一個SVM mdoel,輸入資料為k-means的群心與對應的類別標籤 輸入測試資料進行分類評估model準確度 ...

June 11, 2021 · 1 min · yanz

cs131 lecture 12 visual recognition

常見視覺辨識任務 Objection Detection Objection localization VQA(Visual Question Answering) Challenges && Nearest Neighbor Classifier 參考cs231n Image Classification Simple object recognition pipeline 參考 paper:Analyzing Appearance and Contour Based Methods for Object Categorization 建造一個架構,用來辨識影像,輸入影像後會輸出對應類別結果 訓練架構 訓練階段重點: 訓練資料:輸入的訓練影像與標記類別 定義要擷取的影像特徵 訓練方法 訓練資料 dataset:ETH-80 dataset 共有八類,每類41張影像,共有3280張影像 解析度1024 * 768 但網路上找到的dataset並沒有到達這麼高的解析度(256 * 256) 影像特徵 提到了幾個特徵提取方法 Global RGB histogram 整體形狀分析:PCA-based methods 局部形狀特徵:shape context 紋理:Filter banks 訓練方法 可使用KNN classifier result

April 17, 2021 · 1 min · yanz

K-nearest-neighbor-algorithm

機器學習架構 分成training與Testing階段 Training:準備訓練資料與對應的類別${(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}$,評估預測函數$f$並最小化在訓練資料上的誤差 Testing:輸入不在訓練資料內的未知資料,應用訓練好的fuction $f$來預測類別結果 K-nearest neighbor classifier KNN的概念是由nearest neighbor algorithm衍伸出來,NN是透過一群已經存在的訓練資料與標籤當作基底,來對測試資料進行比對,輸出與訓練資料相似度高的類別當作結果 而KNN與NN不同的則是取出前K個相近的資料做參考,來決定最終輸出的類別結果 KNN演算法流程 訓練階段:存取所有訓練資料$x_i$與其對應的類別結果$y_i$ 測試階段: 輸入$x$,計算與所有訓練資料點的距離 選擇前$k$個鄰近$x$的訓練資料 統計鄰近訓練資料最高的對應類別結果 距離量測方法:可使用歐式距離 KNN 細節整理 如何決定參數k 相似度比對 如何決定參數k 參數$k$的不同會影響輸出結果 k太小,對雜訊敏感,容易overfitting k太大,容易underfitting 選擇參數k的方法:cross validate cross validate 把資料分成多個子資料,測試參數在小樣本中的表現結果 測試流程: 輸入訓練資料,從訓練資料分割成多組不同的訓練/測試資料 選擇在平均效能中最好的參數$k$ 相似度比對 相似度比對: 歐式距離(Euclidean distance),最常用 曼哈頓距離(Manhattan distance) 切比雪夫距離(Chebyshev distance) 馬氏距離(Mahalanobis Distance) 相似度比對前都須對資料進行正規化,才能保證每個 維度的特徵具有相同的影響力,除了馬氏距離已將不同尺度的問題做處理 參考 沒有想像中簡單的簡單分類器 Knn Why do you need to scale data in KNN

April 17, 2021 · 1 min · yanz

cs131 lecture 11 Image Resizing-Seam Carving

如何保留重要的資訊又縮減尺寸,其中定義甚麼是重要,甚麼是不重要的影像資訊 Basie Idea 不重要的資訊代表影像梯度變化小的地方,定義一個energy function/ 使用梯度來作為energy function的原因: 邊界代表紋理資訊 人眼對edge比較敏感,平滑處就可以被視為不重要資訊 概念很簡單 左圖對整張影像濾除低能量pixel 中間對每行方向濾除最低能量pixel 右圖對每列方向濾除最低能量pixel,看起來結果較好一點,但仍看得出來階梯處有扭曲的感覺 Seam Carving 接縫裁剪(Seam Carving),是一個可以針對圖像內容做正確縮放的算法。概念上,算法會找出一系列的接縫(seam)(接縫是在圖像中最不重要的一連串像素),接著利用接縫對圖像做縮放。如果是要縮小圖像,則移除這些接縫,若是放大,則在這些接縫的位置上,插入一些像素。接縫裁剪可以人工定義一些不會被修改的像素區域,也可以從圖像中移除整個物體。by wiki 流程 輸入要變化的影像與尺寸 計算energy function 從energy function計算seam cost $M$ 選出裁切方向最小的seam carving 濾除足夠多的行列直到與輸入尺寸相同 計算Seam cost的部分,主要使用動態規劃的方法來實作,因為每次計算seam cost時必須計算與鄰居周圍的相關資訊 重新定義參數: $E$是前面提到的energy function,$E(i,j)是在影像上對應i,j的座標點能量值$ $M$是seam cost,用來評估將該點作為seam carving時依據,$M$的計算公式: $M(i,j) = E(i,j) + min(M(i-1, j-1), M(i-1,j), M(i-1, j+1))$ 可以從公式看到,seam cost所代表的意義就是由該點所對應的energy function,加上鄰近上方像素的最小點,就可以當作今天要把該點去除或展開時的一個成本,成本高低代表該點是重要資訊的指標 Dynamic Programming 由於seam cost公式是計算矩陣$M$,其中又參考到自身周圍計算過的數值,因此需要用到動態規劃(Dynamic Programming, DP) $M(i,j) = E(i,j) + min(M(i-1, j-1), M(i-1,j), M(i-1, j+1))$ Searching for Minimum 得到seam cost矩陣後,從最下方開始尋找最小向上路徑 ...

April 10, 2021 · 1 min · yanz

cs131 lecture 11 Image Resizing-Image Retargeting Overview

影像調整大小在生活上隨處可見,如在不同的螢幕解析度下就必須對輸入的影像進行變化 但改變的同時常常造成比較重要的影像位置失去原先的樣貌特性 該節就開始探討在Resize的同時又可以保持重要的影像訊息 Content-aware Retargeting 上圖可以看到紅區域處是重要的資訊,若直接改變影像尺寸會造成人物的變形 若僅延展在影像中間處的雪地與天空區塊,就可以保留重要資訊 問題定義 輸入影像尺寸$n \times m$與新的尺寸$n’ \times m'$ 輸出影像$n’ \times m’$並保有與原影像一樣好的影像細節 但所謂好的影像縮放結果沒辦法用量化的方式來定義 我們也不知道甚麼叫做重要的影像資訊,也許每個人對重要的影像區塊看法都不同 影像重要性(顯著性) 量測 定義一個function來找出影像"重要"的地方 重要指的可以是人眼經常會去特別關注的地方 相關論文與應用 Setlur, Vidya, et al. “Automatic image retargeting.” Proceedings of the 4th international conference on Mobile and ubiquitous multimedia. 2005. Gal, Ran, Olga Sorkine, and Daniel Cohen-Or. “Feature-Aware Texturing.” Rendering Techniques 2006.17th (2006): 2.

April 7, 2021 · 1 min · yanz

cs131 lecture 10 Clustering- mean-shift clustering

論文名稱:Mean Shift, Mode Seeking, and Clustering 流程: 隨機初始化起點與視窗$h$ 計算中心重心 移動搜索視窗到重心位置 重複步驟2~3直到收斂 重心計算公式: 其中$x是輸入的資料集,x={x_1,x_2…x_k},x_i是第i個資料$ $S_h是視窗半徑為h$的區域 mean shift 演算法範例: 圖(1)~(3)計算重心並移動,移動幅度(1)>(2)>(3),圖(4)收斂 特性 Unsupervised learning 跟k-means不同的是,不用先假設資料有幾群 調整一個視窗大小參數,並且具有物理意義,視窗大小代表中心的搜索範圍,但視窗範圍會影響到輸出結果 對outliers具有穩健性 資料維度越高,運算越巨大 參考 ML - Clustering Mean Shift Algorithm

April 5, 2021 · 1 min · yanz

cs131 lecture 10 Clustering-K-means clustering

k means clustering 流程 隨機初始化群心$c_1,…,c_K$與迭代次數$t$ 計算隸屬矩陣$\delta^t$,得到新的分群結果 由分群結果更新群心 增加迭代次數$t$,重複步驟2~4,直到到達設定停止條件(到達迭代次數上限或群心不在大幅變動) 參數定義: $t$:迭代次數 $K$:群數 $N$:輸入的資料數量 $x_j$:輸入的第$j$筆資料 $c^t_i$:第$t$次第$k$群的群心 $\delta^t$:第$t$次的隸屬矩陣,定義第$j$個資料對應第$c$個群心的距離,矩陣大小為K*N 流程: k means clustering特性 不同的初始化群心位置會有不同結果 對球形的數據有較好的fit結果 * 需要決定參數k 選擇參數k的方法 不同的群數使得結果不同,決定群數變成非常重要的問題 以分群的角度來看,分群的目的為,群內的變異性越小越好,群跟群之間的變異性越大越好 翻成白話來說就是:同一群內的資料越聚集越好,群跟群之間的資料離越遠越好 這裡介紹一個常用來自動選擇群數k的方法:Elbow method Elbow Method Elbow method的核心思想是,運用前面所說分群的特性來定義一個objective function來找到輸入資料對應最好的分群結果,通常使用群內樣本的距離和來量測 如下圖所示,選擇的k值隨著群數分越多,數值越小,但可以發現前期變化很大,到後面逐漸變小 而群數設定為2時的轉折最大,像是手肘彎曲的地方,這時elbow method就選擇該輸入的資料分為2群最適合 k-means 優缺點 Unsupervised learning 原理簡單好實現 可擴展至大型的數據集,適應不同的dataset 保證收斂 可以預先初始化群心中心 需先設定參數k(使用elbow method可以解決這問題) 輸入資料需標準化到同一尺度空間 初始化群中心影響分群結果 群心容易被異常資料(outliers)影響,造成群心偏移 容易陷入局部最佳解 參考 k-Means Advantages and Disadvantages

March 28, 2021 · 1 min · yanz

cs131 lecture 9 Segmentation and Clustering-Agglomerative Clustering

影像分割目的 把屬於同一群的像素集合在一起 將想要做進一步分析的物件與背景分割出來,概念跟框選 ROI 相似,但是更精細的 ROI,把非物件的不相干雜訊濾除 視覺上分群的範例 依照格式塔原則進行分類,以 Gestalt 為名的完形心理學,概念#是人類對於任何視覺圖像的認知,是一種經過知覺系統組織後的形態與輪廓,而並非所有各自獨立部份的集合。 其中格式塔原則的一些特點: Similarity 相似性 Symmetry 對稱性 Common Fate 共同命運,同群在影像中表現出相同的移動方向性、趨勢 Proximity 相近性,物體距離相近時視為一群 clustering method 分群的概念是把一組資料依照距離或相似程度分成不同的群集 分群法是一種非監督式分群方法 相似度比對 常見的相似度比對方法有: Euclidean distance Cosine similarity 歐式距離: 餘弦相似性,概念是比對兩向量的夾角角度: 分群演算法理想特性 可擴縮性(Scalability) 可以處理不同的資料型態 簡單的參數調整與設定 可說明性,呈現的結果是可解釋的 約束性,演算法可由使用者預先設定的限制下動作 Agglomerative clustering 將每個資料點都視為一獨立的群 找出最相近的群集點對 將點對合併成一群 重複上述步驟直到合併結束 定義群集之間的相似性 點到點之間的平均距離 最小點距離 最大點距離 優缺點 好實現且應用廣泛 集群具有自適應形狀 提供階層式的集群 不需預設群數 可能會出現不均勻的群集結果 還是需要定義群集相似度閾值 時間複雜度 $O(n^3)$ 可能陷入局部最佳解 參考 視覺法則 – 格式塔原則

March 24, 2021 · 1 min · yanz

cs131 lecture 6 Feature Descriptors-HoG

另一種描述影像特徵的方法,HoG(Histogram of Oriented Gradients),方向梯度直方圖 特徵描述子 HoG 簡介 局部的物件外觀與形狀經常由局部亮度梯度或邊緣方向顯現出來,因此透過局部梯度資訊建立一個梯度角度直方圖的特徵 HoG 流程 把影像切分成多個小區塊(稱為 cells),cells 的形狀可以是矩形或圓形,每個 cell 累加梯度方向的局部直方圖 把 cell 合成多個格子成為一個 block,對 block 內的亮度區域進行正規化 結果: 與 SIFT1 不同的地方 HoG 通常用來描述更大的影像區域,SIFT 用關鍵點來進行匹配 SIFT 是對整體梯度進行正規化,HoG 是使用周圍的 cell 區塊 參考 一文講解方向梯度直方圖(hog) A Gentle Introduction Into The Histogram Of Oriented Gradients

March 16, 2021 · 1 min · yanz