Blog | Yen Tsai dev

Node Version Manager (NVM):安裝、切換Node.js版本的管理器

nvm介紹 Node Version Manager (NVM) 是用來管理Node.js版本，可以同時安裝多個不同版本，因應不同專案環境去快速做切換安裝方式 Windows Windows環境下到nvm-windows Releases提供最新版本的安裝檔案，Assets處下載nvm-setup的檔案執行exe檔案進行安裝流程安裝完成後在cmd輸入nvm測試是否安裝成功若成功會跳出nvm version nvm --version ...

在hexo新增留言板功能(utterances)

前言過去對 blog 的留言板功能用過 Disqus，用了之後會在留言處自動插入廣告看到 utterances 使用 github issue 當作留言板的儲存位置覺得滿酷的，就來研究一下安裝環境 hexo 6.3.0 Next theme npm 8.5.5 Windows 10 流程到 GitHub 創建一個公開的儲存庫到utterances app並在 GitHub 上啟用，選擇剛剛新增的儲存庫到utterances官網進行參數設定，下拉到 Repository 處 repo:填入留言板綁定的專案名，圖片中有提到要注意的事項:專案要是公開的、有授權utterances app 設定 issue 標題取名方式，有以下幾種: Issue title contains page pathname Issue title contains page URL Issue title contains page title Issue title contains page og:title Specific issue number Issue title contains specific term 設定 issue 標記名稱(選填) 設定留言板主題配色 GitHub Light GitHub Dark Preferred Color Scheme GitHub Dark Orange Icy Dark Dark Blue Photon Dark Boxy Light Gruvbox Dark 建立好的儲存庫透過 hexo 建置好一個 blog，並修改成 Next 樣式 ...

cs131 lecture 15 Optical flow

簡介光流是描述視覺運動的一個方法，透過具有時間序列的影像來得到影像中不同物件的運動速度與他們的運動角，有了運動光流資訊可以用來：運動方向檢測物件分割立體視差測量等等如何得到影像中的光流舉例來說一個影片由多個連續影像組成，我們追蹤不同影像同一點P，第t個frame時位置是P(x1, y1)，在t+1時位置是P(x2, y2)，透過這兩點座標就可以算出運動方向與運動速度要算出這兩點光流的前提：亮度恆定移動前後兩點的亮度應該是相等的 $ I(x, y, t) = I(x + u, y + v, t+1) $ 微小的移動在以上條件約束的前提下，亮度恆定與微小移動下 $ I(x, y, t) = I(x + u{\delta}t, y + v{\delta}t, {\delta}t) $ 對等號右邊的式子進行泰勒展開式,保留一階項 $ I(x + u, y + v, t+1) \approx I(x,y,t)+I_x∙u+I_y∙v+I_t$ 假設亮度不變，下個時間同個點的亮度相等 $ I_x∙u+I_y∙v+I_t \approx 0$ $ \nabla I∙[u,v]^T + I_t = 0 $ 不能透過等式 $ \nabla I∙[u,v]^T + I_t = 0 $ 解出u,v，因為只有一個等式內含有兩個未知數u,v ...

Machine learning Roadmap 2021 介紹

Machine learning Roadmap 2021 介紹現在最紅的AI，也就是以深度學習，資料驅動的模型來預測、評估得到結果為了加強對於Machine learning的廣度與深度理解，在網路上看到一個Machine learning roadmap的圖，整理得滿不錯的 Roadmap:https://whimsical.com/machine-learning-roadmap-2021-MJ9c7zUafrUKFzheRJ8jwy Roadmap提供所有想了解機器學習的人一個整理：機器學習問題機器學習的過程機器學習的工具機器學習的相關資源機器學習的模型派系(ex:監督,非監督…) 機器學習的模型訓練、最佳化機器學習的IDE、常用的第三方套件機器學習使用的數學機器學習的相關應用、部屬他其實已經很完整，廣度及深度都已經有了，剩下的是如何從整理好的關鍵字向下研究，提高深度例如:github上的Deep-Learning-Papers-Reading-Roadmap，它提供了學習方面的整理，有序的讓你了解到Deep learning這方面的經典模型如果從Road map了解後對某一部份更有興趣，可以學習並尋找更多資源，然後填上認為缺少的重要訊息接下來我想從這個Roadmap上的關鍵字進行相關的整理，再次對機器學習/深度學習上做一個複習

論文閱讀:Fast Branch Convolutional Neural Network for Traffic Sign Recognition

論文連結:Fast Branch Convolutional Neural Network for Traffic Sign Recognition 簡介論文使用深度學習架構來辨識交通號誌，辨識交通號誌是高級駕駛輔助系統的重要部分，像是方向號誌、限速號誌、各種警示號誌等等論文遇到的挑戰是影像成像受到室外環境的複雜變化，如失真、惡劣天氣、過度曝光、曝光不足、運動模糊、褪色、複雜背景，造成辨識方法更具挑戰性使用傳統的電腦視覺辨識方法在這多變的影像是很難以用單一個演算法流程得到穩健的辨識模型，因此使用CNN架構的模型來辨識 CNN往往需要大量的參數處理來得到結果，因此要達到即時辨識模型會有一定的難度，但目前也有許多即時的CNN模型，例如:YOLO 受生物機制的啟發，論文提出一個新的架構Branch Convolution Neural Network (BCNN)，在神經系統中，簡單、反射動作會在神經系統較低層次做快速反應，困難的動作會在高階的神經系統處裡後做反應，例如:在容易區分的交通號誌圖片，人眼只看一部份也可以很快的辨識出來，套用在CNN上，沒有必要通過所有CNN參數才得到結果 CNN模型對資料的處理 CNN模型在輸入交通標誌資料有以下特性 CNN模型傾向於將原始混淆圖像空間轉換為線性可分離空間，並將同一類標籤的樣本聚集再一起越難辨識到的交通標誌是與相同類別標籤樣本距離越遠的，表示模型辨識不到特徵模型對形狀的辨識能力比辨識限速能力好，模型前期將三角形和菱形分隔開來，CNN模型參考圖形內標示較後期才分離不同數字 Branch Convolution Neural Network CNN和BCNN的差別在於，BCNN會在層與層之間分支輸出結果，如圖所示，傳統的CNN模型會在最後Softmax層輸出結果，BCNN模型會在其中一個分支進行預測，因此可以提高模型的預測時間所有的樣本都不需要經過整個CNN模型，參考前段介紹的生物學機制，簡單好辨識的影像在前期的layer預測，較難的影像在後期的layer輸出結果 BCNN model訓練流程: 訓練分支分類器評估和偏移分類器最佳化分支分類器 fine-tune model 分支分類器 Branch Classifier 分支分類器是用來快速、高精度的輸出結果，因此false negatives是允許的，但false positives是不行的因此簡單來說分支分類器: 簡單且快速 robust與高精度只輸出足夠置信度的樣本由於分支分類器是使用線性分類器，使用k-folder來訓線性分類器，但分類器分的精度太高，也是沒有意義的，例如:分類結果為一個空間只有一個正樣本，他的precision是1，但recall可能非常低，因此設定precision與recall的threshold是必要的再來就是要考慮到底要在哪幾層加入分類器，當遇到難以識別的樣本，並不會在分支分類器輸出結果，因此需要謹慎考慮分類器的插入位置與數量迭帶搜索最佳組合流程將分支分類器的組合編碼到[0,1]之間設定$T_{save} $為目標函數隨機產生不同種的分支分類器組合計算$ T_{save} $ 迭代到指定次數或找到$ T_{save} $符合閾值的組合其中$ T_{save} $表示的是節省的時間，因此要最大化目標函數 $ T_{save} $公式: 參數定義 $ l_i, i=0,1,2…n+1, 表示CNN第i層, l_{n+1}是輸出的layer, l_0是輸入的layer $ ...

cs131 lecture 14 Detecting Objects by Parts-Object detection task and evaluation

物件檢測是視覺中常見的任務之一，在影像中透過各種演算法來偵測到物件位置，常見的檢測如找到物件位置，並用矩形框標註，更精細一點的可以分割出物件的輪廓，其中會遇到的挑戰: 物件亮度不同影像角度不同物件的形狀變化同類型不同型態的變化，例如顏色因此為了測試演算法在不同類別上都能有強大的適應性，網路上有多種不同的大型影像資料庫，並附上物件的位置、類別資訊來進行驗證，以下介紹常見的影像資料庫PASCAL VOC、ImageNet、COCO Benchmarks PASCAL VOC Challenge 介紹網頁上有每一年的資料更動，起初只有四個類別，1578張影像，比賽方式為檢測與分類經過多年的資料量擴增，變為20個類別，含有11530張影像，並且有27450個ROI影像與6929個更精細的分割影像區域，並加入影像分割挑戰競賽從2005年到2012年停止相關連結 PASCAL Visual Object Classes Homepage paperswithcode PASCAL VOC Semantic Segmentation ImageNet Large Scale Visual Recognition Challenge (ILSVR) ILSVR介紹 ImageNet是一個提供所有研究人員進行大規模影像辨識模型的資料庫，資料庫內以手動標註了1400多萬張影像，並包含2萬多個類別，實際進行挑戰時會整理出1000類來進行比賽其中ImageNet的標記類別是根據WordNet的結構，WordNet可以想成是一個辭典，這個辭典把相近意義的同義詞連結再一起，成為一個網路架構引用YOLO9000的圖來說明，WordNet結構是一個樹狀結構，一個節點下有多個子節點，例如飛機節點，下面有雙翼飛機、噴射機、空中巴士、隱形戰鬥機，因此在ImageNet中看到這些標記類別，都可以視為飛機類別 ILSVR相關連結 ImageNet Home Download ImageNet Data on Kaggle paperswithcode ImageNet object detection 的數據可以看到歷年來ImageNet影像分類比賽準確率的模型 Common Objects in Context (COCO) COCO介紹 COCO dataset也是一個大型物件檢測、影像分割的一個資料集，他的特點參考官網介紹: 具有物件分割區塊 330K的影像數，有200K已經標記包含1.5M個物件物件類別有80類場景分類有91類每張圖片都有五個人工書寫的英文註釋 250000個person類別針對肢體做標記 COCO相關連結 cocodataset home paperswithcode coco object detection ...

Spatial Pyramid Matching

論文閱讀：Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories 作者Svetlana Lazebnik, Cordelia Schmid, Jean Ponce Abstract 本論文提出一個方法來進行場景辨識將影像劃分成越來越細的子區域並計算每個子區域內的局部特徵直方圖 Feature extration 可以分成兩種特徵 weak features oriented edge points visual vocabulary較少 strong features SIFT visual vocabulary較多 Spatial Pyramid Matching Create Pyramid Histogram 右上圓圓像細胞的是輸入的影像左邊三個level是本篇文章提出的一個分割方法隨著level提高, 分割的數量逐漸增加, 概念就跟金字塔一樣從level 0來看，將輸入的影像經過特徵萃取每個點代表不同的Bag Of Visual Words 計算每個特徵個別總和並用直方圖表示，如level 0下的長條形而在level 0最終可以得到一個1*3的向量來表達這張影像到level 1部分，將影像切成4等份因此下面的直方圖也會有四份順序是對應著圖中的紅色數字進行量化 level 1就可以得到1*12的向量 level 2就可以得到1*48 再拿這些向量去對其他影像進行比對 Pyramid Matching 在原論文3.1節寫到如何匹配 ...

cs131 lecture 13 Visual bag of words

介紹 Visual bag of words視覺詞袋模型概念：將影像取出具有特徵的地方，存在待比對區域中，新影像進來時，逐一比對影像符合詞袋中哪個的特徵比較多，就跟詞袋中的影像越相似，常用來進行影像分類或影像檢索新影像進來時，逐一比對影像符合詞袋中哪個的特徵比較多，就跟詞袋中的影像越相似，就可以將它分為詞袋中相近的那一類上圖可以看到在影像中，先取出各自的特徵，將這些特徵統一對各自影像進行評分，可以看到從原影像取出的特徵分數是比較高的實作流程 & 方法取出特徵學習出專屬於每張影像的"視覺詞彙"，建立視覺字典量化特徵通過“視覺詞”的頻率表示圖像特徵提取特徵取得方式參考文本分析方法，文本分析中由單詞出現的頻率來去做分析，圖片則是由紋理特徵出現的頻率高低作分析而課程中提到的方法的關鍵字： Regular grid Fei-Fei & Perona, 2005 Interest point detector Csurka et al. 2004 Ramdom sampling 隨機採樣 Vidal-Naquet& Ullman, 2002 Segmentation-based patches Barnard et al. 2003 學習視覺詞彙假設資料集中有狗、貓、飛機、山丘透過剛剛的特徵提取可能會找到狗尾巴、貓耳朵、飛機的機翼、山丘上的樹等特徵這些特徵之間會因為他們影像所呈現的方式而有相似性我們在透過一個歸納個方法來將一群相似的特徵聚集再一起使用k-means分群法來將相似的特徵組成一群再取出各群之間的群心代表該群的特徵向量問題:如何選擇視覺詞彙的大小太小，此特徵向量不能表示所有群內的特徵性太大，量化失真，overfitting Vector quantization 向量量化介紹codebook codebook概念：codebook是由一群codevector或codeword組合而成，最終目標是以這些編碼向量來代表空間中全部的資料向量(ex:k means各群心的結果) 簡單來說，一組大資料用codebook內的codeword組合而成，用來降維，降低資料量通過視覺詞彙的頻率來代表影像上圖可以看到當輸入的影像進來時，可以透過各個不同的特徵來評估他屬於哪一類，達到影像分類的效果範例可參考BagOfVisualWords 作者使用11個類別，每類影像數不同輸入影像後，取SIFT descriptor 再透過k-means分群法將特徵分成1000群訓練一個SVM mdoel，輸入資料為k-means的群心與對應的類別標籤輸入測試資料進行分類評估model準確度 ...

cs131 lecture 12 visual recognition

常見視覺辨識任務 Objection Detection Objection localization VQA(Visual Question Answering) Challenges && Nearest Neighbor Classifier 參考cs231n Image Classification Simple object recognition pipeline 參考 paper:Analyzing Appearance and Contour Based Methods for Object Categorization 建造一個架構，用來辨識影像，輸入影像後會輸出對應類別結果訓練架構訓練階段重點：訓練資料：輸入的訓練影像與標記類別定義要擷取的影像特徵訓練方法訓練資料 dataset:ETH-80 dataset 共有八類，每類41張影像，共有3280張影像解析度1024 * 768 但網路上找到的dataset並沒有到達這麼高的解析度(256 * 256) 影像特徵提到了幾個特徵提取方法 Global RGB histogram 整體形狀分析：PCA-based methods 局部形狀特徵：shape context 紋理：Filter banks 訓練方法可使用KNN classifier result

K-nearest-neighbor-algorithm

機器學習架構分成training與Testing階段 Training：準備訓練資料與對應的類別${(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}$，評估預測函數$f$並最小化在訓練資料上的誤差 Testing：輸入不在訓練資料內的未知資料，應用訓練好的fuction $f$來預測類別結果 K-nearest neighbor classifier KNN的概念是由nearest neighbor algorithm衍伸出來，NN是透過一群已經存在的訓練資料與標籤當作基底，來對測試資料進行比對，輸出與訓練資料相似度高的類別當作結果而KNN與NN不同的則是取出前K個相近的資料做參考，來決定最終輸出的類別結果 KNN演算法流程訓練階段：存取所有訓練資料$x_i$與其對應的類別結果$y_i$ 測試階段：輸入$x$，計算與所有訓練資料點的距離選擇前$k$個鄰近$x$的訓練資料統計鄰近訓練資料最高的對應類別結果距離量測方法：可使用歐式距離 KNN 細節整理如何決定參數k 相似度比對如何決定參數k 參數$k$的不同會影響輸出結果 k太小，對雜訊敏感，容易overfitting k太大，容易underfitting 選擇參數k的方法：cross validate cross validate 把資料分成多個子資料，測試參數在小樣本中的表現結果測試流程：輸入訓練資料，從訓練資料分割成多組不同的訓練/測試資料選擇在平均效能中最好的參數$k$ 相似度比對相似度比對：歐式距離(Euclidean distance)，最常用曼哈頓距離(Manhattan distance) 切比雪夫距離(Chebyshev distance) 馬氏距離(Mahalanobis Distance) 相似度比對前都須對資料進行正規化，才能保證每個維度的特徵具有相同的影響力，除了馬氏距離已將不同尺度的問題做處理參考沒有想像中簡單的簡單分類器 Knn Why do you need to scale data in KNN