-
Backpropagation Applied to Handwritten Zip Code Recognition
Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel
卷積類神經網路發明人Y. LeCun
CNN Paper -
Viola Paul and Michael Jones,
此篇論文描述一種機器學習的方法用在人臉辨識(只能辨識出臉,不能辨識出是誰的臉)。
論文三大突破:
1. 整合式圖片(Integral image),把圖片拆成很多部分運算分析。
2.AdaBoost learning algorithm,在一大張影像中找關鍵視覺特徵進行運算分析。
3.複雜的分類器"cascade",可以快速排除影像背景。 Face Detection -
David G. Lowe,
Scale Invariant Feature Transform (SIFT) 尺度不變特徵變換下進行物件辨識。 Distinctive Image Features from Scale-Invariant Keypoints -
-
使用sub-region的概念,將一張圖分成多個區塊運算分析。 Spatial Pyramid Matching
-
-
Pedro Felzenszwalb, David McAllester and Deva Ramanan,
將一張圖片中的物體,分成很多個小部分進行辨識。就算是這小部分有變形還是能夠辨識。
Deformable part model Detection -
ImageNet 首次以論文亮相
Jia Deng ; Wei Dong ; Richard Socher ; Li-Jia Li ; Kai Li 李凱; Li Fei-Fei 李飛飛 ImageNet Paper -
Yuanqing Lin, Fengjun Lv,
Lin CVPR -
2012 ImageNet-ILSVRC影像辨識大賽中,Alex Krizhevky使用上百萬張的影像與上兆的神經連結進行深度學習創造出AlexNet,這是在ILSVRC中第一次使用深度學習進行影像辨識。
Alexnet層數不多僅有八層,架構相當類似Yann LeCun用於識別手寫數字的LeNet,但是Alexnet首度使用了下列幾項影響Deep learning深遠的技術,且沿用至今:
1. 使用ReLu取代了Sogmoid及Tanh。
2. 使用Dropout技術。
3. 使用Image augmentation技術。
4. Pooling採用max pooling(取max值)。
5. 使用兩片GTX 580 GPU,針對1,500萬張相片、22,000種類別,運行一個星期訓練完成。 AlexNet Paper -
ZFnet來自New York University的Matthew Zeiler及Rob Fergus,架構是由Alexnet修改而來,差異在於:
1. 不同於Alexnet第一層捲積使用11×11的filter,ZFnet改用較小的7×7 filter以保留更多的原始圖片資訊輸入。
2. 隨著層數加深,應用更多數量的filters。
3. ZFnet亦使用Relu作為activate 但Loss function則使用cross-entropy loss。
4. ZFnet提供一種稱為Deconvolutional Network的可視化技術,可反向倒過來將特徵應對到像素,以協助瞭解Deep learning黑箱中的運作。
5. Alexnet是使用了Augmentation技術加上驚人的ImageNet total 1,500萬張圖片訓練出來,而ZFnet則僅使用ImageNet的130萬張圖片,在一片GTX580 GPU上訓練12天完成,其準確率便已大幅超過AlexNet。
ZFnet Paper -
2014年Google提出的GoogLeNet,注意它是由Goog加上LeNet的縮寫而成(為了向LeNet表示敬意)。雖然GoogLeNet的層數相當多,但是其運算效率卻相當好,使用的超參數數量硬是比起Alexnet少了12倍,準確率卻反而更高。
1. GoogLeNet的創新之處在於大量使用了下圖所謂的「Inception」,它是一種network in network的架構,針對輸入資料同時併行不同filter尺寸的卷積處理和max pooling,最後再進行級聯,這讓系統在同一層便能取得不同level的特徵。據統計,採用Inception比起未採用的網路快了2~3倍。
2. 透過network in network的方式讓網路層數更深。
3. 加上ReLu activate function,讓模型增加更多的非線性化。
4. 以GAP(Global Average Pooling)取代了傳統的FC(Full Connected layer),可提昇model的效率並減少資源使用。 GoogLeNet -
全名是Residual Neural Network,由微軟研究院所開發,中文為殘差網路。它的特點是神經網路可以是跳躍方式略過下一層而直達下下層執行。
Resnet架構的提出主要是為了解決當神經網絡的深度持續增加時所出現的Degradation問題,亦即準確率隨著深度增加後,到了某個深度後會達到飽和無法提昇,若再持續增加深度反而會導致準確率下降,其原因不在over-fitting,而是增加training layers反而帶來的training errors 。
此外,透過Residual block,梯度值可以直接跳回到前幾層的layer有效的減低了消失的問題,所以構建層次更深效率更好的網路model對於ResNet不再是難事,例如2015年初露頭角的ResNet其深度是152層,足足是GoogLeNet 22層的七倍,但Top-5 error rate卻大幅降低了47%。(ResNet-50, ResNet-101, and ResNet-152等名稱,後方的數字是代表其層數。)
ResNet Paper -
2016的ILSVRC競賽是由中國的CUImage(商湯科技和港中文)提出的GBD-Net拿下,事實上,該年度ILSVRC其餘類型的所有競賽也都是由中國隊伍所囊括。GBD-Net是基於ResNet-269進行擴充修改,雖然貴為2016的狀元,但由於僅僅較前一年的ResNet提昇了2.2%,且也無值得稱頌的創新概念與亮點,因此GBD-Net無法如同歷屆其它model一樣成為經典之作。
GBD-Net -
2017年的ILSVRC競賽是由新加坡國立大學與奇虎360 合作的SeNet以2.3% top-5 error rate取得冠軍,錯誤率較前兩年的ResNet減少了36%。
SeNet全稱是Squeeze-and-Excitation Networks,它會依據loss function的學習來調整不同屬性的特徵權重,讓有效的feature map權重加大,無效或效果小的feature map權重變小,使得模型訓練達到更好的結果。這些動作SeNet稱為「feature re-calibration」,包含了Squeeze → Excitation→ Scaling 這三個程序。
如果您看到SE開頭的深度網路名稱,例如SE-ResNet或SE-Inception,便知道那是ResNet或GoogLeNet與SeNet整合的models。 SeNet Paper -
ILSVR(ImageNet Large Scale Visual Recognition Competition)是由ImageNet所舉辦的年度大規模視覺識別挑戰賽,自2010年開辦以來,全球各知名AI企業莫不以取得此項比賽最高名次為殊榮,以宣告其圖像辨識技術已達登峰之境。剛開始是由ML及SVM等技術逐鹿,然而就在2012,深度學習之父Hinto的高徒Alex Krizhevsky首次採用深度學習架構參與此競賽,並以極大的差距擊敗了使用Support Vector Machine技術Xerox Research Centre Europe隊伍,自始以後,揭開了Deep learning吸引全球關注嶄露頭角的布幔。
直至2017年最後一屆ILSVR,影像辨識"詞"的技術已經達到超越人類水準,下一步則是要讓機器說出一個句子。