深度學習理論與實務

林嶔 (Lin, Chin)

Lesson 7 現代網路設計與邏輯可視化

前言

– 梯度消失問題似乎已經被Residual Learning解決了,但事情有這麼簡單嗎?

– 權重初始化問題關係著局部極值,目前除了優化器及參數的選擇外,只有轉移特徵學習能夠使用,因此「找到好的轉移特徵學習方法」相當重要!

– 過度擬合問題有大量的方法可以解決,但他的根本在於「待解參數量」遠大於「數據量」,因此我們有可有可能設計一個「小參數量」但又足夠複雜(深)的模型呢?

– 讓我們跟著ILSVRC的腳步來學習,並看看人類是怎樣一步一步突破的,這是ILSVRC的歷屆冠軍模型,隨著時間的推移,我們看看Model Architecture的設計觀念是如何演進的!

F01

第一節:經典神經網路的演進(1)

F10

AlexNet
Operator Kernel Stride Filter Group Input size Parameter size
CONV + ReLU + LRN 11 4 96 2 224 * 224 * 3 11 * 11 * 3 * 96 / 2 ~ 17K
Max Pool 3 2 56 * 56 * 96
CONV + ReLU + LRN 5 1 256 2 28 * 28 * 96 5 * 5 * 96 * 256 / 2 ~ 307K
Max Pool 3 2 28 * 28 * 256
CONV + ReLU 3 1 384 1 14 * 14 * 256 3 * 3 * 256 * 384 / 1 ~ 884K
CONV + ReLU 3 1 384 2 14 * 14 * 384 3 * 3 * 384 * 384 / 2 ~ 664K
CONV + ReLU 3 1 256 2 12 * 12 * 384 3 * 3 * 384 * 256 / 2 ~ 442K
Max Pool 3 2 12 * 12 * 256
FC + ReLU 4096 6 * 6 * 256 6 * 6 * 256 * 4096 ~ 37749K
FC + ReLU 4096 4096 4096 * 4096 ~ 16777K
FC + Softmax 1000 4096 4096 * 1000 ~ 4096K

第一節:經典神經網路的演進(2)