機器學習4-卷積神經網路

林嶔 (Lin, Chin)

Lesson 22

卷積神經網路介紹(1)

– 但回到我們的手寫數字分類問題,當我們看到這些手寫數字時,我們一眼就能認出他們了,但從「圖片」到「概念」的過程真的這麼簡單嗎?

F22_1

卷積神經網路介紹(2)

F22_2

– 他們的研究發現,貓咪在受到不同形狀的圖像刺激時,感受野的腦部細胞會產生不同反應

F22_3

卷積神經網路介紹(3)

– 卷積器模擬了感受野最初的細胞,他們負責用來辨認特定特徵,他們的數學模式如下:

F22_4

– 「特徵圖」的意義是什麼呢?卷積器就像是最初級的視覺細胞,他們專門辨認某一種簡單特徵,那這個「特徵圖」上面數字越大的,就代表那個地方越符合該細胞所負責的特徵。

F22_5

卷積神經網路介紹(4)

F22_6

F22_7

  1. 原始圖片(28x28x1)要先經過20個5x5的「卷積器」(5x5x1x20)處理,將使圖片變成20張「特徵圖」(24x24x20)

  2. 接著這20張「特徵圖」(24x24x20)會經過非線性轉換,產生20張「轉換後的特徵圖」(24x24x20)

  3. 接著這20張「轉換後的特徵圖」(24x24x20)再經過2x2「池化器」(2x2)處理,將使圖片變成20張「降維後的特徵圖」(12x12x20)

卷積神經網路介紹(5)

– 我們想像有一張人的圖片,假定第一個卷積器是辨認眼睛的特徵,第二個卷積器是在辨認鼻子的特徵,第三個卷積器是在辨認耳朵的特徵,第四個卷積器是在辨認手掌的特徵,第五個卷積器是在辨認手臂的特徵

– 第1.2.3張特徵圖中數值越高的地方,就分別代表眼睛、鼻子、耳朵最有可能在的位置,那將這3張特徵圖合在一起看再一次卷積,是否就能辨認出人臉的位置?

– 第4.5張特徵圖中數值越高的地方,就分別代表手掌、手臂最有可能在的位置,那將這2張特徵圖合在一起看再一次卷積,是否就能辨認出的位置?

– 第4.5張特徵圖對人臉辨識同樣能起到作用,因為人臉不包含手掌、手臂,因此如果有個卷積器想要辨認人臉,他必須對第1.2.3張特徵圖做正向加權,而對第4.5張特徵圖做負向加權

F22_8

練習-1

– 這是一張鸚鵡的圖片

library(imager)

img <- load.image(system.file("extdata/parrots.png", package="imager"))
gary.img <- grayscale(img)
plot(gary.img)