什麼是R語言

R語言主要用於統計分析、繪圖、資料探勘等。

R 完全免費，可以直接從網站上下載，且定期更新版本。
R 有許多使用者分享程式套件(packages)，囊括先進的統計方法，且不定期更新。
R 具有強大且彈性的繪圖功能。
R 可以讀取各類型的資料。除了其它統計軟體的資料檔，R也可以讀取網頁、媒體或線上資料等。
R 是統計專業人員的研究工具，也是資料科學家經常使用的重要工具之一。

– 截止至2021年4月，R 在TIOBE Index排名第16位。

開始的第一步：安裝R語言(1)

要開始使用R語言，你必須先到CRAN下載檔案，安裝後才可以使用

– 以Download R for Windows為例。

F01

– 選base

F02

– 選Download R 4.0.4 for Windows，如要下載先前版本選Previous releases

F03

– 程式安裝位置盡量選擇D槽

開始的第一步：安裝R語言(2)

我建議大家先至Rstudio官網下載Rstudio，它可以使用圖形介面支援一些基礎功能

– 選Free的版本

F04

– 選Download RStudio Desktop

F05

– 網頁往下滑會有其他版本可選擇

F06

開始的第一步：安裝R語言(3)

安裝完畢後，請打開Rstudio，並建立第一個Project。

– 介面概況

F07

– 可以調整介面字體大小，Tools → Global Options → Appearance → Zoom or Editor font size

F08

– 建立一個Project : New Directory → New Project → 輸入Directory name → 選擇儲存位置 → Create Project

F10

F11

第一節：與電腦交談(1)

R語言的編寫是屬於一種『交談式編程』的設計，我們現在可以把R語言作為與電腦溝通的語言，而每當我們對其下達一個指令，電腦將會回應我們的問題。

– 因此，使用R的第一步，請先將他當作一個高級的計算機。

– 請試著在左邊的Console視窗中，輸入下列程式碼，並體會他的計算功能

# 四則運算
123 + 489
145 * 12

# 括弧優先規則
(1 + 2) * 3

# 指數運算
12^4

第一節：與電腦交談(2)

接著，我們介紹R語言中第一個重要的元素：函數。

– 『函數』的使用方式是打下特定的字句，並且在『小括號』內輸入參數作為「input」，接著電腦將會根據你的指令進行回答。

在這裡我們先介紹3個常用的計算函數，分別是：

函數「exp()」：負責進行自然指數運算
函數「sqrt()」：負責進行平方根運算
函數「log()」：負責(自然)對數運算

exp(2)
sqrt(10)
log(3)

– 有趣的是，『函數』中的『input』不見得只能有1個，如函數「log()」可以額外輸入對數的底數，並以『,』進行分隔：

log(3, base = 3)
log(4, base = 2)

– 需要注意的是，如果我們不告訴電腦哪個是底數，哪個是運算目標，哪個是底數，那他將會依序認為你輸入的第一個數為需要被運算的數，而第二個數為底數：

log(9, 3)
log(8, 2)

第一節：與電腦交談(3)

剛剛那些運算結果，我們沒有辦法將他們存下來，現在我們要將這些計算結果儲存成一個『物件』

– 註：物件的屬性有很多種，我們第二節才會對他進行詳細的介紹

– 注意，等號的右邊為「input」，等號的左邊為「output」

現在請輸入下列這串程式碼，這代表著我們要將「2 * 3」的結果儲存在「x」這個物件內

x = 2 * 2 * 3

我們可以利用函數「print()」查看物件內容

print(x)

– 如果你只是需要查看物件內容，事實上直接輸入物件名稱也可以達到相同效果

– 物件強大的地方在於，我們可以將其做為暫存的工具，並且可以直接對「x」物件進行運算

x/4

第一節：與電腦交談(4)

現在我們已經了解到物件本身能進行簡單的加減乘除，因此現在我們想要同時對1到5一起做三次方的運算，這時候我們可以這樣做

– 函數「c()」中間以逗點為界，此函數可以將不同「數字」合併在同一個物件內

x = c(1, 2, 3, 4, 5)
x
x^3

兩個物件也能彼此互相進行加減乘除

x = c(1, 2, 3, 4, 5)
y = c(6, 7, 9, 8, 10)
y - x
x * y

第二節：熟悉R裡面的基本物件(1)

我們正式介紹一下物件，在R裡面物件有相當多屬性，而剛剛那兩個物件屬於同個種類叫做「向量(vector)」，在R裡面大致上將物件分為幾個層次，主要共分3個層次：

變數(Variable)層：邏輯(logical)向量、整數(integer)向量、因子(factor)向量、數字(numeric)向量、文字(character)向量
陣列(Array)層：矩陣(matrix)、資料表(data.frame)
列表(List)層：列表(list)、S3物件(S3 class)、S4物件(S4 class)

第二節：熟悉R裡面的基本物件(2)

在這裡我們先不要被一大堆名詞定義給嚇到，我們先從簡單的幾個函數開始學起：

函數「length()」可以查詢該向量的長度

x = c(1, 2, 3, 4, 5)
length(x)

函數「array()」可以產生一個陣列

x = 1:24
A = array(x, dim = c(3, 2, 4))
A

函數「dim()」可以查看該陣列的維度數

dim(A)
length(A)

函數「list()」可以產生一個列表

L = list(x, A)
L

第二節：熟悉R裡面的基本物件(3)

接著我們將學習利用物件索引叫出物件內的特定內容
在R裡面，「中括號」是索引函數，在物件的後面使用「中括號」，將可以叫出指定位置的內容

– 這是變數(Variable)層物件的索引方式

x[3]
x[c(3, 5)]

– 這是陣列(Array)層物件的索引方式

A[3,1,2]
A[3,,]

– 這是列表(List)層物件的索引方式

L[[1]]

– 你也可以交叉使用這些索引函數

L[[2]][3,,]

第二節：熟悉R裡面的基本物件(4)

比較有趣的點是我們可以利用索引功能幫助我們做一些簡單的運算，像是我們可以利用索引函數指定某個位置作為「Output」，並將某個運算的結果寫入該位置：

y = c(6, 7, 9, 8, 10)
y[7] = 3 * 5
y

如果該位置原先已經有內容了，將會被強行覆蓋掉

y[3] = -1
y

也可以這樣操作

y[3] = y[1] + y[2]
y[6] = y[4] * y[5]
y

第二節：熟悉R裡面的基本物件(5)

索引函數應用廣泛，讓我們學習如何編寫費波納奇數列：

y = c(1, 1)
y[3] = y[1] + y[2]
y[4] = y[2] + y[3]
y[5] = y[3] + y[4]
y[6] = y[4] + y[5]
y[7] = y[5] + y[6]
y

透過這種有規律的編寫，我們後續將能有效的運用！

第三節：迴圈與自訂函數(1)

費波納奇數列：起始數列為1、1，之後每個數為前兩個數之和
我們可以利用迴圈函數「for」，來創造費波納奇數列

– 在這裡我們需要兩個物件：物件「x」為儲存費波納奇數列的物件，而物件「indexes」代表著隨迴圈變化的物件

x = c(1, 1)

for (i in 1:20) {
  x[i+2] = x[i] + x[i+1]
}

x

##  [1]     1     1     2     3     5     8    13    21    34    55    89   144
## [13]   233   377   610   987  1597  2584  4181  6765 10946 17711

第三節：迴圈與自訂函數(2)

剛剛那個迴圈函數的運作原理，是重複執行20次類似的動作，其中i變數在第一次的時候是「1」，因此在第一個迴圈中R其實是做了這樣的事情

i = 1
x[i+2] = x[i] + x[i+1]

而第二迴圈則是

i = 2
x[i+2] = x[i] + x[i+1]

依此類推，到最後一個迴圈時則是…

i = 20
x[i+2] = x[i] + x[i+1]

根據上述流程，R重覆將物件「x」擴充了20次，加上最初的2個起始値，物件「x」現在為一個長度為22的數字(numeric)向量

第三節：迴圈與自訂函數(3)

迴圈中的變數不見得必須是數字，可以是任何屬性（如文字），下面是一個類似合併列印功能的函數

– 函數「paste」的功能是將文字前後連接起來，接著我們能再用「print」輸出在Console視窗中

students = c("小華", "小明", "小王")
scores = c(100, 80, 70)

for (i in 1:3) {
  print(paste(students[i], "的考試成績為", scores[i], "分", sep = ""))
}

## [1] "小華的考試成績為100分"
## [1] "小明的考試成績為80分"
## [1] "小王的考試成績為70分"

第三節：迴圈與自訂函數(4)

我們常常會做一些類似的事情，如想要製作不定長度的費波納奇數列。但現在我們希望起始數列為任兩個數字，之後每個數為前兩個數之和，我們可以把它寫成這樣子：

a = 2
b = 4
step = 20

x = c(a, b)

for (i in 1:step) {
  x[i+2] = x[i] + x[i+1]
}

x

##  [1]     2     4     6    10    16    26    42    68   110   178   288   466
## [13]   754  1220  1974  3194  5168  8362 13530 21892 35422 57314

第三節：迴圈與自訂函數(5)

在R裡面，我們可以將這一串程式碼打包成一個自己的函數，如下

Fibonacci = function (a, b, step) {
  
  x = c(a, b)
  
  for (i in 1:step) {
    x[i+2] = x[i] + x[i+1]
  }
  
  x
  
}

現在，我們只要輸入這樣簡單的數字，就可以獲得任意起始値的費波納奇數列

Fibonacci(2, 4, 20)

##  [1]     2     4     6    10    16    26    42    68   110   178   288   466
## [13]   754  1220  1974  3194  5168  8362 13530 21892 35422 57314

第四節：套件使用與讀寫檔案(1)

鳶尾花卉數據集(Iris flower data set)最初是Edgar Anderson 從加拿大加斯帕半島上的鳶尾屬花朵中提取的地理變異數據，後由Ronald Fisher作為判別分析的一個例子。

F12

– 其數據集包含了150個樣本，都屬於鳶尾屬下的三個亞屬，分別是山鳶尾(setosa)、變色鳶尾(versicolor)和維吉尼亞鳶尾(virginica)。四個特徵被用作樣本的定量分析，它們分別是花萼(sepal)和花瓣(petal)的長度和寬度。

第四節：套件使用與讀寫檔案(2)

請到這裡下載這份資料集，你可以用這樣的方式把它讀取進來：

iris = read.csv('data/iris.csv')

函數「head」可以讓我們大概觀察一下資料結構：

head(iris)

##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

第四節：套件使用與讀寫檔案(3)

讓我們稍微利用一下這個資料，我們希望能夠用花萼的長度預測花萼的寬度，並建立一個「簡單線性回歸］。我們可以先利用索引函數把花萼的長度與寬度提取出來：

x = iris[,1]
y = iris[,2]

先看一下他們的分布狀況：

plot(x, y, xlab = 'Sepal Length', ylab = 'Sepal Width')

開始分析(記住這個結果！我們會再用到)：

model = lm(y~x)
print(model)

## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##     3.41895     -0.06188

第四節：套件使用與讀寫檔案(4)

讓我們再學習讀取一份資料，這份資料是來自MNIST的手寫數字資料

– 請在這裡下載MNIST的手寫數字資料，並讓我們了解一下這筆資料的結構

– 在這裡我們需要學習如何安裝「套件」，安裝後使用方法如下(你可不可以使用「read.csv」讀取?當然可以，但你可以測試看看速度)：

library(data.table)

mnist = fread("data/MNIST.csv", data.table = FALSE)
mnist = data.matrix(mnist)

這份資料的結構中，第一欄為數字，之後第2欄到第785欄描述了一張28×28的黑白圖片的像素值，我們先按照這個格式進行轉換：

X = mnist[,-1]
X = t(X)
dim(X) = c(28, 28, 1, dim(mnist)[1])

Y = mnist[,1]

第四節：套件使用與讀寫檔案(5)

讓我們看看第25張圖以及他的label吧：

library(OpenImageR)

imageShow(X[,,,25])

Y[25]

## [1] 2

第四節：套件使用與讀寫檔案(6)

剛剛的圖像似乎被轉了90度，解決方法是我們可以使用函數「t」，這是矩陣轉置函數，像這樣：

a = array(1:4, dim = c(2, 2))

a

##      [,1] [,2]
## [1,]    1    3
## [2,]    2    4

t(a)

##      [,1] [,2]
## [1,]    1    2
## [2,]    3    4

因此，我們就可以利用迴圈把本來X裡面的值全部換掉：

for (i in 1:dim(X)[4]) {
  X[,,,i] = t(X[,,,i] )
}

第四節：套件使用與讀寫檔案(7)

再看一次第25張圖以及他的label吧：

imageShow(X[,,,25])

第五節：讀取圖像(1)

由於我們這個工作坊的主要目標是教大家做圖像辨識，我們還要學習如何將圖片讀取進來。

– 讓我們到這裡下載其中的100張貓以及100張狗，最後再用這個分類器預測裡面貓狗各5張測試圖片。

– 讓我們試著把檔案讀進來，並學會畫圖：

library(OpenImageR)

img <- readImage('Dogs vs. Cats/cat.1.jpg')
imageShow(img)

第五節：套件使用與讀取圖像(2)

先讓我們瞧瞧「img」裡面是甚麼樣子的，他是一個3維陣列，可以用「dim」確認他的樣子：

dim(img)

## [1] 280 300   3

我們再使用索引函數看看這個物件內的數值，你會發現裡面其實都是0至1的數值：

img[1:5,1:5,1:3]

## , , 1
## 
##           [,1]      [,2]      [,3]      [,4]      [,5]
## [1,] 0.1529412 0.1529412 0.1568627 0.1607843 0.1607843
## [2,] 0.1568627 0.1568627 0.1568627 0.1607843 0.1607843
## [3,] 0.1568627 0.1568627 0.1568627 0.1568627 0.1568627
## [4,] 0.1529412 0.1490196 0.1490196 0.1450980 0.1450980
## [5,] 0.1490196 0.1450980 0.1372549 0.1333333 0.1294118
## 
## , , 2
## 
##           [,1]      [,2]      [,3]      [,4]      [,5]
## [1,] 0.1725490 0.1725490 0.1725490 0.1764706 0.1764706
## [2,] 0.1764706 0.1764706 0.1725490 0.1764706 0.1764706
## [3,] 0.1764706 0.1764706 0.1725490 0.1725490 0.1725490
## [4,] 0.1725490 0.1686275 0.1647059 0.1607843 0.1607843
## [5,] 0.1686275 0.1647059 0.1529412 0.1490196 0.1450980
## 
## , , 3
## 
##           [,1]      [,2]      [,3]      [,4]      [,5]
## [1,] 0.1568627 0.1568627 0.1686275 0.1725490 0.1882353
## [2,] 0.1607843 0.1607843 0.1686275 0.1725490 0.1882353
## [3,] 0.1607843 0.1607843 0.1686275 0.1686275 0.1843137
## [4,] 0.1568627 0.1529412 0.1607843 0.1568627 0.1725490
## [5,] 0.1529412 0.1490196 0.1490196 0.1450980 0.1568627

第五節：套件使用與讀取圖像(3)

一般來說，我們會希望能夠對圖片做大小重設，這裡我們可以用函數「resize」把圖片變成224x224：

resized_img = resizeImage(img, 224, 224, method = 'bilinear')
dim(resized_img)

## [1] 224 224   3

imageShow(resized_img)

如果你想要知道該函數有哪些參數能夠調整，請用函數「help」：

help(resizeImage)

第五節：套件使用與讀取圖像(4)

讓我們利用迴圈把所有貓咪的圖片都讀進來吧，至於我們要怎樣儲存呢?我們可以用4維陣列來儲存物件：

cat_img <- array(0, dim = c(224, 224, 3, 100))

for (i in 1:100) {
  img = readImage(paste0('Dogs vs. Cats/cat.', i, '.jpg'))
  resized_img = resizeImage(img, 224, 224, method = 'bilinear')
  cat_img[,,,i] = resized_img
}

這樣我們就能更方便的指定要看某一張貓咪的影像：

imageShow(cat_img[,,,25])

第五節：套件使用與讀取圖像(5)

學會把貓咪的圖片讀進來後，要把狗讀進來也是非常簡單的事情：

dog_img <- array(0, dim = c(224, 224, 3, 100))

for (i in 1:100) {
  img = readImage(paste0('Dogs vs. Cats/dog.', i, '.jpg'))
  resized_img = resizeImage(img, 224, 224, method = 'bilinear')
  dog_img[,,,i] = resized_img
}

同樣也能指定要看某一張狗的影像：

imageShow(dog_img[,,,25])

如果我們想要把貓跟狗的陣列放在一起怎辦呢?再產生一個更大的陣列利用索引函數放進去即可：

img_array = array(0, dim = c(224, 224, 3, 200))
img_array[,,,1:100] = cat_img
img_array[,,,101:200] = dog_img

第五節：套件使用與讀取圖像(6)

我們好不容易把貓、狗的圖片都讀取完畢了，那我們能不能把我們的結果存起來留待下次使用呢?

– 當然是可以的，如果你想保留物件的原始在R內的原始格式，你可以用「save」與「load」進行存取及載入：

save(img_array, file = 'img_array.RData')
load('img_array.RData')

讀取回來後格式並不會改變，同樣也能指定要看某一張影像：

imageShow(img_array[,,,75])

不過這種方式並不好，你應該有注意到不過就200張圖就花了160MB的儲存空間，所以一般來說還是使用jpg檔案作為交換比較方便。

第六節：使用R語言做出網頁應用程式(1)

套件『shiny』於2013年推出，它的主要功能是聯結webApp的前端與後端。

– 應該還記得怎樣安裝套件吧！

安裝完成後，我們要先建立一個新的資料夾(Myapp)，這個資料夾內以後將裝著兩個R script檔案，分別是ui.R(主管使用者介面)以及server.R(主管伺服器端的處理)。

F13

接著進入Myapp資料夾後，我們要新增一個R script檔案。

F14

第六節：使用R語言做出網頁應用程式(2)

接著在檔案內貼上下列程式碼，然後儲存為ui.R

library(shiny)

# Define UI for application that plots random distributions 
shinyUI(pageWithSidebar(

  # Application title
  headerPanel("Hello Shiny!"),

  # Sidebar with a slider input for number of observations
  sidebarPanel(
    sliderInput("obs", "Number of observations:", min = 0, max = 1000, value = 500)
  ),

  # Show a plot of the generated distribution
  mainPanel(
    plotOutput("distPlot")
  )
))

F15

第六節：使用R語言做出網頁應用程式(3)

再新增一個R script檔案，並且貼上下列程式碼，然後儲存為server.R

library(shiny)

# Define server logic required to generate and plot a random distribution
shinyServer(function(input, output) {
  
  # Expression that generates a plot of the distribution. The expression is
  # wrapped in a call to renderPlot to indicate that:
  # 
  # 1) It is 'reactive' and therefore should be automatically re-executed
  # when inputs change 2) Its output type is a plot
  output$distPlot = renderPlot({
    
    # generate an rnorm distribution and plot it
    dist = rnorm(input$obs)
    hist(dist)
  })
  
})

F16

第六節：使用R語言做出網頁應用程式(4)

都儲存完成後，接著點選Run App，你就可以完成你寫的App了。

F17

完成的檔案如下圖所示：

F18

第六節：使用R語言做出網頁應用程式(5)

前面已經說過，使用shiny(R package)所撰寫的App，他的基本構造是一個包含ui.R(主管使用者介面)以及server.R(主管伺服器端的處理)的資料夾。
Shiny app的基本運作流程為：

使用者自ui.R中的給定一個參數。
這個參數傳到server.R裡面，使用反應函數進行計算。
反應完成後，再回傳至ui.R輸出反應結果。

第六節：使用R語言做出網頁應用程式(6)

下列是剛剛你所貼上的程式碼(ui.R)

library(shiny)

# Define UI for application that plots random distributions 
shinyUI(pageWithSidebar(

  # Application title
  headerPanel("Hello Shiny!"),

  # Sidebar with a slider input for number of observations
  sidebarPanel(
    sliderInput("obs", "Number of observations:", min = 0, max = 1000, value = 500)
  ),

  # Show a plot of the generated distribution
  mainPanel(
    plotOutput("distPlot")
  )
))

其中是以shinyUI()這個函數為開頭，接著選定一個模組，我們使用pageWithSidebar()函數作為模組，此模組內必須包含3個子函數，分別是：

headerPanel()用來定義網頁標題
sidebarPanel()用來定義的控制選單內含哪些可控參數，本例中只有一個滑動輸入元件sliderInput()，元件為obs
mainPanle()則是用來定義輸出區域的輸出結果，本例中只有一個圖片輸出元件plotOutput()，元件為distPlot

F19

第六節：使用R語言做出網頁應用程式(7)

下列是剛剛你所貼上的程式碼(server.R)

library(shiny)

# Define server logic required to generate and plot a random distribution
shinyServer(function(input, output) {

    # Expression that generates a plot of the distribution. The expression is
    # wrapped in a call to renderPlot to indicate that:
    # 
    # 1) It is 'reactive' and therefore should be automatically re-executed
    # when inputs change 2) Its output type is a plot
    output$distPlot = renderPlot({

        # generate an rnorm distribution and plot it
        dist = rnorm(input$obs)
        hist(dist)
        
    })

})

其中是以shinyServer()這個函數為開頭，裡面包含著一個函數function()要求你指定input及output，由於我們只要做一個反應函數，由於我們想要畫一張圖，所以使用renderPlot()函數，在裡面我們指定它畫圖的過程，並且將結果儲存在output裡面的distPlot。
這個畫圖的過程很簡單，就是先指定一個數字（由input$obs提供，也就是剛剛在ui.R中使用者所給定的參數)，然後要求R使用rnorm()隨機產生n個平均數為0，標準差為1的數列，而這個數列儲存在dist元件內。接著在以hist(dist)畫出這個數列的直方圖。
因此，在renderPlot()函數內，我們根據使用者指定的參數(input$obs)產生了一張直方圖，而這張直方圖將會儲存在output裡面的distPlot。
接著這個物件distPlot就會回到ui.R中，而根據我們在ui.R中所下的指令，他將會使用plotOutput()函數使這張圖形呈現在輸出區上。

Note：所有的輸入元件都存取在input這個List內；而所有的輸出元件都存取在output這個List內。

小結

上午的課程很快的帶大家了解如何使用R語言，並且學習了一些必要的部分，希望大家可以再多練習並記住我們的語法內容。
索引及迴圈功能是程式語言的兩大支柱，我們能做到許多神奇的事都是依靠這兩個功能的組合而成，請務必記住不同物件的索引方法！
如果你想要進一步了解R語言，請到這裡觀看課程的線上講義。
在進入下午的課程之前，請大家先安裝一個套件「mxnet」，這個套件比較難安裝，可能會花掉很多時間，如果有遇到問題請找助教協助：

– 但要注意一點，僅有64位元的作業系統能安裝MxNet。

– 他的安裝方法比較特別，並且有安裝GPU版本的方法，下面是在WINDOW系統安裝CPU版本的作法：

– 如果是你的R語言是3.5以下的版本，你可能要參考這個語法安裝

cran <- getOption("repos")
cran["dmlc"] <- "https://s3-us-west-2.amazonaws.com/apache-mxnet/R/CRAN/"
options(repos = cran)
install.packages("mxnet")

– 如果是你的R語言是3.6以上的版本，你可能要參考這個語法安裝：

install.packages("https://s3.ca-central-1.amazonaws.com/jeremiedb/share/mxnet/CPU/3.6/mxnet.zip", repos = NULL)

– 或者參考這個語法安裝：

cran <- getOption("repos")
cran["dmlc"] <- "https://apache-mxnet.s3-accelerate.dualstack.amazonaws.com/R/CRAN/"
options(repos = cran)
install.packages("mxnet")

– 安裝完成後，用這個語法確認是否有成功！

library(mxnet)

深度學期快速入門