第一節：變數型態轉換(1)

請在這裡下載一份範例資料

– 這份資料也是描述每個人疾病狀況的檔案，我們希望將這份直式資料轉為橫式資料

dat = read.csv("comorbidity_2.csv", header = TRUE, fileEncoding = 'CP950')
head(dat, 10)

##    問卷編號 Disease名稱1 Disease名稱2 Disease名稱3
## 1         1                                       
## 2         2       高血壓          C肝             
## 3         3          C肝       腎結石             
## 4         4       高血壓         氣喘         痛風
## 5         5       高血壓                          
## 6         6   腎功能不全                          
## 7         7       高血壓       心臟病             
## 8         8       高血壓       心臟病          B肝
## 9         9       心臟病                          
## 10       10       高血壓       糖尿病

我們的目標是將檔案轉換成這樣的格式

##   ID   BPH B型肝炎   B肝 C型肝炎   C肝  HCVD  HIVD   SLE  中風 冠心病 塵肺症
## 1  1 FALSE   FALSE FALSE   FALSE FALSE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 2  2 FALSE   FALSE FALSE   FALSE  TRUE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 3  3 FALSE   FALSE FALSE   FALSE  TRUE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 4  4 FALSE   FALSE FALSE   FALSE FALSE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 5  5 FALSE   FALSE FALSE   FALSE FALSE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 6  6 FALSE   FALSE FALSE   FALSE FALSE FALSE FALSE FALSE FALSE  FALSE  FALSE
##    失眠 子宮頸癌 小中風 小兒麻痺 心導管 心律不整 心臟病 心血管疾病 憂鬱症
## 1 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 2 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 3 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 4 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 5 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 6 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
##   攝護腺肥大  氣喘 狹心症 甲狀腺 甲狀腺低下 甲狀腺瘤 甲狀腺癌  痛風 白內障
## 1      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
## 2      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
## 3      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
## 4      FALSE  TRUE  FALSE  FALSE      FALSE    FALSE    FALSE  TRUE  FALSE
## 5      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
## 6      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
##   糖尿病 耳腫瘤  肝炎  肝癌 肝硬化 胃出血 胃潰瘍  胃炎 胃食道逆流 脊椎有骨刺
## 1  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 2  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 3  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 4  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 5  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 6  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
##   腎功能不全 腎水泡 腎結石 腎臟疾病 腎臟病 膽固醇 膽固醇過高 膽結石 靜脈曲張
## 1      FALSE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 2      FALSE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 3      FALSE  FALSE   TRUE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 4      FALSE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 5      FALSE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 6       TRUE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
##   類風濕性關節炎 高血壓 高血脂
## 1          FALSE  FALSE  FALSE
## 2          FALSE   TRUE  FALSE
## 3          FALSE  FALSE  FALSE
## 4          FALSE   TRUE  FALSE
## 5          FALSE   TRUE  FALSE
## 6          FALSE  FALSE  FALSE

第一節：變數型態轉換(2)

承上週，我們非常需要「levels」與「factor」的結合。

– 但是如果我們直接合併，我們會出現問題

all_disease = c(dat[,2], dat[,3], dat[,4])
lvl.disease = levels(factor(all_disease))
lvl.disease

出現這樣的問題，主要是因為因子向量內其實有一個「字典」，而這個「字典」其實是沒辦法合併的。

第一節：變數型態轉換(3)

因此，我們必須先轉換成文字格式才能合併

dat[,2] = as.character(dat[,2])
dat[,3] = as.character(dat[,3])
dat[,4] = as.character(dat[,4])

all_disease = c(dat[,2], dat[,3], dat[,4])
lvl.disease = levels(factor(all_disease))

– 或者是，在讀檔時直接把文字讀成非因子格式

dat = read.csv("comorbidity_2.csv", header = TRUE, fileEncoding = 'CP950', stringsAsFactors = FALSE)

all_disease = c(dat[,2], dat[,3], dat[,4])
lvl.disease = levels(factor(all_disease))

第一節：變數型態轉換(4)

資料轉換的重點只有一個，那就是先想好目標格式，接著利用迴圈功能一格一格把目標格式的資料填滿

– 當然，之後也許你會看到一些函數能加速整個流程，但在面對小筆資料時熟練的使用迴圈能幫忙我們迅速做完資料轉換

現在有了字典後，我們就能開一個空矩陣一個一個人填入：

dat = read.csv("comorbidity_2.csv", header = TRUE, fileEncoding = 'CP950', stringsAsFactors = FALSE)

all_disease = c(dat[,2], dat[,3], dat[,4])
lvl.disease = levels(factor(all_disease))

lvl.disease = lvl.disease[-1]
lvl.sample = levels(factor(dat[,1]))

new.dat = matrix(0, nrow = length(lvl.sample), ncol = length(lvl.disease)+1)
colnames(new.dat) = c("ID", lvl.disease)
new.dat[,1] = lvl.sample

讓我們看看第一個人的疾病狀態

i = 1
dat[dat[,1]==lvl.sample[i],2:4]

##   Disease名稱1 Disease名稱2 Disease名稱3
## 1

同樣的，用「%in%」可以幫忙我們得到他是否有每一個疾病

lvl.disease %in% dat[dat[,1]==lvl.sample[i],2:4]

##  [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [25] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [37] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [49] FALSE FALSE FALSE

接著，我們要把這些值填入矩陣的第1列，但第一欄除外(因為第一欄是ID)，我們可以使用負數代表除去不想要的欄位

new.dat[i,-1] = lvl.disease %in% dat[dat[,1]==lvl.sample[i],2:4]

練習1：完成這項工作

剛剛所有程式碼由上而下，已經能夠完成這張表格了，現在請你利用迴圈功能把所有步驟完成

##   ID   BPH B型肝炎   B肝 C型肝炎   C肝  HCVD  HIVD   SLE  中風 冠心病 塵肺症
## 1  1 FALSE   FALSE FALSE   FALSE FALSE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 2  2 FALSE   FALSE FALSE   FALSE  TRUE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 3  3 FALSE   FALSE FALSE   FALSE  TRUE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 4  4 FALSE   FALSE FALSE   FALSE FALSE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 5  5 FALSE   FALSE FALSE   FALSE FALSE FALSE FALSE FALSE FALSE  FALSE  FALSE
## 6  6 FALSE   FALSE FALSE   FALSE FALSE FALSE FALSE FALSE FALSE  FALSE  FALSE
##    失眠 子宮頸癌 小中風 小兒麻痺 心導管 心律不整 心臟病 心血管疾病 憂鬱症
## 1 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 2 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 3 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 4 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 5 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
## 6 FALSE    FALSE  FALSE    FALSE  FALSE    FALSE  FALSE      FALSE  FALSE
##   攝護腺肥大  氣喘 狹心症 甲狀腺 甲狀腺低下 甲狀腺瘤 甲狀腺癌  痛風 白內障
## 1      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
## 2      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
## 3      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
## 4      FALSE  TRUE  FALSE  FALSE      FALSE    FALSE    FALSE  TRUE  FALSE
## 5      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
## 6      FALSE FALSE  FALSE  FALSE      FALSE    FALSE    FALSE FALSE  FALSE
##   糖尿病 耳腫瘤  肝炎  肝癌 肝硬化 胃出血 胃潰瘍  胃炎 胃食道逆流 脊椎有骨刺
## 1  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 2  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 3  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 4  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 5  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
## 6  FALSE  FALSE FALSE FALSE  FALSE  FALSE  FALSE FALSE      FALSE      FALSE
##   腎功能不全 腎水泡 腎結石 腎臟疾病 腎臟病 膽固醇 膽固醇過高 膽結石 靜脈曲張
## 1      FALSE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 2      FALSE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 3      FALSE  FALSE   TRUE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 4      FALSE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 5      FALSE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
## 6       TRUE  FALSE  FALSE    FALSE  FALSE  FALSE      FALSE  FALSE    FALSE
##   類風濕性關節炎 高血壓 高血脂
## 1          FALSE  FALSE  FALSE
## 2          FALSE   TRUE  FALSE
## 3          FALSE  FALSE  FALSE
## 4          FALSE   TRUE  FALSE
## 5          FALSE   TRUE  FALSE
## 6          FALSE  FALSE  FALSE

練習1答案

重點還是把他包成迴圈！

lvl.disease = lvl.disease[-1]
lvl.sample = levels(factor(dat[,1]))

new.dat = matrix(0, nrow = length(lvl.sample), ncol = length(lvl.disease)+1)
colnames(new.dat) = c("ID", lvl.disease)
new.dat[,1] = lvl.sample 

for (i in 1:length(lvl.sample)) {
  new.dat[i,-1] = lvl.disease %in% dat[dat[,1]==lvl.sample[i],2:4]
}
new.dat = data.frame(new.dat)

new.dat

第二節：資料轉換概念(1)

現在我們再試試一份加強版的資料，請按這裡下載它

– 這份資料是從三軍總醫院生化檢驗值系統截取某10位病患在這段期間內所測得之各式生化值

dat = read.csv("laboratory_1.csv", header = TRUE, fileEncoding = 'CP950')
head(dat, 10)

##    PATNUMBER          COLLECTIONDATE      TESTNAME RESVALUE
## 1       2185 2011/12/12 上午 8:09:00    Creatinine      7.0
## 2       2185 2011/12/12 上午 8:09:00 Total Calcium      7.1
## 3       2185 2011/12/12 上午 8:09:00            Na    137.0
## 4       2185 2011/12/12 上午 8:09:00            IP      7.9
## 5        691 2011/12/12 下午 6:32:00    Creatinine      3.1
## 6       2185 2011/12/29 上午 6:19:00    Creatinine      7.2
## 7       2185 2011/12/29 上午 6:19:00            Na    136.0
## 8        691 2011/12/19 上午 4:38:00    Creatinine      8.0
## 9        691 2011/12/19 上午 4:38:00            Na    137.0
## 10      2185 2011/12/19 上午 8:47:00    Creatinine      8.1

我們希望能把資料轉換成這樣的格式

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST BUN
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA  NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA  NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA  NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA  NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA  NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA  NA 
##      BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA        NA                "3.7"      NA               NA     
## [2,] NA        NA                "3.2"      NA               NA     
## [3,] NA        NA                NA         NA               NA     
## [4,] NA        NA                "3.4"      NA               NA     
## [5,] NA        NA                NA         NA               NA     
## [6,] NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na    Total Calcium
## [1,] NA              "4.3" NA NA              "138" "7.3"        
## [2,] NA              NA    NA NA              "139" NA           
## [3,] NA              "4.5" NA NA              NA    "7.8"        
## [4,] NA              NA    NA NA              NA    NA           
## [5,] NA              "4.5" NA NA              NA    "7.3"        
## [6,] NA              NA    NA NA              NA    NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid urine Calcium
## [1,] NA                NA           NA                NA        NA           
## [2,] NA                NA           NA                NA        NA           
## [3,] "342"             "335"        NA                NA        NA           
## [4,] NA                NA           NA                NA        NA           
## [5,] "342"             "326"        NA                NA        NA           
## [6,] NA                NA           NA                NA        "0.6"        
##      urine Phosphorus urine Potassium urine Sodium urine Uric Acid
## [1,] NA               NA              NA           NA             
## [2,] NA               NA              NA           NA             
## [3,] NA               NA              NA           NA             
## [4,] NA               NA              NA           NA             
## [5,] NA               NA              NA           NA             
## [6,] "28.3"           "39.1"          "48"         NA

一樣，請各位先構思一下轉換流程

第二節：資料轉換概念(2)

現在這筆資料在轉換時有2個維度，分別是「個案」及「測量時間」，我們在最開始規畫的時候要先把東西盡可能拆離成小部分，最後再用迴圈功能一口氣全部做完

– 一樣，先取得這份資料的基本資訊

levels.TESTNAME = levels(dat[,3])
levels.TESTNAME

##  [1] "Albumin"            "Albumin body fluid" "AST"               
##  [4] "BUN"                "BUN Fluid"          "Cholesterol Fluid" 
##  [7] "Creatinine"         "Creatinine Fluid"   "GLU(AC)"           
## [10] "HDL-Cholesterol"    "IP"                 "K"                 
## [13] "LDL-Cholesterol"    "Na"                 "Total Calcium"     
## [16] "Total Cholesterol"  "Triglyceride"       "Triglycerol Fluid" 
## [19] "Uric Acid"          "urine Calcium"      "urine Phosphorus"  
## [22] "urine Potassium"    "urine Sodium"       "urine Uric Acid"

n.TESTNAME = length(levels.TESTNAME)
n.TESTNAME

## [1] 24

levels.PATNUMBER = levels(as.factor(dat[,1]))
levels.PATNUMBER

##  [1] "175"  "356"  "691"  "1332" "1350" "1654" "1826" "2074" "2154" "2185"

n.PATNUMBER = length(levels.PATNUMBER)
n.PATNUMBER

## [1] 10

第二節：資料轉換概念(3)

我們只先做一個個案，之後再想辦法利用迴圈把它全部都做完就好

– 在寫迴圈時，我習慣先在起頭令迴圈變數為1，如果這段以後能執行，那應該整個迴圈都不會有問題

我們先把個案1的資料先切割出來

i = 1
subdat = dat[dat[,1]==levels.PATNUMBER[i],]

接著，我們再取得subdat中的一些資訊，主要就是他總共測了幾次

levels.COLLECTIONDATE = levels(subdat[,2])
n.COLLECTIONDATE = length(levels.COLLECTIONDATE)
n.COLLECTIONDATE

## [1] 1532

有沒有發現他好像測量太多次了？這是因為我們將檔案切割成subdat時，第二欄的因子向量仍然記得他以前有多少個類別，因此我們要先把它的記憶洗掉。洗掉的方法有很多種，如先轉換成文字向量，再轉換回因子向量

subdat[,2] = as.factor(as.character(subdat[,2]))
levels.COLLECTIONDATE = levels(subdat[,2])
n.COLLECTIONDATE = length(levels.COLLECTIONDATE)
n.COLLECTIONDATE

## [1] 132

第二節：資料轉換概念(4)

接著，我們先建立一個矩陣讓我們填資料

– 第一欄填ID，第二欄填上這個人所有測量的時間點

submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME+2)
colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

submatrix[,1] = levels.PATNUMBER[i]
submatrix[,2] = levels.COLLECTIONDATE

head(submatrix)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST BUN
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA  NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA  NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA  NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA  NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA  NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA  NA 
##      BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA        NA                NA         NA               NA     
## [2,] NA        NA                NA         NA               NA     
## [3,] NA        NA                NA         NA               NA     
## [4,] NA        NA                NA         NA               NA     
## [5,] NA        NA                NA         NA               NA     
## [6,] NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP K  LDL-Cholesterol Na Total Calcium Total Cholesterol
## [1,] NA              NA NA NA              NA NA            NA               
## [2,] NA              NA NA NA              NA NA            NA               
## [3,] NA              NA NA NA              NA NA            NA               
## [4,] NA              NA NA NA              NA NA            NA               
## [5,] NA              NA NA NA              NA NA            NA               
## [6,] NA              NA NA NA              NA NA            NA               
##      Triglyceride Triglycerol Fluid Uric Acid urine Calcium urine Phosphorus
## [1,] NA           NA                NA        NA            NA              
## [2,] NA           NA                NA        NA            NA              
## [3,] NA           NA                NA        NA            NA              
## [4,] NA           NA                NA        NA            NA              
## [5,] NA           NA                NA        NA            NA              
## [6,] NA           NA                NA        NA            NA              
##      urine Potassium urine Sodium urine Uric Acid
## [1,] NA              NA           NA             
## [2,] NA              NA           NA             
## [3,] NA              NA           NA             
## [4,] NA              NA           NA             
## [5,] NA              NA           NA             
## [6,] NA              NA           NA

接著，我們開始能一個時間點一個時間點分析了，我們能把subdat在切割出更細的subsubdat

– 同樣的，我們先看第一個時間點，注意迴圈變數不要重複，所以剛剛設i，這次我們設j

j = 1
subsubdat = subdat[subdat[,2]==levels.COLLECTIONDATE[j],]
subsubdat

##      PATNUMBER         COLLECTIONDATE      TESTNAME RESVALUE
## 3993       175 2011/10/1 上午 8:24:00            IP      4.3
## 3994       175 2011/10/1 上午 8:24:00 Total Calcium      7.3
## 3995       175 2011/10/1 上午 8:24:00    Creatinine      3.7
## 3996       175 2011/10/1 上午 8:24:00            Na    138.0

第二節：資料轉換概念(5)

我們需要這份小資料中每列都執行下列的事項

找出這列是描述哪個生化值
找出在submatrix中這個生化值的位置
把value填入那個位置

同樣，我們可以再開一個迴圈執行這個部分，這次這個迴圈的迴圈變數命為k

– 函數「which()」可以幫我們找位置

k = 1
NAME = subsubdat[k,3]
NAME

## [1] IP
## 24 Levels: Albumin Albumin body fluid AST BUN BUN Fluid ... urine Uric Acid

position = which(NAME == levels.TESTNAME) + 2 
position

## [1] 13

submatrix[j, position] = subsubdat[k,4]
head(submatrix)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST BUN
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA  NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA  NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA  NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA  NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA  NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA  NA 
##      BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA        NA                NA         NA               NA     
## [2,] NA        NA                NA         NA               NA     
## [3,] NA        NA                NA         NA               NA     
## [4,] NA        NA                NA         NA               NA     
## [5,] NA        NA                NA         NA               NA     
## [6,] NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na Total Calcium
## [1,] NA              "4.3" NA NA              NA NA           
## [2,] NA              NA    NA NA              NA NA           
## [3,] NA              NA    NA NA              NA NA           
## [4,] NA              NA    NA NA              NA NA           
## [5,] NA              NA    NA NA              NA NA           
## [6,] NA              NA    NA NA              NA NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid urine Calcium
## [1,] NA                NA           NA                NA        NA           
## [2,] NA                NA           NA                NA        NA           
## [3,] NA                NA           NA                NA        NA           
## [4,] NA                NA           NA                NA        NA           
## [5,] NA                NA           NA                NA        NA           
## [6,] NA                NA           NA                NA        NA           
##      urine Phosphorus urine Potassium urine Sodium urine Uric Acid
## [1,] NA               NA              NA           NA             
## [2,] NA               NA              NA           NA             
## [3,] NA               NA              NA           NA             
## [4,] NA               NA              NA           NA             
## [5,] NA               NA              NA           NA             
## [6,] NA               NA              NA           NA

第二節：資料轉換概念(6)

現在，我們可以將要對subsubdat中所做的事情打包成一個迴圈如下，這樣第一個時間點就完成了

subsubdat #先看看subsubdat裡面有哪些

##      PATNUMBER         COLLECTIONDATE      TESTNAME RESVALUE
## 3993       175 2011/10/1 上午 8:24:00            IP      4.3
## 3994       175 2011/10/1 上午 8:24:00 Total Calcium      7.3
## 3995       175 2011/10/1 上午 8:24:00    Creatinine      3.7
## 3996       175 2011/10/1 上午 8:24:00            Na    138.0

for (k in 1:nrow(subsubdat)) {
  NAME = subsubdat[k,3]
  position = which(NAME == levels.TESTNAME) + 2
  submatrix[j, position] = subsubdat[k,4]
}
head(submatrix)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST BUN
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA  NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA  NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA  NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA  NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA  NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA  NA 
##      BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA        NA                "3.7"      NA               NA     
## [2,] NA        NA                NA         NA               NA     
## [3,] NA        NA                NA         NA               NA     
## [4,] NA        NA                NA         NA               NA     
## [5,] NA        NA                NA         NA               NA     
## [6,] NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na    Total Calcium
## [1,] NA              "4.3" NA NA              "138" "7.3"        
## [2,] NA              NA    NA NA              NA    NA           
## [3,] NA              NA    NA NA              NA    NA           
## [4,] NA              NA    NA NA              NA    NA           
## [5,] NA              NA    NA NA              NA    NA           
## [6,] NA              NA    NA NA              NA    NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid urine Calcium
## [1,] NA                NA           NA                NA        NA           
## [2,] NA                NA           NA                NA        NA           
## [3,] NA                NA           NA                NA        NA           
## [4,] NA                NA           NA                NA        NA           
## [5,] NA                NA           NA                NA        NA           
## [6,] NA                NA           NA                NA        NA           
##      urine Phosphorus urine Potassium urine Sodium urine Uric Acid
## [1,] NA               NA              NA           NA             
## [2,] NA               NA              NA           NA             
## [3,] NA               NA              NA           NA             
## [4,] NA               NA              NA           NA             
## [5,] NA               NA              NA           NA             
## [6,] NA               NA              NA           NA

第二節：資料轉換概念(7)

由於這是一個人中一個時間點的迴圈，我們可以把一整個迴圈打包在另一個迴圈之下

for (j in 1:n.COLLECTIONDATE) {
  subsubdat = subdat[subdat[,2]==levels.COLLECTIONDATE[j],]
  for (k in 1:nrow(subsubdat)) {
    NAME = subsubdat[k,3]
    position = which(NAME == levels.TESTNAME) + 2
    submatrix[j, position] = subsubdat[k,4]
  }
}

head(submatrix)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST BUN
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA  NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA  NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA  NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA  NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA  NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA  NA 
##      BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA        NA                "3.7"      NA               NA     
## [2,] NA        NA                "3.2"      NA               NA     
## [3,] NA        NA                NA         NA               NA     
## [4,] NA        NA                "3.4"      NA               NA     
## [5,] NA        NA                NA         NA               NA     
## [6,] NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na    Total Calcium
## [1,] NA              "4.3" NA NA              "138" "7.3"        
## [2,] NA              NA    NA NA              "139" NA           
## [3,] NA              "4.5" NA NA              NA    "7.8"        
## [4,] NA              NA    NA NA              NA    NA           
## [5,] NA              "4.5" NA NA              NA    "7.3"        
## [6,] NA              NA    NA NA              NA    NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid urine Calcium
## [1,] NA                NA           NA                NA        NA           
## [2,] NA                NA           NA                NA        NA           
## [3,] "342"             "335"        NA                NA        NA           
## [4,] NA                NA           NA                NA        NA           
## [5,] "342"             "326"        NA                NA        NA           
## [6,] NA                NA           NA                NA        "0.6"        
##      urine Phosphorus urine Potassium urine Sodium urine Uric Acid
## [1,] NA               NA              NA           NA             
## [2,] NA               NA              NA           NA             
## [3,] NA               NA              NA           NA             
## [4,] NA               NA              NA           NA             
## [5,] NA               NA              NA           NA             
## [6,] "28.3"           "39.1"          "48"         NA

第二節：資料轉換概念(8)

現在我們整理一下對於第一個人所使用到的所有程式碼，接著我們即將要讓電腦重複10次(因為有10個人)

– 下列這串程式碼可以獲得一個完整的submatrix

i = 1

subdat = dat[dat[,1]==levels.PATNUMBER[i],]
subdat[,2] = as.factor(as.character(subdat[,2]))
levels.COLLECTIONDATE = levels(subdat[,2])
n.COLLECTIONDATE = length(levels.COLLECTIONDATE)
n.COLLECTIONDATE

submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME+2)
colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

submatrix[,1] = levels.PATNUMBER[i]
submatrix[,2] = levels.COLLECTIONDATE

for (j in 1:n.COLLECTIONDATE) {
  subsubdat = subdat[subdat[,2]==levels.COLLECTIONDATE[j],]
  for (k in 1:nrow(subsubdat)) {
    NAME = subsubdat[k,3]
    position = which(NAME == levels.TESTNAME) + 2
    submatrix[j, position] = subsubdat[k,4]
  }
}

然而，我們必須要把submatrix寫出到完整的大表，否則i只要一改變，將會重新建立一個新的submatrix，我們可以透過函數「rbind()」完成，但在最開始的時候甚麼東西都沒有，所以我們要先令一個東西起始為NULL，然後這個東西會隨著迴圈不斷地長大

final.data = NULL
final.data

## NULL

final.data = rbind(final.data, submatrix)
head(final.data)

##      PATNUMBER COLLECTIONDATE            Albumin Albumin body fluid AST BUN
## [1,] "175"     "2011/10/1 上午 8:24:00"  NA      NA                 NA  NA 
## [2,] "175"     "2011/10/5 下午 4:46:00"  NA      NA                 NA  NA 
## [3,] "175"     "2011/10/6 上午 9:01:00"  NA      NA                 NA  NA 
## [4,] "175"     "2011/10/8 上午 6:42:00"  NA      NA                 NA  NA 
## [5,] "175"     "2011/11/10 上午 9:01:00" NA      NA                 NA  NA 
## [6,] "175"     "2011/11/10 下午 1:25:00" NA      NA                 NA  NA 
##      BUN Fluid Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC)
## [1,] NA        NA                "3.7"      NA               NA     
## [2,] NA        NA                "3.2"      NA               NA     
## [3,] NA        NA                NA         NA               NA     
## [4,] NA        NA                "3.4"      NA               NA     
## [5,] NA        NA                NA         NA               NA     
## [6,] NA        NA                NA         NA               NA     
##      HDL-Cholesterol IP    K  LDL-Cholesterol Na    Total Calcium
## [1,] NA              "4.3" NA NA              "138" "7.3"        
## [2,] NA              NA    NA NA              "139" NA           
## [3,] NA              "4.5" NA NA              NA    "7.8"        
## [4,] NA              NA    NA NA              NA    NA           
## [5,] NA              "4.5" NA NA              NA    "7.3"        
## [6,] NA              NA    NA NA              NA    NA           
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid urine Calcium
## [1,] NA                NA           NA                NA        NA           
## [2,] NA                NA           NA                NA        NA           
## [3,] "342"             "335"        NA                NA        NA           
## [4,] NA                NA           NA                NA        NA           
## [5,] "342"             "326"        NA                NA        NA           
## [6,] NA                NA           NA                NA        "0.6"        
##      urine Phosphorus urine Potassium urine Sodium urine Uric Acid
## [1,] NA               NA              NA           NA             
## [2,] NA               NA              NA           NA             
## [3,] NA               NA              NA           NA             
## [4,] NA               NA              NA           NA             
## [5,] NA               NA              NA           NA             
## [6,] "28.3"           "39.1"          "48"         NA

第二節：資料轉換概念(9)

完整的程式碼如下，各位同學能夠自己試試。

levels.TESTNAME = levels(dat[,3])
n.TESTNAME = length(levels.TESTNAME)
levels.PATNUMBER = levels(as.factor(dat[,1]))
n.PATNUMBER = length(levels.PATNUMBER)

final.data = NULL

for (i in 1:n.PATNUMBER) {
  subdat = dat[dat[,1]==levels.PATNUMBER[i],]
  subdat[,2] = as.factor(as.character(subdat[,2]))
  levels.COLLECTIONDATE = levels(subdat[,2])
  n.COLLECTIONDATE = length(levels.COLLECTIONDATE)

  submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME+2)
  colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

  submatrix[,1] = levels.PATNUMBER[i]
  submatrix[,2] = levels.COLLECTIONDATE

  for (j in 1:n.COLLECTIONDATE) {
    subsubdat = subdat[subdat[,2]==levels.COLLECTIONDATE[j],]
    for (k in 1:nrow(subsubdat)) {
      NAME = subsubdat[k,3]
      position = which(NAME == levels.TESTNAME) + 2
      submatrix[j, position] = subsubdat[k,4]
    }
  }
  
  final.data = rbind(final.data, submatrix)
}

head(final.data)

還記得怎樣寫出檔案嗎？可以使用函數「write.csv」，試試看吧！

練習2：更大的檔案

學會了上述過程之後，我們將其應用在原始的大檔案之中，請在這裡下載一份資料。

– 這次，除了檔案更大以外，檔案的最後還有參考值。如果你的值位於參考值內，那就是正常，否則則是過高。

– 我們這次不要填數值，而是填入正常（TRUE）或異常（FALSE）！

這個檔案其實跟之前的類似，但欄位有些不同，記得修正部分語法！

dat = read.csv("laboratory_2.csv", header = TRUE, fileEncoding = 'CP950')
head(dat, 10)

##    PATNUMBER SEX          COLLECTIONDATE          TESTNAME RESVALUE  UNITS
## 1        180   1 2011/12/11 上午 5:10:00                Na    131.0 mmol/L
## 2        589   1 2011/12/11 上午 6:37:00        Creatinine      3.8  mg/dL
## 3        589   1 2011/12/11 上午 6:37:00                Na    138.0 mmol/L
## 4       1015   1 2011/12/12 上午 7:38:00 Total Cholesterol    158.0  mg/dL
## 5       1015   1 2011/12/12 上午 7:38:00        Creatinine      1.5  mg/dL
## 6       1015   1 2011/12/12 上午 7:38:00      Triglyceride    140.0  mg/dL
## 7       1015   1 2011/12/12 上午 7:38:00                Na    143.0 mmol/L
## 8        480   2 2011/12/12 上午 7:41:00      Triglyceride    153.0  mg/dL
## 9        480   2 2011/12/12 上午 7:41:00                Na    139.0 mmol/L
## 10       480   2 2011/12/12 上午 7:41:00 Total Cholesterol    211.0  mg/dL
##    MINIMUM MAXIMUM
## 1    136.0   145.0
## 2      0.7     1.2
## 3    136.0   145.0
## 4       NA   200.0
## 5      0.7     1.2
## 6       NA   200.0
## 7    136.0   145.0
## 8       NA   200.0
## 9    136.0   145.0
## 10      NA   200.0

另外，現在大家開始面臨到極長的迴圈，為了掌握迴圈進度，其實我們可以在迴圈內增加進度條函數，分別是函數「txtProgressBar()」以及函數「setTxtProgressBar()」

– 函數「Sys.sleep()」是讓系統休息，你不需要將他加入你的迴圈內

n = 100
pb = txtProgressBar(max = n, style=3)
for(i in 1:n) {
  Sys.sleep(0.1)
  setTxtProgressBar(pb, i)
}
close(pb)

練習2答案

注意欄位的不同，有些索引要改！比較好的方式是改成英文名字：

levels.TESTNAME = levels(dat[,'TESTNAME'])
n.TESTNAME = length(levels.TESTNAME)
levels.PATNUMBER = levels(as.factor(dat[,'PATNUMBER']))
n.PATNUMBER = length(levels.PATNUMBER)

final.data = NULL

pb = txtProgressBar(max = n.PATNUMBER, style=3)

for (i in 1:n.PATNUMBER) {
  subdat = dat[dat[,'PATNUMBER']==levels.PATNUMBER[i],]
  subdat[,'COLLECTIONDATE'] = as.factor(as.character(subdat[,'COLLECTIONDATE']))
  levels.COLLECTIONDATE = levels(subdat[,'COLLECTIONDATE'])
  n.COLLECTIONDATE = length(levels.COLLECTIONDATE)

  submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME+2)
  colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

  submatrix[,1] = levels.PATNUMBER[i]
  submatrix[,2] = levels.COLLECTIONDATE

  for (j in 1:n.COLLECTIONDATE) {
    subsubdat = subdat[subdat[,'COLLECTIONDATE']==levels.COLLECTIONDATE[j],]
    for (k in 1:nrow(subsubdat)) {
      NAME = subsubdat[k,'TESTNAME']
      position = which(NAME == levels.TESTNAME) + 2
      VALUE = subsubdat[k,'RESVALUE']
      MINIMUM = subsubdat[k,'MINIMUM']
      MAXIMUM = subsubdat[k,'MAXIMUM']
      if (is.na(MINIMUM)) {MINIMUM = -Inf}
      if (is.na(MAXIMUM)) {MAXIMUM = Inf}
      submatrix[j, position] = (VALUE >= MINIMUM & VALUE <= MAXIMUM)
    }
  }
  
  final.data = rbind(final.data, submatrix)
  
  setTxtProgressBar(pb, i)
  
}

close(pb)

head(final.data)

R語言程式設計導論