詞袋模型(2)

利用詞袋模型進行特徵萃取之後，我們就可以用來做分類任務了。

– 我們先到這裡下載三軍總醫院從105年1月1日至105年1月31日所有的出院病歷摘要，這些病例已經初步被標記是否為是「癌症」病例，我們看看Data的樣子：

load('data/Discharge_Notes.RData')

cat(Discharge_Notes[10])

## Axis I ： 
##  1. Other specified depressive disorder
##  2. Suspect adjustment disorder with depressed mood.
## Axis II：   deffered
## Axis III：  deferred
## Axis IV： Military stress
## Axis V：Global Assessment Functioning scale: 41-50

像這份病歷就被標註為非癌症病例：

Cancer_code[10]

## [1] 0

整份資料共計有4535份病歷，我們就用這份資料做後續的練習！

詞袋模型(3)

多看幾則病例之後，你會發現文字本身非常的不規則且難以整理，這裡我們直接用寫好的函數做拼寫校正以及斷詞！

– 如果你想學習如何處理文字，你可以參考一下R語言程式設計導論：文字處理簡介的部分

– 但在使用這個函數之前，我們需要先下載my_DIC.aff以及my_DIC.dic兩個字典檔案作為我們拼寫校正之用：

library(hunspell)
library(magrittr)

Sys.setenv(DICPATH = "data")

wrong2right <- function (text, spell.check = TRUE) {
  
  RECODE = tolower(text)
  RECODE = RECODE %>% gsub("\n", "<S><S><S><S><S>", ., fixed = TRUE) %>% gsub("\r", "<S><S><S><S><S>", ., fixed = TRUE)

  RECODE = RECODE %>% gsub("[ :,;-]", "<S>", .) %>% gsub("(", "<S>", ., fixed = TRUE) %>% gsub(")", "<S>", ., fixed = TRUE)%>% gsub("/", "<S>", ., fixed = TRUE) 
  RECODE = strsplit(RECODE, split = ".", fixed = TRUE)[[1]]
  RECODE = paste(RECODE, collapse = "<S><S><S><S><S>")
  RECODE = gsub("(<S>){5, }", "<S><S><S><S><S>", RECODE)
  RECODE = gsub("(<S>)+$", "", RECODE)
  RECODE = strsplit(RECODE, split = "<S>", fixed = TRUE)[[1]]

  pos1 = rep(NA, length(RECODE))
  pos2 = rep(NA, length(RECODE))
  
  start.pos = 1
  sub.text = text
  
  for (i in 1:length(RECODE)) {
    if (RECODE[i]!="") {
      result = regexpr(RECODE[i], tolower(sub.text))
      if (result[1] != -1) {
        pos1[i] = start.pos + result[1] - 1
        pos2[i] = start.pos + result[1] + attr(result, "match.length") - 2
        start.pos = pos2[i] + 1
        sub.text = substr(sub.text, result[1] + attr(result, "match.length"), nchar(sub.text))
      }
    }
  }
  
  RECODE = RECODE %>% gsub("[^A-Z0-9a-z .:,;-]", "", .) 
  RECODE[!(!grepl("[^a-z]", RECODE)|!grepl("[^0-9]", RECODE))] = RECODE[!(!grepl("[^a-z]", RECODE)|!grepl("[^0-9]", RECODE))] %>% gsub("[0-9]", "", .)
  RECODE = RECODE %>% gsub("[0-9]", "", .)
  
  if (spell.check) {
    SPELL_check = which(!hunspell:::hunspell_check(RECODE, dict = hunspell:::dictionary("my_DIC", cache = FALSE)))
    if (length(SPELL_check) > 0) {
      hist.num.space = 0
      for (k in 1:length(SPELL_check)) {
        RECODE[SPELL_check[k]] = hunspell:::hunspell_suggest(RECODE[SPELL_check[k]], dict = hunspell:::dictionary("my_DIC", cache = FALSE))[[1]][1]
        if (grepl(" ", RECODE[SPELL_check[k]], fixed = TRUE)) {
          num.space = length(gregexpr(" ", RECODE[SPELL_check[k]], fixed = TRUE)[[1]])
          len.pos1 = length(pos1)
          pos1 = c(pos1[1:(SPELL_check[k]+hist.num.space)], rep(NA, num.space - 1), pos1[(SPELL_check[k]+hist.num.space):len.pos1])
          pos2 = c(pos2[1:(SPELL_check[k]+hist.num.space)], rep(NA, num.space - 1), pos2[(SPELL_check[k]+hist.num.space):len.pos1])
          pos1[SPELL_check[k]+hist.num.space+1:num.space] = NA
          pos2[SPELL_check[k]+hist.num.space+0:(num.space-1)] = NA
          hist.num.space = hist.num.space + num.space
        }
      }
    }
    RECODE = RECODE %>% gsub(" ", "<S>", .)
    RECODE[nchar(RECODE) == 0] = "<A>"
    RECODE = strsplit(RECODE, split = "<S>", fixed = TRUE) %>% unlist
    RECODE[RECODE %in% "<A>"] <- ""
    RECODE = tolower(RECODE)
  }
  
  return(list(new.text = RECODE, original.text = text, pos1 = pos1, pos2 = pos2))
  
}

讓我們試試看拼寫校正的效果：

Result <- wrong2right(Discharge_Notes[10])
Result$new.text

##  [1] "axis"        "i"           ""            ""            ""           
##  [6] ""            ""            ""            ""            ""           
## [11] ""            ""            "other"       "specified"   "depressive" 
## [16] "disorder"    ""            ""            ""            ""           
## [21] ""            ""            ""            ""            ""           
## [26] "suspect"     "adjustment"  "disorder"    "with"        "depressed"  
## [31] "mood"        ""            ""            ""            ""           
## [36] "axis"        "ii"          ""            ""            "differed"   
## [41] ""            ""            ""            ""            "axis"       
## [46] "iii"         ""            "deferred"    ""            ""           
## [51] ""            ""            "axis"        "iv"          "military"   
## [56] "stress"      ""            ""            ""            ""           
## [61] "axis"        "global"      "assessment"  "functioning" "scale"      
## [66] ""            ""            ""

詞袋模型(4)

由於全部處理完要非常久的時間，在剛剛的Discharge_Notes.RData裡面已經有處理完的結果了：

Processed_Notes[[10]]

##  [1] "axis"        "i"           ""            ""            ""           
##  [6] ""            "other"       "specified"   "depressive"  "disorder"   
## [11] ""            ""            ""            ""            "suspect"    
## [16] "adjustment"  "disorder"    "with"        "depressed"   "mood"       
## [21] ""            ""            ""            ""            "axis"       
## [26] "ii"          ""            ""            ""            "differed"   
## [31] ""            ""            ""            ""            "axis"       
## [36] "iii"         ""            ""            "deferred"    ""           
## [41] ""            ""            ""            "axis"        "iv"         
## [46] ""            "military"    "stress"      ""            ""           
## [51] ""            ""            "axis"        "v"           "global"     
## [56] "assessment"  "functioning" "scale"

現在我們將能夠開始做詞袋模型的向量化，我們這裡示範的語法僅將關鍵字抓出來，並不特別抓取「片語」及「關鍵字」：

lvl.word <- unlist(Processed_Notes) %>% as.factor %>% levels
lvl.word <- lvl.word[-1]
length(lvl.word)

## [1] 5874

共有5874個字出現在既有的病歷中，我們把它整合成數值矩陣，他最終將會產生5874×4535的大矩陣：

tdm_array <- array(0L, dim = c(length(lvl.word), length(Processed_Notes)))

for (i in 1:length(Processed_Notes)) {
  term_table <- table(Processed_Notes[[i]])
  term_table <- term_table[names(term_table) %in% lvl.word]
  term_pos <- which(lvl.word %in% names(term_table))
  tdm_array[term_pos,i] <- term_table[names(term_table) %in% lvl.word]
}

dim(tdm_array)

## [1] 5874 4535

練習1：利用詞袋模型與多層感知器進行癌症病歷分類

在我們剛開始踏入圖像識別任務時，我們也曾經直接用多層感知機做手寫數字分類。

– 現在，讓我們試試用多層感知機來運用在病歷分類上，請你試著利用訓練組的資料做模型的訓練，並且用測試組的資料評估模型準確度。

Train.X <- tdm_array[,1:3000]
Train.Y <- Cancer_code[1:3000]

Test.X <- tdm_array[,3001:length(Cancer_code)]
Test.Y <- Cancer_code[3001:length(Cancer_code)]

– 另外，為了訓練你整合的能力，請你也對下列這兩串原始的文字進行病歷分類：

Adenocarcinoma of stomach with peritoneal carcinomatosis and massive ascite, stage IV under bidirection chemotherapy (neoadjuvant intraperitoneal-systemic chemotherapy) with intraperitoneal paclitaxel 120mg (20151126, 20151201) and systemic with Oxalip (20151127) and oral XELOX.
Chronic kidney disease, stage V with pulmonary edema underwent emergent hemodialysis, status post arteriovenous graft creation with maintenance hemodialysis.

練習1答案(1)

這是一個簡單的多層感知機任務，我們先編寫Iterator：

library(mxnet)

my_iterator_core <- function (batch_size) {
  
  batch = 0
  batch_per_epoch = length(Train.Y)/batch_size
  
  reset = function() {batch <<- 0}
  
  iter.next = function() {
    batch <<- batch+1
    if (batch > batch_per_epoch) {return(FALSE)} else {return(TRUE)}
  }
  
  value = function() {
    idx = 1:batch_size + (batch - 1) * batch_size
    idx[idx > ncol(Train.X)] = sample(1:ncol(Train.X), sum(idx > ncol(Train.X)))
    data = mx.nd.array(array(Train.X[,idx], dim = c(nrow(Train.X), batch_size)))
    label = mx.nd.array(array(Train.Y[idx], dim = c(1, batch_size)))
    return(list(data = data, label = label))
  }
  
  return(list(reset = reset, iter.next = iter.next, value = value, batch_size = batch_size, batch = batch))
}

my_iterator_func <- setRefClass("Custom_Iter",
                                fields = c("iter", "batch_size"),
                                contains = "Rcpp_MXArrayDataIter",
                                methods = list(
                                  initialize = function(iter, batch_size = 100){
                                    .self$iter <- my_iterator_core(batch_size = batch_size)
                                    .self
                                  },
                                  value = function(){
                                    .self$iter$value()
                                  },
                                  iter.next = function(){
                                    .self$iter$iter.next()
                                  },
                                  reset = function(){
                                    .self$iter$reset()
                                  },
                                  finalize=function(){
                                  }
                                )
)

my_iter <- my_iterator_func(iter = NULL, batch_size = 20)

接著編寫Model architecture，我們以單隱藏層深的多層感知機為例：

data <- mx.symbol.Variable(name = 'data')
label <- mx.symbol.Variable(name = 'label')

fc1 <- mx.symbol.FullyConnected(data = data, num.hidden = 50, name = 'fc1')
relu1 <- mx.symbol.Activation(data = fc1, act.type = 'relu', name = 'relu1')
fc2 <- mx.symbol.FullyConnected(data = relu1, num.hidden = 1, name = 'fc2')
logistic_pred <- mx.symbol.sigmoid(data = fc2, name = 'logistic_pred')

eps <- 1e-8
ce_loss_pos <-  mx.symbol.broadcast_mul(mx.symbol.log(logistic_pred + eps), label)
ce_loss_neg <-  mx.symbol.broadcast_mul(mx.symbol.log(1 - logistic_pred + eps), 1 - label)
ce_loss_mean <- 0 - mx.symbol.mean(ce_loss_pos + ce_loss_neg)
ce_loss <- mx.symbol.MakeLoss(ce_loss_mean, name = 'ce_loss')

這是Optimizer的部分：

my_optimizer <- mx.opt.create(name = "sgd", learning.rate = 0.05, momentum = 0.9, wd = 1e-4)

練習1答案(2)

開始訓練模型：

my.eval.metric.loss <- mx.metric.custom(
  name = "cross-entropy",
  function(label, pred) {
    return(as.array(pred))
  }
)

my_model <- mx.model.FeedForward.create(symbol = ce_loss, X = my_iter, optimizer = my_optimizer,
                                        array.batch.size = 20, ctx = mx.cpu(), num.round = 30,
                                        eval.metric = my.eval.metric.loss,
                                        batch.end.callback = mx.callback.log.speedometer(frequency = 50, batch.size = 20))

用訓練好的模型來預測一下測試組：

my_model$symbol <- logistic_pred
pred_y <- predict(my_model, Test.X)

讓我們用ROC curve來評估模型的效果吧：

library(pROC)

roc_result <- roc(Test.Y, pred_y)
plot(roc_result, col = "red", main = paste0('AUC = ', formatC(roc_result$auc, 3, format = 'f')))

練習1答案(3)

讓我們試試看建構上述那兩個病歷的預測吧：

my_discharge_note <- 'Adenocarcinoma of stomach with peritoneal carcinomatosis and massive ascite, stage IV under bidirection chemotherapy (neoadjuvant intraperitoneal-systemic chemotherapy) with intraperitoneal paclitaxel 120mg (20151126, 20151201) and systemic with Oxalip (20151127) and oral XELOX.'

processed_discharge_note <- wrong2right(my_discharge_note)$new.text

my_tdm_array <- array(0L, dim = c(length(lvl.word), 1))
term_table <- table(processed_discharge_note)
term_table <- term_table[names(term_table) %in% lvl.word]
term_pos <- which(lvl.word %in% names(term_table))
my_tdm_array[term_pos,] <- term_table
dim(my_tdm_array) <- c(length(lvl.word), 1)

predict(my_model, my_tdm_array, array.layout = 'colmajor')

##      [,1]
## [1,]    1

換個病歷過程也一樣！

詞嵌入模型(1)

詞袋模型存在許多嚴重的問題，並且會損失非常多資訊：

文字的順序是有意義的，但你思考一下我們有沒有可能保留文字順序?

F13_2

我們不可能有足夠完整的字典做同義字的整合及片語的蒐集。那這樣你應該能想像當我們使用詞袋模型時，必須對每個文章都產生極長的向量，這不但浪費並且容易過度擬合。
如果在未來應用時存在訓練樣本中未曾出現的單字，那分類器將「無法」利用這個資訊。

第三次人工智慧革命主要的突破是在影像辨識上，而目前為止我們已經了解了非常多圖像方面的任務都能透過卷積神經網路做出來。

– 如果我們想要把這個突破應用到其他領域上，那勢必要想個辦法連結圖片與該領域的關係，而目前看起來詞袋模型似乎並不合用。

– 雖然卷積網路雖然最初雖然是設計來做識別影像的，但只要我們能把「文字描述」轉為「圖片」格式，我們就一樣能利用卷積神經網路進行分類。

詞嵌入模型(2)

在討論詞袋模型的其他問題的時候，我們先考慮一下除了one hot encoding之外還有沒有合適的對單字進行編碼的方式?

– 有一種想法是先把文字轉為向量，並且盡可能讓相似詞的向量足夠相近，這個方法叫做詞嵌入(word embedding)

儘管從1980年代早期就有人有這種想法，但一直找不到合適的方式做出足夠好的詞嵌入模型，而在這裡最重大的突破當屬Google研究團隊在2013年發表的：Efficient Estimation of Word Representations in Vector Space

F13_3

這個方法後來被稱為「word2vec」，而它主要的邏輯是透過簡單的單隱藏層類神經網路產生詞嵌入對照表。

詞嵌入模型(3)

word2vec的想法非常簡單，假設兩個字的字義相似的話，那他們應該共享類似的上下文，舉例來說kidney與renal的意思很相近，所以慢性腎臟病可以同時被稱作chronic kidney disease也可以被稱作chronic renal disease。

– 因此，只要我們建構一個用上下文預測中間的字的模型，那當你輸入「chronic」以及「disease」並要求網路做出預測時，他會沒有辦法判斷該輸出「kidney」或者是「renal」，我們就能由此判斷這兩個字擁有相似的字意。

F13_4

詞嵌入模型(4)

讓我們先用剛剛處理過的例子來試試看word2vec的模型效果，我們統一用前6個字預測後1個字看看效果如何，我們要先把資料做一定程度的處理：

library(magrittr)

load('data/Discharge_Notes.RData')

lvl.word <- unlist(Processed_Notes) %>% as.factor %>% levels
lvl.word <- lvl.word[-1]
word.index <- 1:length(lvl.word)
names(word.index) <- lvl.word

Input_list <- list()
Output_list <- list()

for (i in 1:length(Processed_Notes)) {
  
  Continuous_word <- Processed_Notes[[i]][grep('[a-z]', Processed_Notes[[i]])]
  
  if (length(Continuous_word) > 6) {
    
    Input_list[[i]] <- array(0L, dim = c(6, length(Continuous_word) - 6))
    Output_list[[i]] <- rep(0L, length(Continuous_word) - 6)
    
    for (k in 1:ncol(Input_list[[i]])) {
      
      Input_list[[i]][,k] <- word.index[Continuous_word[k:(5+k)]]
      Output_list[[i]][k] <- word.index[Continuous_word[6+k]]
      
    }
    
  }
  
}

Input <- do.call('cbind', Input_list)
Output <- do.call('c', Output_list)

讓我們看看它相對應的預測以及輸出：

Input[,1:10]

##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,] 1613 2834  812 5816 1124 2342 1934 3658 1961  2851
## [2,] 2834  812 5816 1124 2342 1934 3658 1961 2851  5008
## [3,]  812 5816 1124 2342 1934 3658 1961 2851 5008  4166
## [4,] 5816 1124 2342 1934 3658 1961 2851 5008 4166  3764
## [5,] 1124 2342 1934 3658 1961 2851 5008 4166 3764  2342
## [6,] 2342 1934 3658 1961 2851 5008 4166 3764 2342  5435

Output[1:10]

##  [1] 1934 3658 1961 2851 5008 4166 3764 2342 5435 1613

詞嵌入模型(5)

以剛剛的例子而言(這還只是個小例子)，就已經有142556組訓練資料，並且由於5874個字詞，我們不可能預先把它轉為大矩陣的格式儲存。

– 因此我們會編寫特殊的Iterator，讓他能在執行時再產生完整的矩陣：

library(mxnet)

my_iterator_core <- function (batch_size) {
  
  batch = 0
  batch_per_epoch = length(Output)/batch_size
  
  reset = function() {batch <<- 0}
  
  iter.next = function() {
    batch <<- batch+1
    if (batch > batch_per_epoch) {return(FALSE)} else {return(TRUE)}
  }
  
  value = function() {
    idx = 1:batch_size + (batch - 1) * batch_size
    idx[idx > ncol(Input)] = sample(1:ncol(Input), sum(idx > ncol(Input)))
    data = array(0L, dim = c(length(lvl.word), batch_size))
    label = array(0L, dim = c(length(lvl.word), batch_size))
    for (i in 1:batch_size) {
      data[Input[,idx[i]],i] <- 1L
      label[Output[idx[i]],i] <- 1L
    }
    data = mx.nd.array(data)
    label = mx.nd.array(label)
    return(list(data = data, label = label))
  }
  
  return(list(reset = reset, iter.next = iter.next, value = value, batch_size = batch_size, batch = batch))
}

my_iterator_func <- setRefClass("Custom_Iter",
                                fields = c("iter", "batch_size"),
                                contains = "Rcpp_MXArrayDataIter",
                                methods = list(
                                  initialize = function(iter, batch_size = 100){
                                    .self$iter <- my_iterator_core(batch_size = batch_size)
                                    .self
                                  },
                                  value = function(){
                                    .self$iter$value()
                                  },
                                  iter.next = function(){
                                    .self$iter$iter.next()
                                  },
                                  reset = function(){
                                    .self$iter$reset()
                                  },
                                  finalize=function(){
                                  }
                                )
)

my_iter <- my_iterator_func(iter = NULL, batch_size = 100)

詞嵌入模型(6)

接著編寫Model architecture，這其實就是一個1層深的多層感知機：

data <- mx.symbol.Variable(name = 'data')
label <- mx.symbol.Variable(name = 'label')

fc1 <- mx.symbol.FullyConnected(data = data, num.hidden = 50, no.bias = TRUE, name = 'fc1')
fc2 <- mx.symbol.FullyConnected(data = fc1, num.hidden = length(lvl.word), no.bias = TRUE, name = 'fc2')
softmax_layer <- mx.symbol.SoftmaxOutput(data = fc2, label = label, name = 'sofmax_layer')

eps <- 1e-8
m_log <- 0 - mx.symbol.mean(mx.symbol.broadcast_mul(mx.symbol.log(softmax_layer + eps), label))
m_logloss <- mx.symbol.MakeLoss(m_log, name = 'm_logloss')

再編寫Optimizer的部分：

my_optimizer <- mx.opt.create(name = "sgd", learning.rate = 5e-3, momentum = 0, wd = 0)

並訓練模型：

my.eval.metric.loss <- mx.metric.custom(
  name = "m-log-loss",
  function(label, pred) {
    return(as.array(pred))
  }
)

word2vec_model <- mx.model.FeedForward.create(symbol = m_logloss, X = my_iter, optimizer = my_optimizer,
                                              array.batch.size = 100, ctx = mx.cpu(), num.round = 5,
                                              eval.metric = my.eval.metric.loss,
                                              batch.end.callback = mx.callback.log.speedometer(frequency = 200, batch.size = 100))

詞嵌入模型(7)

這個模型的loss不是重點，我們需要的是他的參數，我們可以透過這樣的方式取得詞嵌入矩陣：

word2vec_matrix <- t(as.array(word2vec_model$arg.params$fc2_weight))

假定我們有興趣的詞是「cancer」，我們有興趣看看有哪些字詞與他有相似度，這裡我們使用餘弦相似度(cosine similarity)做指標，而兩向量的餘弦值可透過下列公式計算：

\[\cos \theta = \frac{\vec{\mbox{vec}_1} \cdot \vec{\mbox{vec}_2}}{|\vec{\mbox{vec}_1}| \cdot |\vec{\mbox{vec}_2}|} \]

– 在R裡面的實現過程如下，你會發現與「cancer」最接近的字居然如此符合預期！

interested_pos <- word.index['cancer']
cos_similarity <- rep(0, length(lvl.word))
names(cos_similarity) <- lvl.word

for (i in 1:length(lvl.word)) {
  
  cos_similarity[i] <- word2vec_matrix[interested_pos,] %*% word2vec_matrix[i,] / sqrt(sum(word2vec_matrix[interested_pos,]^2)) / sqrt(sum(word2vec_matrix[i,]^2))
  
}

sort(cos_similarity, decreasing = TRUE) %>% head

##         cancer        adenoma         lesion adenocarcinoma          large 
##      1.0000000      0.9130057      0.8659733      0.8543842      0.8380871 
##        tubular 
##      0.8326128

詞嵌入模型(8)

你應該有注意到詞嵌入模型的訓練過程是不需要label的，所以我們可以把整個維基百科的字句下載下來，我們終將能訓練出一個更好的詞嵌入矩陣。

– 而這個詞嵌入矩陣最終將有辦法獲得更可靠的文字間的關係，並且能夠允許收納更多的單字。

儘管我們在MxNet中簡單的實現了一個小型的word2vec，但將他擴展到真實的維基百科訓練任務中並沒有這麼簡單，運算量的增長會非常大的限制了模型的訓練，因此實際在實現word2vec時其實用了非常多的演算法上的加速，但由於數學難度太高我們暫且跳過。
幸好的是word2vec由於變化性較小，直接使用別人已經寫好的套件是可以接受的選擇，我們這裡推薦直接使用bmschmidt/wordVectors進行模型的訓練，你只要準備好處理過後的文字檔即可，而訓練模型的教學檔可以參考他所寫的introduction
如果你還是不清楚整個詞嵌入模型的訓練過程，可以參考一下wevi: word embedding visual inspector，你可以設置不同的文字關係觀察最終的嵌入結果：

將文字變成圖像進行分析(1)

有了詞嵌入模型這項利器之後，我們就能根據相對應的文字把他轉換成向量，並且就能把整篇文章疊成一個矩陣！

– 為了較快實現後面的課程，這裡已經準備好了一個由英文Wiki上所有的文章中所訓練而成的詞嵌入矩陣，請點擊這裡下載！

library(magrittr)
library(dplyr)
library(plyr)
library(data.table)

word.data <- fread('data/wiki.txt', header = FALSE, showProgress = FALSE)

words.ref <- word.data %>% select(V1) %>% setDF %>% .[,1] %>% as.character
words.ref <- c("", words.ref)
words.index <- 1:length(words.ref)
names(words.index) <- words.ref

words.matrix <- word.data %>% select(-V1) %>% setDF %>% as.matrix
words.matrix <- rbind(rep(0, 50), words.matrix)

下一步，我們將能透過這種方式把某一篇文章給矩陣化：

load('data/Discharge_Notes.RData')

words_pos <- words.index[Processed_Notes[[1]]]
words_pos[is.na(words_pos)] <- 1
text_img.array <- t(words.matrix[words_pos,])
dim(text_img.array)

## [1]  50 301

讓我們看看他大概的樣子：

library(imager)

par(mai = rep(0, 4))
img <- text_img.array
img[img>2] <- 2
img[img<-2] <- -2
plot(as.cimg(t(img)))

將文字變成圖像進行分析(2)

變成圖像之後我們將能對其進行卷積神經網路的運用，但首先我們要先把所有的文章一起放到同個陣列之中。

– 至於文章長度不等的問題怎麼解決?其實也沒什麼好方法，就以最長的為準剩下填白吧：

max.length <- sapply(Processed_Notes, length) %>% max()
img_array <- array(0, dim = c(50, max.length, length(Processed_Notes)))

pb <- txtProgressBar(max = length(Processed_Notes), style = 3)

for (i in 1:length(Processed_Notes)) {
  
  words_pos <- words.index[Processed_Notes[[i]]]
  words_pos[is.na(words_pos)] <- 1
  img_array[,1:length(words_pos),i] <- t(words.matrix[words_pos,])
  setTxtProgressBar(pb, i)
  
}

close(pb)

讓我們看看這個矩陣的維度：

dim(img_array)

## [1]   50  494 4535

將文字變成圖像進行分析(3)

有了「文字圖」後，我們就能用卷積神經網路進行分析了，讓我們一樣把它分成Training set與Testing set：

Train.img_array <- img_array[,,1:3000]
Train.Y <- Cancer_code[1:3000]

Test.img_array <- img_array[,,3001:length(Cancer_code)]
dim(Test.img_array) <- c(dim(Test.img_array)[1:2], 1, dim(Test.img_array)[3])
Test.Y <- Cancer_code[3001:length(Cancer_code)]

現在讓我們來編寫Iterator：

library(mxnet)

my_iterator_core <- function (batch_size) {
  
  batch = 0
  batch_per_epoch = length(Train.Y)/batch_size
  
  reset = function() {batch <<- 0}
  
  iter.next = function() {
    batch <<- batch+1
    if (batch > batch_per_epoch) {return(FALSE)} else {return(TRUE)}
  }
  
  value = function() {
    idx = 1:batch_size + (batch - 1) * batch_size
    idx[idx > length(Train.Y)] = sample(1:length(Train.Y), sum(idx > length(Train.Y)))
    data = mx.nd.array(array(Train.img_array[,,idx], dim = c(dim(Train.img_array)[1:2], 1, batch_size)))
    label = mx.nd.array(array(Train.Y[idx], dim = c(1, batch_size)))
    return(list(data = data, label = label))
  }
  
  return(list(reset = reset, iter.next = iter.next, value = value, batch_size = batch_size, batch = batch))
}

my_iterator_func <- setRefClass("Custom_Iter",
                                fields = c("iter", "batch_size"),
                                contains = "Rcpp_MXArrayDataIter",
                                methods = list(
                                  initialize = function(iter, batch_size = 100){
                                    .self$iter <- my_iterator_core(batch_size = batch_size)
                                    .self
                                  },
                                  value = function(){
                                    .self$iter$value()
                                  },
                                  iter.next = function(){
                                    .self$iter$iter.next()
                                  },
                                  reset = function(){
                                    .self$iter$reset()
                                  },
                                  finalize=function(){
                                  }
                                )
)

my_iter <- my_iterator_func(iter = NULL, batch_size = 20)

要注意一下輸出的維度喔，進入卷積網路之前必須是一個4維矩陣：

my_iter$reset()
my_iter$iter.next()

## [1] TRUE

test_data <- my_iter$value()
dim(test_data$data)

## [1]  50 494   1  20

將文字變成圖像進行分析(4)

接著我們就能設計卷積器「掃描」整張圖，看有沒有符合的「word」了，這裡我們要特別設計我們的卷積核，由於50長度的向量能完整的描述一個字的意思，所以我們的卷積核必定要長度為50。

– 讓我們看看怎樣編寫Model architecture：

data <- mx.symbol.Variable(name = 'data')
label <- mx.symbol.Variable(name = 'label')

conv1 <- mx.symbol.Convolution(data = data, kernel = c(50, 1), num_filter = 50, name = 'conv1')
relu1 <- mx.symbol.Activation(data = conv1, act.type = 'relu', name = 'relu1')
pool1 <- mx.symbol.max(data = relu1, axis = 2:3, keepdims = FALSE, name = 'pool1')

fc1 <- mx.symbol.FullyConnected(data = pool1, num.hidden = 1, name = 'fc1')
logistic_pred <- mx.symbol.sigmoid(data = fc1, name = 'logistic_pred')

eps <- 1e-8
ce_loss_pos <-  mx.symbol.broadcast_mul(mx.symbol.log(logistic_pred + eps), label)
ce_loss_neg <-  mx.symbol.broadcast_mul(mx.symbol.log(1 - logistic_pred + eps), 1 - label)
ce_loss_mean <- 0 - mx.symbol.mean(ce_loss_pos + ce_loss_neg)
ce_loss <- mx.symbol.MakeLoss(ce_loss_mean, name = 'ce_loss')

這是Optimizer的部分：

my_optimizer <- mx.opt.create(name = "sgd", learning.rate = 0.05, momentum = 0.9, wd = 1e-4)

將文字變成圖像進行分析(5)

開始訓練模型：

my.eval.metric.loss <- mx.metric.custom(
  name = "cross-entropy",
  function(label, pred) {
    return(as.array(pred))
  }
)

my_model <- mx.model.FeedForward.create(symbol = ce_loss, X = my_iter, optimizer = my_optimizer,
                                        array.batch.size = 20, ctx = mx.cpu(), num.round = 30,
                                        eval.metric = my.eval.metric.loss,
                                        batch.end.callback = mx.callback.log.speedometer(frequency = 50, batch.size = 20))

用訓練好的模型來預測一下測試組：

my_model$symbol <- logistic_pred
pred_y <- predict(my_model, Test.img_array)

讓我們用ROC curve來評估模型的效果吧：

library(pROC)

roc_result <- roc(Test.Y, pred_y)
plot(roc_result, col = "red", main = paste0('AUC = ', formatC(roc_result$auc, 3, format = 'f')))

這個模型除了稍微準一點之外，更重要的是他解決了詞袋模型「無法」利用訓練樣本中未曾出現的單字，只要wikipedia曾經出現過這個單字他就會被配對到相似的向量！

– 另外，這樣的模型有更少的參數量，因此也會較難發生過度擬合的問題！

練習2：使用片語及短句進行預測

詞袋模型存在的問題還包含了片語使用上很困難，但這對卷積網路而言並不是問題！

– 讓我們參考一下Chin Lin等人發表的：Artificial Intelligence Learning Semantics via External Resources for Classifying Diagnosis Codes in Discharge Notes，看看人家是怎樣設計Model architecture的：

F13_5

試著重現一下這個工作吧！如果你覺得很困難的話，可以參考教學：ICD-10-CM diagnosis code tutorial

練習2答案

重現這個模型的關鍵只有Model architecture需要改變：

data <- mx.symbol.Variable(name = 'data')
label <- mx.symbol.Variable(name = 'label')

concat_lst <- NULL
filter_sizes <- 1:5
num_filter <- c(40, 30, 15, 10, 5)
  
for (i in 1:length(filter_sizes)) {
  
  convi <- mx.symbol.Convolution(data = data, kernel = c(50, filter_sizes[i]), num_filter = num_filter[i], name = paste0('conv', i))
  relui <- mx.symbol.Activation(data = convi, act_type = "relu", name = paste0('relu', i))
  pooli <- mx.symbol.max(data = relui, axis = 2:3, keepdims = FALSE, name = paste0('pool', i))
  concat_lst <- append(concat_lst, pooli)
  
}
  
h_pool <- mx.symbol.concat(data = concat_lst, num.args = length(filter_sizes), dim = 1, name = 'h_pool')
h_drop <- mx.symbol.Dropout(data = h_pool, p = 0.5, name = 'h_drop')
fc1 <- mx.symbol.FullyConnected(data = h_drop, num.hidden = 1, name = 'fc1')
logistic_pred <- mx.symbol.sigmoid(data = fc1, name = 'logistic_pred')

eps <- 1e-8
ce_loss_pos <-  mx.symbol.broadcast_mul(mx.symbol.log(logistic_pred + eps), label)
ce_loss_neg <-  mx.symbol.broadcast_mul(mx.symbol.log(1 - logistic_pred + eps), 1 - label)
ce_loss_mean <- 0 - mx.symbol.mean(ce_loss_pos + ce_loss_neg)
ce_loss <- mx.symbol.MakeLoss(ce_loss_mean, name = 'ce_loss')

開始訓練模型：

my.eval.metric.loss <- mx.metric.custom(
  name = "cross-entropy",
  function(label, pred) {
    return(as.array(pred))
  }
)

my_model <- mx.model.FeedForward.create(symbol = ce_loss, X = my_iter, optimizer = my_optimizer,
                                        array.batch.size = 20, ctx = mx.cpu(), num.round = 30,
                                        eval.metric = my.eval.metric.loss,
                                        batch.end.callback = mx.callback.log.speedometer(frequency = 50, batch.size = 20))

用訓練好的模型來預測一下測試組及用ROC curve來評估模型的效果：

my_model$symbol <- logistic_pred
pred_y <- predict(my_model, Test.img_array)
roc_result <- roc(Test.Y, pred_y)
plot(roc_result, col = "red", main = paste0('AUC = ', formatC(roc_result$auc, 3, format = 'f')))

在模型中進行詞嵌入(1)

其實在MxNet中也可以直接使用Embedding的功能，但其中有一些小地方與我們習慣的語法不同，讓我們看看整個過程要怎麼編寫。

– 首先一樣先把wiki的詞嵌入矩陣讀進來，並且為其第一列補0值作為空符號：

library(magrittr)
library(dplyr)
library(plyr)
library(data.table)

load('data/Discharge_Notes.RData')

word.data <- fread('data/wiki.txt', header = FALSE, showProgress = FALSE)

words.ref <- word.data %>% select(V1) %>% setDF %>% .[,1] %>% as.character
words.ref <- c("", words.ref)
words.index <- 1:length(words.ref)
names(words.index) <- words.ref

words.matrix <- word.data %>% select(-V1) %>% setDF %>% as.matrix
words.matrix <- rbind(rep(0, 50), words.matrix)

– 接著進行資料的整合，現在我們只存索引位置(等等讓MxNet自己查對照表)，要非常注意的是MxNet裡面的索引是從0開始編號而非像R裡面從1開始，所以我們需要把所有的編號通通減去1以滿足MxNet的需要：

max.length <- sapply(Processed_Notes, length) %>% max()
seq_array <- array(0, dim = c(max.length, length(Processed_Notes)))

pb <- txtProgressBar(max = length(Processed_Notes), style = 3)

for (i in 1:length(Processed_Notes)) {
  
  words_pos <- words.index[Processed_Notes[[i]]]
  words_pos[is.na(words_pos)] <- 1
  seq_array[1:length(words_pos),i] <- words_pos - 1 # very important
  setTxtProgressBar(pb, i)
  
}

close(pb)

在模型中進行詞嵌入(2)

接著後面的過程一樣先把它分成Training set與Testing set：

Train.seq_array <- seq_array[,1:3000]
Train.Y <- Cancer_code[1:3000]

Test.seq_array <- seq_array[,3001:length(Cancer_code)]
dim(Test.seq_array) <- c(max.length, 1, dim(Test.seq_array)[2])
Test.Y <- Cancer_code[3001:length(Cancer_code)]

再來編寫Iterator：

library(mxnet)

my_iterator_core <- function (batch_size) {
  
  batch = 0
  batch_per_epoch = length(Train.Y)/batch_size
  
  reset = function() {batch <<- 0}
  
  iter.next = function() {
    batch <<- batch+1
    if (batch > batch_per_epoch) {return(FALSE)} else {return(TRUE)}
  }
  
  value = function() {
    idx = 1:batch_size + (batch - 1) * batch_size
    idx[idx > length(Train.Y)] = sample(1:length(Train.Y), sum(idx > length(Train.Y)))
    data = mx.nd.array(array(Train.seq_array[,idx], dim = c(dim(Train.seq_array)[1], 1, batch_size)))
    label = mx.nd.array(array(Train.Y[idx], dim = c(1, batch_size)))
    return(list(data = data, label = label))
  }
  
  return(list(reset = reset, iter.next = iter.next, value = value, batch_size = batch_size, batch = batch))
}

my_iterator_func <- setRefClass("Custom_Iter",
                                fields = c("iter", "batch_size"),
                                contains = "Rcpp_MXArrayDataIter",
                                methods = list(
                                  initialize = function(iter, batch_size = 100){
                                    .self$iter <- my_iterator_core(batch_size = batch_size)
                                    .self
                                  },
                                  value = function(){
                                    .self$iter$value()
                                  },
                                  iter.next = function(){
                                    .self$iter$iter.next()
                                  },
                                  reset = function(){
                                    .self$iter$reset()
                                  },
                                  finalize=function(){
                                  }
                                )
)

my_iter <- my_iterator_func(iter = NULL, batch_size = 20)

在模型中進行詞嵌入(3)

Model architecture的部分比較特別，我們需要注意一下mx.symbol.Embedding對我們資料維度的影響：

data <- mx.symbol.Variable(name = 'data')
label <- mx.symbol.Variable(name = 'label')

embed1 <- mx.symbol.Embedding(data = data, input.dim = length(words.ref), output.dim = 50, name = 'embed1')

concat_lst <- NULL
filter_sizes <- 1:5
num_filter <- c(40, 30, 15, 10, 5)

for (i in 1:length(filter_sizes)) {
  
  convi <- mx.symbol.Convolution(data = embed1, kernel = c(50, filter_sizes[i]), num_filter = num_filter[i], name = paste0('conv', i))
  relui <- mx.symbol.Activation(data = convi, act_type = "relu", name = paste0('relu', i))
  pooli <- mx.symbol.max(data = relui, axis = 2:3, keepdims = FALSE, name = paste0('pool', i))
  concat_lst <- append(concat_lst, pooli)
  
}

h_pool <- mx.symbol.concat(data = concat_lst, num.args = length(filter_sizes), dim = 1, name = 'h_pool')
h_drop <- mx.symbol.Dropout(data = h_pool, p = 0.5, name = 'h_drop')
fc1 <- mx.symbol.FullyConnected(data = h_drop, num.hidden = 1, name = 'fc1')
logistic_pred <- mx.symbol.sigmoid(data = fc1, name = 'logistic_pred')

eps <- 1e-8
ce_loss_pos <-  mx.symbol.broadcast_mul(mx.symbol.log(logistic_pred + eps), label)
ce_loss_neg <-  mx.symbol.broadcast_mul(mx.symbol.log(1 - logistic_pred + eps), 1 - label)
ce_loss_mean <- 0 - mx.symbol.mean(ce_loss_pos + ce_loss_neg)
ce_loss <- mx.symbol.MakeLoss(ce_loss_mean, name = 'ce_loss')

– 用mx.symbol.infer.shape來檢查：

mx.symbol.infer.shape(embed1, data = c(494, 1, 20))$out.shapes

## $embed1_output
## [1]  50 494   1  20

Optimizer的部分與之前相同：

my_optimizer <- mx.opt.create(name = "sgd", learning.rate = 0.05, momentum = 0.9, wd = 1e-4)

在模型中進行詞嵌入(4)

下一步就是訓練模型，需要特別注意的是我們需要預先載入Embedding的權重，並且不允許Embedding的權重改變，所以編寫程式的方式不太一樣：

new_arg <- mxnet:::mx.model.init.params(symbol = logistic_pred, 
                                        input.shape = list(data = c(494, 1, 20)), 
                                        output.shape = NULL, initializer = mxnet:::mx.init.Xavier(rnd_type = "uniform", magnitude = 2.24), 
                                        ctx = mx.cpu())

new_arg$arg.params$embed1_weight <- mx.nd.array(t(words.matrix))

my.eval.metric.loss <- mx.metric.custom(
  name = "cross-entropy",
  function(label, pred) {
    return(as.array(pred))
  }
)

my_model <- mx.model.FeedForward.create(symbol = ce_loss, X = my_iter, optimizer = my_optimizer,
                                        array.batch.size = 20, ctx = mx.cpu(), num.round = 30,
                                        eval.metric = my.eval.metric.loss,
                                        arg.params = new_arg$arg.params, fixed.param = 'embed1_weight',
                                        batch.end.callback = mx.callback.log.speedometer(frequency = 50, batch.size = 20))

預測的時候也要小心，因為訓練時並沒有訓練到Embedding的權重，所以需要再補上：

my_model$symbol <- logistic_pred
my_model$arg.params <- append(my_model$arg.params, new_arg$arg.params['embed1_weight'])
pred_y <- predict(my_model, Test.seq_array)

使用ROC curve的過程就一樣了，而這跟我們練習2的答案不會有太大差別(只是程式語法上的改變)：

library(pROC)

roc_result <- roc(Test.Y, pred_y)
plot(roc_result, col = "red", main = paste0('AUC = ', formatC(roc_result$auc, 3, format = 'f')))

在模型中進行詞嵌入(5)

既然可以在MxNet中使用Embedding，那其實就代表了這是可以訓練的，而預先給入的權重其實是一種轉移特徵學習的手法。

– 但是wiki共有34萬多個單字，而這個月的病歷中僅僅存在5千多個單字，這代表的是假定允許模型訓練時更新詞嵌入矩陣的權重，那也僅僅有那5千多個單字的權重會改變

– 更嚴重的是，假設病歷中原先有H5N1這個單字而沒有H1N1，在最開始的時候他們兩個的向量本來是很接近的，會不會訓練一陣子之後就離開了?

所以在這樣的任務中假設我想要讓詞嵌入矩陣在訓練時也有所改進，比較好的方法是透過Network in Network的方式使其產生一個新的詞嵌入矩陣的映射：

F13_6

這只要修改Model architecture的部分：

data <- mx.symbol.Variable(name = 'data')
label <- mx.symbol.Variable(name = 'label')

embed1 <- mx.symbol.Embedding(data = data, input.dim = length(words.ref), output.dim = 50, name = 'embed1')
embed2 <- mx.symbol.Convolution(data = embed1, kernel = c(50, 1), num_filter = 50, no.bias = TRUE, name = 'embed2')

concat_lst <- NULL
filter_sizes <- 1:5
num_filter <- c(40, 30, 15, 10, 5)

for (i in 1:length(filter_sizes)) {
  
  convi <- mx.symbol.Convolution(data = embed2, kernel = c(1, filter_sizes[i]), num_filter = num_filter[i], name = paste0('conv', i))
  relui <- mx.symbol.Activation(data = convi, act_type = "relu", name = paste0('relu', i))
  pooli <- mx.symbol.max(data = relui, axis = 2:3, keepdims = FALSE, name = paste0('pool', i))
  concat_lst <- append(concat_lst, pooli)
  
}

h_pool <- mx.symbol.concat(data = concat_lst, num.args = length(filter_sizes), dim = 1, name = 'h_pool')
h_drop <- mx.symbol.Dropout(data = h_pool, p = 0.5, name = 'h_drop')
fc1 <- mx.symbol.FullyConnected(data = h_drop, num.hidden = 1, name = 'fc1')
logistic_pred <- mx.symbol.sigmoid(data = fc1, name = 'logistic_pred')

eps <- 1e-8
ce_loss_pos <-  mx.symbol.broadcast_mul(mx.symbol.log(logistic_pred + eps), label)
ce_loss_neg <-  mx.symbol.broadcast_mul(mx.symbol.log(1 - logistic_pred + eps), 1 - label)
ce_loss_mean <- 0 - mx.symbol.mean(ce_loss_pos + ce_loss_neg)
ce_loss <- mx.symbol.MakeLoss(ce_loss_mean, name = 'ce_loss')

– 注意一下維度的改變：

mx.symbol.infer.shape(embed1, data = c(494, 1, 20))$out.shapes

## $embed1_output
## [1]  50 494   1  20

mx.symbol.infer.shape(embed2, data = c(494, 1, 20))$out.shapes

## $embed2_output
## [1]   1 494  50  20

結語

語言相關的任務通常被稱作「自然語言處理(Natural Language Processing)」，由於相比圖像其規則更為複雜，因此是人工智慧領域非常具有挑戰性的領域。
詞袋模型這種直覺而簡單的分析方式，是這個領域最早被實際應用的方法之一，經過我們一系列的實驗之後你會發現它的效果其實沒有想像中差，因此一些像是垃圾郵件篩選服務目前可能還是用這種方式，他的高效及節省運算資源非常適合簡單任務的應用。

– 然而在較為複雜的任務中，為了保留語句的順序，我們不可能再使用one hot encoding的方式進行數值化，因此使用詞嵌入模型進行文字的處理已經是目前的主流，並且後續使用上卷積神經網路的結構非常優雅的解決了相似字與片語的問題，相較於傳統的詞袋模型在眾多複雜任務中效能也有很大的提升。

– 另外需要注意的是詞嵌入模型的運用仍有很多變化，像是是否允許更新詞嵌入矩陣的權重則端看你的任務而定，除此之外訓練詞嵌入模型所用的資料(wiki vs PubMed)也會影響他的效果，更甚者我們可以建造一個模型從字母開始產生單字的詞向量，這個部分眾多的變化是當代研究的熱點之一！

但是目前的方法就完美了嗎?如果你足夠清楚我們目前的「詞嵌入+卷積神經網路」架構的話，你會發現整個結構仍然在抓「重要的字以及片語」，但難道同樣的字出現在不同的地方意義完全相同?顯然不是這樣的。

– 在自然語言處理相關的任務中我們不斷的強調文字的順序是有意義的，因此我們需要一種結構能夠在抓取特徵的同時記錄上下文的資訊，而這個帶有記憶的結構我們會在下一週講到，並將其運用在我們的任務之中看看效能是否提升。

詞嵌入模型與其深度學習應用

詞袋模型(1)