R_tokenizer の変更点 - アールメカブ

アールメカブ


R_tokenizer の変更点


[[Programming]]
[[Rの備忘録]]

* R でテキストをトークンに区切ってベクトルオブジェクトにする. [#a4d6412c]

 pt1 <- proc.time()
 text.raw <- readLines("dickens.txt")
 text.vec <-  unlist(strsplit(text.raw, 
   split = "[[:blank:]]|[[:punct:]]",  
   extended = TRUE, perl = TRUE))
 text.vec <- text.vec[text.vec != ""]
 
 pt2 <- proc.time()
 pt2 - pt1
 
 length(text.vec)