R_tokenizer のバックアップソース(No.1) - アールメカブ

アールメカブ


R_tokenizer のバックアップソース(No.1)

[[Programming]]

* R でテキストをトークンに区切ってベクトルオブジェクトにする. [#a4d6412c]

 pt1 <- proc.time()
 alice.raw <- readLines("alice30.txt")
 alice.vec <-  unlist(strsplit(alice.raw, 
   split = "[[:blank:]]|[[:punct:]]",  
   extended = TRUE, perl = TRUE))
 alice.vec <- alice.vec[alice.vec != ""]

 pt2 <- proc.time()
 pt2 - pt1

 length(alice.vec)