R_tokenizer のバックアップ差分(No.1) - アールメカブ

アールメカブ


R_tokenizer のバックアップ差分(No.1)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[Programming]]

* R でテキストをトークンに区切ってベクトルオブジェクトにする. [#a4d6412c]

 pt1 <- proc.time()
 alice.raw <- readLines("alice30.txt")
 alice.vec <-  unlist(strsplit(alice.raw, 
   split = "[[:blank:]]|[[:punct:]]",  
   extended = TRUE, perl = TRUE))
 alice.vec <- alice.vec[alice.vec != ""]

 pt2 <- proc.time()
 pt2 - pt1

 length(alice.vec)