R_tokenizer のバックアップの現在との差分(No.1) - アールメカブ

アールメカブ


R_tokenizer のバックアップの現在との差分(No.1)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[Programming]]
[[Rの備忘録]]

* R でテキストをトークンに区切ってベクトルオブジェクトにする. [#a4d6412c]

 pt1 <- proc.time()
 alice.raw <- readLines("alice30.txt")
 alice.vec <-  unlist(strsplit(alice.raw, 
 text.raw <- readLines("dickens.txt")
 text.vec <-  unlist(strsplit(text.raw, 
   split = "[[:blank:]]|[[:punct:]]",  
   extended = TRUE, perl = TRUE))
 alice.vec <- alice.vec[alice.vec != ""]

 text.vec <- text.vec[text.vec != ""]
 
 pt2 <- proc.time()
 pt2 - pt1
 
 length(text.vec)

 length(alice.vec)