R_tokenizer のバックアップ(No.1) - アールメカブ

アールメカブ


R_tokenizer のバックアップ(No.1)


Programming

_ R でテキストをトークンに区切ってベクトルオブジェクトにする.

pt1 <- proc.time()
alice.raw <- readLines("alice30.txt")
alice.vec <-  unlist(strsplit(alice.raw, 
  split = "[[:blank:]]|[[:punct:]]",  
  extended = TRUE, perl = TRUE))
alice.vec <- alice.vec[alice.vec != ""]
pt2 <- proc.time()
pt2 - pt1
length(alice.vec)