R_tokenizer - アールメカブ

アールメカブ


R_tokenizer

Rの備忘録

_ R でテキストをトークンに区切ってベクトルオブジェクトにする.

pt1 <- proc.time()
text.raw <- readLines("dickens.txt")
text.vec <-  unlist(strsplit(text.raw, 
  split = "[[:blank:]]|[[:punct:]]",  
  extended = TRUE, perl = TRUE))
text.vec <- text.vec[text.vec != ""]

pt2 <- proc.time()
pt2 - pt1

length(text.vec)
 
Link: R_old_tips2(1745d) Rの備忘録(3781d)
Last-modified: 2007-12-06 (木) 12:04:12 (5985d)