R_tokenizer - RとLinuxと...

RとLinuxと...


R_tokenizer

Rの備忘録

_ R でテキストをトークンに区切ってベクトルオブジェクトにする.

pt1 <- proc.time()
text.raw <- readLines("dickens.txt")
text.vec <-  unlist(strsplit(text.raw, 
  split = "[[:blank:]]|[[:punct:]]",  
  extended = TRUE, perl = TRUE))
text.vec <- text.vec[text.vec != ""]

pt2 <- proc.time()
pt2 - pt1

length(text.vec)
 
Link: Rの備忘録(1823d)
Last-modified: 2007-12-06 (木) 12:04:12 (4027d)