Rの備忘録
_ R でテキストをトークンに区切ってベクトルオブジェクトにする.
pt1 <- proc.time()
text.raw <- readLines("dickens.txt")
text.vec <- unlist(strsplit(text.raw,
split = "[[:blank:]]|[[:punct:]]",
extended = TRUE, perl = TRUE))
text.vec <- text.vec[text.vec != ""]
pt2 <- proc.time()
pt2 - pt1
length(text.vec)