[[Programming]] [[Rの備忘録]] * R でテキストをトークンに区切ってベクトルオブジェクトにする. [#a4d6412c] pt1 <- proc.time() alice.raw <- readLines("alice30.txt") alice.vec <- unlist(strsplit(alice.raw, text.raw <- readLines("dickens.txt") text.vec <- unlist(strsplit(text.raw, split = "[[:blank:]]|[[:punct:]]", extended = TRUE, perl = TRUE)) alice.vec <- alice.vec[alice.vec != ""] text.vec <- text.vec[text.vec != ""] pt2 <- proc.time() pt2 - pt1 length(text.vec) length(alice.vec)