* tm パッケージの使い方 [#v2dbabff] #contents - ファイルの指定 まずファイルをドキュメントクラスとして登録しなくてはいけない. TextDocCol()関数を使うことになるが,この引数は Source オブジェクトでなくてはいけない.で,Source オブジェクトとなりうるのは,どうも,ファイルのおかれたディレクトリへのパスらしい. file.obj <- "/Target/textDir" alice.DC <- TextDocCol(DirSource(file.obj), readerControl = list(reader = readPlain, language = "en_US", load = TRUE)) alice.DC # show(alice.DC) A text document collection with 1 text document summary(alice.DC) inspect(alice.DC) # 余分な空白を削除 alice.DC2 <- tmMap(alice.DC, stripWhitespace) # stopWords を削除する alice.DC3 <- tmMap(alice.DC2, removeWords, stopwords("english")) # Stemming を行う. alice.DC4 <- tmMap(alice.DC3, stemDoc) inspect(alice.DC4)