R_tmパッケージの使い方 のバックアップ(No.3) - アールメカブ

アールメカブ


R_tmパッケージの使い方 のバックアップ(No.3)


_ tm パッケージの使い方

  • ファイルの指定 まずファイルをドキュメントクラスとして登録しなくてはいけない. TextDocCol?()関数を使うことになるが,この引数は Source オブジェクトでなくてはいけない.で,Source オブジェクトとなりうるのは,どうも,ファイルのおかれたディレクトリへのパスらしい.
file.obj <- "/Target/textDir"
alice.DC <- TextDocCol(DirSource(file.obj),
  readerControl = list(reader = readPlain,
   language = "en_US", load = TRUE))
alice.DC #  show(alice.DC)
A text document collection with 1 text document
summary(alice.DC)
inspect(alice.DC)

# 余分な空白を削除
alice.DC2 <- tmMap(alice.DC, stripWhitespace)

# stopWords を削除する
alice.DC3 <- tmMap(alice.DC2, removeWords, stopwords("english"))

# Stemming を行う.
alice.DC4 <-  tmMap(alice.DC3, stemDoc)

inspect(alice.DC4)