R_tmパッケージの使い方 のバックアップ差分(No.2) - アールメカブ

アールメカブ


R_tmパッケージの使い方 のバックアップ差分(No.2)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
* tm パッケージの使い方 [#ce227fa7]
* tm パッケージの使い方 [#v2dbabff]

#contents

- ファイルの指定
まずファイルをドキュメントクラスとして登録しなくてはいけない. TextDocCol()関数を使うことになるが,この引数は Source オブジェクトでなくてはいけない.で,Source オブジェクトとなりうるのは,どうも,ファイルのおかれたディレクトリへのパスらしい.

 file.obj <- "/Target/textDir"
 file.DC <- TextDocCol(DirSource(file.obj),
 alice.DC <- TextDocCol(DirSource(file.obj),
   readerControl = list(reader = readPlain,
    language = "en_US", load = TRUE))
 file.DC
 alice.DC #  show(alice.DC)
 A text document collection with 1 text document
 summary(alice.DC)
 inspect(alice.DC)
 
 # 余分な空白を削除
 alice.DC2 <- tmMap(alice.DC, stripWhitespace)
 
 # stopWords を削除する
 alice.DC3 <- tmMap(alice.DC2, removeWords, stopwords("english"))
 
 # Stemming を行う.
 alice.DC4 <-  tmMap(alice.DC3, stemDoc)
 
 inspect(alice.DC4)