RMeCab?パッケージ
統計解析・グラフィックス作成環境 R から日本語形態素解析ソフト和布蕪( MeCab )を呼び出して使うインターフェイス
R は ここ から,自分のOSにあったファイルをダウンロードしてください.例えばWindows版なら,[Windows]->[base]とクリックし,R-2.6.2-win32.exeをダウンロードします.後はダブルクリックを繰り返せばインストールできます.なお、Windows版の場合は起動直後に日本語の設定をしてください。メニューの [編集]->[GUIプリファレンス]->[Font] で MS Gothic を選び [save] を押して、そのままマイドキュメントに保存します。その後は [OK] を押して操作を続行します。なおRを終了させる際、workspace(作業情報)を保存するかと聞いてきますが,Yes でも No でもどちらでもお好みで。
ダウンロードの際、ファイル名を一切変更しないください! Rはインストール時に、ファイル名と中身のチェックを行います!ファイル名が中身の情報と一致しない場合、インストールを拒否します!
インストール手順
> kekka <- RMeCabC("すもももももももものうち") > unlist(kekka) # 名詞 助詞 名詞 助詞 名詞 助詞 名詞 #"すもも" "も" "もも" "も" "もも" "の" "うち"
# 第二引数 1 を加えると形態素原型を返します。
> kekka <- RMeCabC("ご飯を食べた",1) > unlist(kekka) # 名詞 助詞 動詞 助動詞 # "ご飯" "を" "食べる" "た" # > kekka <- RMeCabC("ご飯を食べた",0) > unlist(kekka) # 名詞 助詞 動詞 助動詞 # "ご飯" "を" "食べ" "た" > unlist(kekka) [names(unlist(kekka)) == "名詞"] # ご飯
# 入力する文章が長い場合は第三引数を指定してください
# 目安は入力する文章の文字数の2倍です。 > kekka <- RMeCabC("........を食べた",0, 2056)
インストール手順
$ cd Downloads $ tar zxvf mecab-0.97.tar.gz $ cd mecab-0.97 $ ./configure --with-charset=utf-8 $ make $ sudo make install
$ chmod 700 install-sh $ sudo make install
$ tar zxf mecab-ipadic-2.7.0-20070****.tar.gz $ cd mecab-ipadic-2.7.0-20070**** $ ./configure --with-charset=utf-8 $ make $ sudo make install
R_LIBS=/Users/ishida/Rlibsishida の部分は terminal 画面の $ マークの前に表示されているログイン名に変えてください.terminal上では以下のようにしても作成できます.
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron $ cat .Renviron
> library(RMeCab) > kekka <- RMeCabC("すもももももももものうち") > unlist(kekka)
# 第二引数 1 を加えると形態素原型を返します.
> kekka <- RMeCabC("ご飯を食べた",1) > unlist(kekka) # 名詞 助詞 動詞 助動詞 # "ご飯" "を" "食べる" "た" # > kekka <- RMeCabC("ご飯を食べた",0) > unlist(kekka) # 名詞 助詞 動詞 助動詞 # "ご飯" "を" "食べ" "た" > unlist(kekka) [names(unlist(kekka)) == "名詞"] # ご飯
# 入力する文章が長い場合は第三引数を指定してください
# 目安は入力する文章の文字数の2倍です。 > kekka <- RMeCabC("...を食べた",0, 2056)
> Sys.getlocale() > Sys.setlocale("LC_CTYPE", "ja_JP.UTF-8")を実行してみてください.