RMeCab?パッケージ
統計解析・グラフィックス作成環境 R から日本語形態素解析ソフト和布蕪( MeCab )を呼び出して使うインターフェイス
R は ここ から,自分のOSにあったファイルをダウンロードしてください.例えばWindows版なら,[Windows]->[base]とクリックし,R-2.6.2-win32.exeをダウンロードします.後はダブルクリックを繰り返せばインストールできます.なお、Windows版の場合は起動直後に日本語の設定をしてください。メニューの [編集]->[GUIプリファレンス]->[Font] で MS Gothic を選び [save] を押して、保存先はデフォルトそのままにマイドキュメントに保存します。その後は [OK] を押して操作を続行します。なおRを終了させる際、workspace(作業情報)を保存するかと聞いてきますが,Yes でも No でもどちらでもお好みで。
ダウンロードの際、ファイル名を一切変更しないください! . Rはインストール時に、ファイル名と中身のチェックを行います.ファイル名が中身の情報と一致しない場合、インストールを拒否します.特に Internet Explorer 6 はファイル名に [1] を付記することがあります.この場合は手作業でファイル名を元通りに変更してください.
インストール手順
> kekka <- RMeCabC("すもももももももものうち")
> unlist(kekka)
# 名詞 助詞 名詞 助詞 名詞 助詞 名詞
#"すもも" "も" "もも" "も" "もも" "の" "うち"
# 第二引数 1 を加えると形態素原型を返します。
> kekka <- RMeCabC("ご飯を食べた",1)
> unlist(kekka)
# 名詞 助詞 動詞 助動詞
# "ご飯" "を" "食べる" "た"
#
> kekka <- RMeCabC("ご飯を食べた",0)
> unlist(kekka)
# 名詞 助詞 動詞 助動詞
# "ご飯" "を" "食べ" "た"
> unlist(kekka) [names(unlist(kekka)) == "名詞"]
# ご飯
# 入力する文章が長い場合は第三引数を指定してください
# 目安は入力する文章の文字数の2倍です。
> kekka <- RMeCabC("........を食べた",0, 2056)
# c:\work に,こんな中身のファイル sushi.txt &ref(): File not found: "sushi.txt" at page "software"; があったとして
#昨日寿司を食べたけど,今日も寿司を食べたいな.明日も寿司を食べたいな.寿司は体にとても良い.きっと頭にも良いだろう.
> kekka <- RMeCabFreq("c:/work/sushi.txt")
> kekka
Term Morph1 Morph2 Freq
1 きっと 副詞 一般 1
2 とても 副詞 助詞類接続 1
3 う 助動詞 * 1
4 た 助動詞 * 1
5 たい 助動詞 * 2
6 だ 助動詞 * 1
7 は 助詞 係助詞 1
8 も 助詞 係助詞 3
9 けど 助詞 接続助詞 1
10 に 助詞 格助詞 2
11 を 助詞 格助詞 3
12 な 助詞 終助詞 2
13 食べる 動詞 自立 3
14 体 名詞 一般 1
15 寿司 名詞 一般 4
16 頭 名詞 一般 1
17 今日 名詞 副詞可能 1
18 明日 名詞 副詞可能 1
19 昨日 名詞 副詞可能 1
20 良い 形容詞 自立 2
21 . 記号 句点 4
22 , 記号 読点 1
# その他,和布蕪の出力をそのままリスト形式で出力する関数
> RMeCabText("test.txt")
[[1]]
[1] "昨日" "名詞" "副詞可能" "*" "*" "*"
[7] "*" "昨日" "キノウ" "キノー"
[[2]]
[1] "寿司" "名詞" "一般" "*" "*" "*" "*" "寿司" "スシ" "スシ"
インストール手順
$ cd Downloads $ tar zxvf mecab-0.97.tar.gz $ cd mecab-0.97 $ ./configure --with-charset=utf-8 $ make $ sudo make install
$ chmod 700 install-sh $ sudo make install
$ tar zxf mecab-ipadic-2.7.0-20070****.tar.gz $ cd mecab-ipadic-2.7.0-20070**** $ ./configure --with-charset=utf-8 $ make $ sudo make install
R_LIBS=/Users/ishida/Rlibsishida の部分は terminal 画面の $ マークの前に表示されているログイン名に変えてください.terminal上では以下のようにしても作成できます.
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron $ cat .Renviron
> library(RMeCab)
> kekka <- RMeCabC("すもももももももものうち")
> unlist(kekka)
# 第二引数 1 を加えると形態素原型を返します.
> kekka <- RMeCabC("ご飯を食べた",1)
> unlist(kekka)
# 名詞 助詞 動詞 助動詞
# "ご飯" "を" "食べる" "た"
#
> kekka <- RMeCabC("ご飯を食べた",0)
> unlist(kekka)
# 名詞 助詞 動詞 助動詞
# "ご飯" "を" "食べ" "た"
> unlist(kekka) [names(unlist(kekka)) == "名詞"]
# ご飯
# 入力する文章が長い場合は第三引数を指定してください
# 目安は入力する文章の文字数の2倍です。
> kekka <- RMeCabC("...を食べた",0, 2056)
# カレントディレクトリ(getwd()で確認できます)にこんな中身のファイル sushi.txt &ref(): File not found: "sushi.txt" at page "software"; があったとして
#昨日寿司を食べたけど,今日も寿司を食べたいな.明日も寿司を食べたいな.寿司は体にとても良い.きっと頭にも良いだろう.
> kekka <- RMeCabFreq("sushi.txt")
> kekka
Term Morph1 Morph2 Freq
1 きっと 副詞 一般 1
2 とても 副詞 助詞類接続 1
3 う 助動詞 * 1
4 た 助動詞 * 1
5 たい 助動詞 * 2
6 だ 助動詞 * 1
7 は 助詞 係助詞 1
8 も 助詞 係助詞 3
9 けど 助詞 接続助詞 1
10 に 助詞 格助詞 2
11 を 助詞 格助詞 3
12 な 助詞 終助詞 2
13 食べる 動詞 自立 3
14 体 名詞 一般 1
15 寿司 名詞 一般 4
16 頭 名詞 一般 1
17 今日 名詞 副詞可能 1
18 明日 名詞 副詞可能 1
19 昨日 名詞 副詞可能 1
20 良い 形容詞 自立 2
21 . 記号 句点 4
22 , 記号 読点 1
# その他,和布蕪の出力をそのままリスト形式で出力する関数
> RMeCabText("test.txt")
[[1]]
[1] "昨日" "名詞" "副詞可能" "*" "*" "*"
[7] "*" "昨日" "キノウ" "キノー"
[[2]]
[1] "寿司" "名詞" "一般" "*" "*" "*" "*" "寿司" "スシ" "スシ"
> Sys.getlocale()
> Sys.setlocale("LC_CTYPE", "ja_JP.UTF-8")
を実行してみてください.