RMeCab?パッケージ
統計解析・グラフィックス作成環境 R から日本語形態素解析ソフト和布蕪( MeCab )を呼び出して使うインターフェイス
R は ここ から,自分のOSにあったファイルをダウンロードしてください.例えばWindows版なら,[Windows]->[base]とクリックし,R-2.6.2-win33.exeをダウンロードします.後はダブルクリックを繰り返せばインストールできます.なお、Windows版の場合は起動直後に日本語の設定をしてください。メニューの [編集]->[GUIプリファレンス]->[Font] で MS Gothic を選び [save] を押して、保存先はデフォルトそのままにマイドキュメントに保存します。その後は [OK] を押して操作を続行します。なおRを終了させる際、workspace(作業情報)を保存するかと聞いてきますが,Yes でも No でもどちらでもお好みで。
ダウンロードの際、ファイル名を一切変更しないください! . Rはインストール時に、ファイル名と中身のチェックを行います.ファイル名が中身の情報と一致しない場合、インストールを拒否します.特に Internet Explorer 6 はファイル名に [1] を付記することがあります.この場合は手作業でファイル名を元通りに変更してください.
インストール手順
インストール手順
$ cd Downloads $ tar zxvf mecab-0.97.tar.gz $ cd mecab-0.97 $ ./configure --with-charset=utf-8 $ make $ sudo make install
$ chmod 700 install-sh $ sudo make install
$ tar zxf mecab-ipadic-2.7.0-20070****.tar.gz $ cd mecab-ipadic-2.7.0-20070**** $ ./configure --with-charset=utf-8 $ make $ sudo make install
R_LIBS=/Users/ishida/Rlibsishida の部分は terminal 画面の $ マークの前に表示されているログイン名に変えてください.terminal上では以下のようにしても作成できます.
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron $ cat .Renviron
> Sys.getlocale() > Sys.setlocale("LC_CTYPE", "ja_JP.UTF-8")を実行してみてください.
> library(RMeCab) > kekka <- RMeCabC("すもももももももものうち") > unlist(kekka)
# 第二引数 1 を加えると形態素原型を返します.
> kekka <- RMeCabC("ご飯を食べた",1) > unlist(kekka) # 名詞 助詞 動詞 助動詞 # "ご飯" "を" "食べる" "た" # > kekka <- RMeCabC("ご飯を食べた",0) > unlist(kekka) # 名詞 助詞 動詞 助動詞 # "ご飯" "を" "食べ" "た" > unlist(kekka) [names(unlist(kekka)) == "名詞"] # ご飯
# 入力する文章が長い場合は第三引数を指定してください
# 目安は入力する文章の文字数の2倍です。 > kekka <- RMeCabC("...を食べた",0, 2056)
No,Reply 1,写真撮ってくれよ 2,写真とってください 3,写真とってね 4,写真とってください 5,写真とってね
と言うファイルが c:/work/photo.csv にあったとして
dat <- read.csv("c:/test/photo.csv", head = T)
#と読み込んで
RMeCabDF(dat, 2)
# datという読み込んだデータの二列目に日本語がある とすると,二列目のデータをすべて形態素解析にかけます.
[[1]] 名詞 動詞 助詞 動詞 助詞 "写真" "撮っ" "て" "くれ" "よ"
[[2]] 名詞 動詞 助詞 動詞 "写真" "とっ" "て" "ください"
# また
RMeCabDF(dat, 2, 1)
# とすると,形態素原型を返します.
# 入力する文章が長い場合は第四引数を指定してください
RMeCabDF(dat, 2, 1, 5120) # 全角2560文字 (5120/2)を想定
# カレントディレクトリ(getwd()で確認できます)にこんな中身のファイル sushi.txt &ref(): File not found: "sushi.txt" at page "software"; があったとして
#昨日寿司を食べたけど,今日も寿司を食べたいな.明日も寿司を食べたいな.寿司は体にとても良い.きっと頭にも良いだろう.
> kekka <- RMeCabFreq("sushi.txt") > kekka Term Morph1 Morph2 Freq 1 きっと 副詞 一般 1 2 とても 副詞 助詞類接続 1 3 う 助動詞 * 1 4 た 助動詞 * 1 5 たい 助動詞 * 2 6 だ 助動詞 * 1 7 は 助詞 係助詞 1 8 も 助詞 係助詞 3 9 けど 助詞 接続助詞 1 10 に 助詞 格助詞 2 11 を 助詞 格助詞 3 12 な 助詞 終助詞 2 13 食べる 動詞 自立 3 14 体 名詞 一般 1 15 寿司 名詞 一般 4 16 頭 名詞 一般 1 17 今日 名詞 副詞可能 1 18 明日 名詞 副詞可能 1 19 昨日 名詞 副詞可能 1 20 良い 形容詞 自立 2 21 . 記号 句点 4 22 , 記号 読点 1
# その他,和布蕪の出力をそのままリスト形式で出力する関数
> RMeCabText("test.txt") [[1]] [1] "昨日" "名詞" "副詞可能" "*" "*" "*" [7] "*" "昨日" "キノウ" "キノー" [[2]] [1] "寿司" "名詞" "一般" "*" "*" "*" "*" "寿司" "スシ" "スシ"
# デフォルトでは名詞と動詞,形容詞のみを抽出するが,pos 引数で変更可能.