[[管理人>admin]] について : 参考ページ [[統計的言語処理]]: 形態素解析パッケージ [[RMeCab]] ---------- &size(20){&color(blue){[[RCaBoCha]]パッケージ};}; 日本語の係り受け関係を R で解析できるようにします.形態素解析パッケージ[[RMeCab]]もご参照ください. #contents * 実装済みの関数 [#e9db8318] 今のところ[[RCaBoCha]]パッケージには以下の三つの関数しかありません. &size(18){&color(blue){RCaBoCha};関数}; : CaBocha の単純な出力を返す. > kekka <- RCaBoCha("今日は鰻が食べたいな。") FROMAT_TREE = <DATE>今日</DATE>は---D 鰻が-D 食べたいな。 EOS > kekka # D1 は句の連番,D2 はその係り受け関係を表す Term1 Term2 POS D1 D2 1 今日 今日 名詞 1 2 2 は は 助詞 1 2 3 鰻 鰻 名詞 2 2 4 が が 助詞 2 2 5 食べ 食べる 動詞 3 -1 6 たい たい 助動詞 3 -1 7 な な 助詞 3 -1 8 。 。 記号 3 -1 &size(18){&color(blue){RCaBoChaFreq};関数}; : 否定の係りを判定して頻度を測る > kekka <- RCaBoChaFreq("今日は鰻が美味しいな. + 昨日は鰻が美味しくなかった。") > kekka Term1 Freq 1 が 2 2 た 1 3 な 1 4 は 2 5 今日 1 6 昨日 1 7 美味しい 1 8 美味しい+ない 1 9 鰻 2 &size(18){&color(blue){RCaBoChaFile};関数}; : ファイルを対象に否定の係りを判定して頻度を測る > kekka <- RCaBoChaFile("綺麗な花.txt") file = 綺麗な花.txt > kekka Term1 Freq 1 あの 1 2 この 1 3 その 1 4 だ 1 5 だ+ない 2 6 は 2 7 は+ない 1 8 も 1 9 綺麗 1 10 綺麗+ない 2 11 花 3 * CaBoCha 0.60 [#we305e34] [[ここからダウンロード:http://sourceforge.net/projects/cabocha/]]して,インストールしてください. Windowsではファイルをダブルクリックし,文字コードは Shift-JISを選び,後は[続ける]を押すだけです. Linux や Mac OS X ではかなり面倒な手続きが必要です.[[ここを参考にしてください>和布蕪他インストール]]. * 現在のヴァージョン [#k5093330] ** バージョン 0.01 (R-2.7.1) 2008年 8月27日 [#zdb23311] * &color(blue){&size(18){Windows 版バイナリ}; }; のインストール方法 [#af8cffd2] &ref(RCaBoCha_0.03.zip); (R-2.7.1) と 付属の環境設定ファイル -- &ref(RCaBoChaInstall.bat); (標準的なライブラリフォルダ設定の場合) -- &ref(RCaBoChaInstallXP.bat);(ライブラリフォルダがユーザーフォルダ内にあるXPの場合) -- &ref(RCaBoChaInstallVista.bat); (ライブラリフォルダがユーザーフォルダ内にあるVISTAの場合) &color(green){&size(20){インストール手順};}; + まず''&color(red){[[CaBoCha:http://CaBoCha.sourceforge.net/]]};''をインストールしてください.[[ここ:http://sourceforge.net/projects/cabocha/]] から win32バイナリをダウンロードしてインストールします.インストール先は標準設定のまま ''[[C:\Program Files\CaBoCha]]'' とします.また文字コードは Shit-Jis のままとします. + 次に ''&color(blue){RCaBoCha_***.zip};'' をRにインストールします.*** の部分はバージョン番号です.Rのメニューから''[パッケージ]''→''[ローカルにあるzipファイルからのパッケージのインストール]''を選んで,ダウンロードした ''&color(blue){RCaBoCha_***.zip};''ファイルを選んでインストールします.[win-libraryを作成したいのですか] と聞いてきた時は OK を押してください(この際,R はユーザーフォルダを作成します). + ここで,Rのライブラリフォルダがどこにあるかを確認してください.Rのコンソール画面で ''.libPaths() '' を実行すると分かります.通常はRがインストールされたフォルダになります. ++この結果の''最初の出力 ([1] のすぐ右横の表示内容)'' が [1] "C:/PROGRA~1/R/R-2*~*.*/library" のように (*の部分はバージョン番号)なっていれば,R 本体と同じ場所にあります.以下の手順の''4.''までを実行してください. ++ ''.libPaths() '' の''最初の出力''が [1] "C:\\Document and Settings\\ishida\\Documents/R/win-library/2.7" あるいは [1] "C:\\Users\\ishida\\Documents/R/win-library/2.7" のようにユーザー名を含んでいる場合は,ユーザーフォルダにライブラリはインストールされています.以下の手順の''4.'' は飛ばして,手順の''5.'',場合によっては ''6.'' までを実行してください. + 続いて, CaBoCha と R の両方が標準的なフォルダにインストールされた状態であり,またRのライブラリフォルダが R 本体と同じ場所にあれば,&ref(RCaBoChaInstall.bat); をダブルクリック してください.''これでインストールは完了です''.さっそく[[機能>RCaBoCha#kinou]]を試してみてください.なお[[試用データセット>#data]]を用意しました. + CaBoCha はデフォルトのままインストール先を変更しなかったが,Rのライブラリフォルダがユーザフォルダになっている場合,XPのユーザーであれば&ref(RCaBoChaInstallXP.bat); を,またVistaのユーザーは&ref(RCaBoChaInstallVista.bat); を実行して,環境設定を行ってください.これでインストールは完了です. + 以上です。なお、R 終了時にはワークスペースを保存しないことをお勧めします。言語解析結果は、一般に大きなオブジェクトになり、容量を必要とします。 + ''&color(red){ここまでの手順でうまく動作しない場合}; ''. ++ CaBoCha と R のインストール先を独自に変更した場合や RCaBoCha が動作しない場合は以下を手作業で実行してください. +++ CaBoChaをインストールしたフォルダ内の bin フォルダに ''&color(red){libcabocha.dll};'' ''&color(red){libcrtff.dll};'' というファイルがありますので,この二つを R のライブラリ関連フォルダ library にインストールされた RCaBoChaパッケージフォルダ内の ''libs'' フォルダ内にコピーします. +++ R のインストール先に RCaBoChaパッケージ用のライブラリフォルダが存在しない場合,別の場所,すなわちユーザーフォルダにインストールされた可能性があります. //''Vistaの場合'' (場合によっては XP でも) 、Rのインストール後にユーザーが追加したRライブラリ類は、&color(red){個人フォルダにインストールされていることがあります};. 例えば個人名のフォルダの中に ''「ドキュメント」''->''「R」''->''「win-library」''->''「2.*」''があり,その中に ''RCaBoCha\libs'' フォルダがあるかもしれません。Rのコンソール画面で ''.libPaths() ''と実行すると分かります.以下は Vista Home Basic にR-2.7.1をインストールし、続いて''RCaBoCha'' をインストールした直後に実行した結果です。 > .libPaths() [1] "C:\\Users\\ishida\\Documents/R/win-library/2.7" [2] "C:/PROGRA~1/R/R-27~1.1/library" この場合は ''&color(red){libcabocha.dll};'' と''&color(red){libcrftt.dll};'' を ''win-library/2.7'' の中の''[[RCaBoCha\libs]]'' というフォルダの中に手作業でコピーしてください。 ご利用は自己責任でお願いします. * &color(blue){&size(18){Mac 版バイナリ}; }; のインストール方法 [#nd01f207] &ref(RCaBoCha_0.03.tgz); (R-2.7.1) + R を起動します. メニューから'' [パッケージとデータ]→[パッケージインストーラ]''を選びます.一番上の''CRAN''と表示されているメニューを''[このコンピューター上のバイナリパッケージ]''に変更します.右下の ''installボタン''を押して,ダウンロードした ''&color(blue){RCaBoCha_***.tgz};''を選びます.*** の部分はバージョン番号です. ++ インストールする権限がないといわれた場合は,自分のホームに例えば RLibs などというフォルダを新規作成します。そして,やはりホームに ''.Renviron''というファイルを作成し,中身を次のように編集してください. R_LIBS=/Users/ishida/Rlibs ''ishida'' の部分は terminal 画面の $ マークの前に表示されているログイン名に変えてください.terminal上では以下のようにしても作成できます. $ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron $ cat .Renviron ++ その上で,Rを起動しなおして,再び''&color(blue){RCaBoCha_***.tgz};'' パッケージをインストールする手続きを行い、ファイルを選ぶ前に ウィンドウ下の ''[ユーザーエリア]'' にチェックを入れておきます. 以上です。なお、R 終了時にはワークスペースを保存しないことをお勧めします。言語解析結果は、一般に大きなオブジェクトになり、容量を必要とします。 ご利用は自己責任でお願いします. /////////// * &color(blue){&size(18){Linux 版バイナリ}; }; のインストール方法 [#a0fb2bc3] &ref(RCaBoCha_0.03.tar.gz); (R-2.7.1) R コンソールで次のように実行してください. > install.packages("RCaBoCha_0.03.tar.gz", lib.loc = ".", repos = NULL) > library(RCaBoCha) 以上です。なお、R 終了時にはワークスペースを保存しないことをお勧めします。言語解析結果は、一般に大きなオブジェクトになり、容量を必要とします。 * 試行用データ [#sba31629] &ref(dataRCaBoCha.zip); Shift JIS です。MacOSXやLinuxの方は、解答後の二つのファイルをUTF-8に変換してご利用ください。