RMeCab のバックアップ(No.38) - アールメカブ

アールメカブ


RMeCab のバックアップ(No.38)


管理人 について : 参考ページ 統計的言語処理: 旧バージョン保管庫 SoftArchive


RMeCabパッケージ

和布蕪ってのはこれ
RMeCabパッケージは http://sites.google.com/site/rmecab/ にも置いてあります。 旧バージョンは http://groups.google.co.jp/group/rmecab にあります.
  • 2014 年 12 月 02 日 RMeCab_0.9998 for R-3.1.2 公開
  • 2014 年 04 月 12 日 RMeCab_0.9997 for R-3.1.1 公開
  • 2014 年 04 月 12 日 RMeCab_0.9996 for R-3.1.0 公開
  • 2014 年 03 月 10 日 RMeCab_0.9995 for R-3.0.3 公開 Mac/Maverick & Homebrew版Rに対応
  • 2013 年 12 月 17 日 RMeCab_0.9994 for R-3.0.2 公開 メモリ空間を拡張
  • 2013 年 10 月 21 日 RMeCab_0.9993 for R-3.0.2 公開 特に変更なし
  • 2013 年 08 月 23 日 RMeCab_0.9992 for R-3.0.1 公開 特に変更なし
  • 2013 年 04 月 04 日 RMeCab_0.9980/90 for R-3.0.0 公開 特に変更なし

Rここ から,自分のOSにあったファイルをダウンロードしてください.例えばWindows版なら,[Windows]->[base]とクリックし,R-2.*.*-win.exeをダウンロードします.後はダブルクリックを繰り返せばインストールできます.なお、Windows版の場合は起動直後に日本語の設定をしてください。メニューの [編集]->[GUIプリファレンス]->[Font] で MS Gothic を選び [save] を押して、保存先はデフォルトそのままにマイドキュメントに保存します。その後は [OK] を押して操作を続行します。なおRを終了させる際、[workspace(作業情報)を保存しますか] と聞いてきますが, No を選んでおきましょう。

_ 現在のヴァージョン

_ バージョン RMeCab_0.9998 ( R-3.1.2) 2014 年 12 月 2 日

  • Windows (32/64) 用バイナリ
  1. Rを起動して,以下のように入力してEnterキーを押してインストールして下さい.すでにMeCab?がインストールされていれば、これで完了です。
     install.packages ("RMeCab", repos = "http://rmecab.jp/R")
    1. あるいはhttp://web.ias.tokushima-u.ac.jp/linguistik/win.htmlから RMeCab_0.9***.zipをダウンロードしてください.
  • Mac Maverick 用 64 bit バイナリ
  1. Rを起動して,以下のように入力してEnterキーを押してインストールして下さい.別にMeCab?がインストールされていれば、これで完了です。
     install.packages ("RMeCab", repos = "http://rmecab.jp/R")
    1. あるいはhttp://web.ias.tokushima-u.ac.jp/linguistik/maverick.htmlから RMeCab_0.999*.tgzをダウンロードしてメニューのパッケージ「ローカルディスクのzipファイル」から読み込んでください.
    2. + アプリケーションフォルダ内の R を起動し,メニューの「パッケージとデータ」「パッケージインストーラー」「このコンピューター上のバイナリパッケージ」「インストール」ボタンで RMeCab_0.999*.tgz を選択します.
  • Mac Mountain Lion 用 64 bit バイナリ

http://web.ias.tokushima-u.ac.jp/linguistik/mlion.html からダウンロードしてください

  • Linux (Ubuntu)
  1. Rを起動して,以下のように入力してEnterキーを押してインストールして下さい.別にMeCab?がインストールされていれば、これで完了です。
     install.packages ("RMeCab", repos = "http://rmecab.jp/R")

_ Windows 版 RMeCab? (32/64 bit) インストール手順

http://code.google.com/p/mecab/downloads/list から mecab_0.996.exe をダウンロードしてインストールします.

インストール先は標準設定のまま C:\Program Files\MeCab あるいは C:\Program Files(x86)\MeCab とします.また文字コードは Shit-Jis のままとします.

  1. Rを起動して,以下のように入力してEnterキーを押してインストールして下さい.別にMeCab?がインストールされていれば、これで完了です。
     install.packages ("RMeCab", repos = "http://rmecab.jp/R")
    1. あるいは http://web.ias.tokushima-u.ac.jp/linguistik/win.html から RMeCab_0.9***.zipをダウンロードしてください.
      1. 次にダウンロードした RMeCab_***.zipをR 32 bit あるいは R 64 bit のいずれかで 1 回インストールします.どちらでも使えるようになります.*** の部分はバージョン番号です.
      2. R 32 bit あるいは R 64 bit のいずれかで 1 回インストールします.どちらでも使えるようになります. Rのメインメニューから[パッケージ]→[ローカルにあるzipファイルからのパッケージのインストール]を選んで,ダウンロードした RMeCab_***.zipファイルを選んでインストールします.[win-libraryを作成したいのですか] と聞いてきた時は OK を押してください(この際,R はユーザーフォルダを作成します). 以上でインストールは終了です

_ Windows版RMeCab_0.88までのインストール方法

_ Macintosh 版バイナリ のインストール方法

  1. MeCab?のインストール
    1. プログラムのソースをダウンロードしてインストールします。MacPort?からのインストールは推奨しません。
    2. MeCabソースからのインストールには 開発環境をインストールしておく必要があります.AppStore? から Xcode をインストールして下さい.Xcode で検索をかければ直ぐに出てきます.無料です. 続いてコマンドラインツールという追加機能をインストールします。時期によってインストール方法が違うので、Googleなどで検索してください。
      • たとえばXcode4.3ではメニューの [Preferences...]を選んだ後に[Downloads]をクリックし[Components]タブの[Command Line Tools]の右側にある[Install]ボタンをクリックします。Marverick + Xcode 5 では sudo xcode-select --install を実行します.Xcode5.1 では http://spl.co.jp/?p=35 を参考にしてください)。
      1. MeCabをインストールします. http://code.google.com/p/mecab/downloads/list からソース版mecab_0.996.tar.gz を取得します. 同じく http://code.google.com/p/mecab/downloads/list から 辞書mecab-ipadic-2.7.0-20070801.tar.gz http://code.google.com/p/mecab/downloads/detail?name=mecab-ipadic-2.7.0-20070801.tar.gz もダウンロードしてください(naist辞書を使うこともできます、このページ下を参照してください).バージョンを表す数字は適当に読み替えてください.
      2. terminalを起動して,ダウンロードしたフォルダに移動します.仮にこれを Downloads フォルダとします.
        $ cd Downloads 
        $ tar zxvf mecab-0.996.tar.gz #
          # #  $ tar zxvf mecab-0.98.tar.gz # RMeCab0.98 を使う場合
        $ cd mecab-0.996
        $ ./configure --with-charset="utf8"
        $ make
        # もしも Symbol _libconv 関連のエラーが出た場合は
        #    $ make clean
        #    $  ./configure --with-charset="utf8" LDFLAGS="-liconv"
        #    $ make
        #    とやり直して下さい
        
        $ sudo make install
        # $ sudo ldconfig ## Linux ではこれが必要
             ##  もしも sudo make install を実行すると make Error , Permission denied などと表示される場合は次のようにしてください.
             ## $ chmod 700 install-sh
             ## $ sudo make install
      3. 辞書もインストールします
        $ tar zxf mecab-ipadic-2.7.0-20070****.tar.gz
        $ cd mecab-ipadic-2.7.0-20070****
        $ ./configure --with-charset="utf-8"
        # # ここでエラーが出る場合は PATH を通してみてください
        # # 以下の一行を実行します.
        # # $ export PATH=/usr/local/bin:PATH
        $ make
        $ sudo make install
        #    試してみる
              $ mecab
              すもももももももものうち
              すもも    名詞,一般,*,*,*,*,すもも,スモモ,スモモ
              も    助詞,係助詞,*,*,*,*,も,モ,モ
              もも    名詞,一般,*,*,*,*,もも,モモ,モモ
              も    助詞,係助詞,*,*,*,*,も,モ,モ
              もも    名詞,一般,*,*,*,*,もも,モモ,モモ
              の    助詞,連体化,*,*,*,*,の,ノ,ノ
              うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
              EOS
              CtrlキーとC キーの同時押しで終了
              #  万が一 mecabが無いと言われた場合はPATHを通す
              # $ echo $PATH
              # # を実行して表示された内容に /usr/local/bin が含まれていない場合は
              # # ホームディレクトリに戻って
              # $ cd
              # # 次のコマンドを実行しておきます.
              # #  echo export PATH='/usr/local/bin:$PATH' >> ~/.profile
  2. 次に R を起動します.なおR-2.ではアプリケーションフォルダにはRが2種類あります. R64 を起動してください.R-3.0.0以降のバージョンではRアイコンは一つだけですので,Rを起動します.
    1. 64bit Maverick 用 Macintosh バイナリ
      1. 以下のように入力してEnterキーを押してインストールして下さい.MeCab?がインストールされていれば、これで完了です。
         install.packages ("RMeCab", repos = "http://rmecab.jp/R")
      2. + あるいはMaverick用バイナリはここからもダウンロードできます。
    2. 64bit Mountain Lion 用 Macintosh バイナリ
      1. http://web.ias.tokushima-u.ac.jp/linguistik/mlion.html から RMeCab? をダウンロードしてください
      2. + アプリケーションフォルダ内の R を起動し,メニューの「パッケージとデータ」「パッケージインストーラー」「このコンピューター上のバイナリパッケージ」「インストール」ボタンで RMeCab_0.99*0.tgz を選択します.
    3. 64bit Lion 用 Macintosh バイナリ
      1. http://web.ias.tokushima-u.ac.jp/linguistik/lion.html から RMeCab? をダウンロードしてください.
    4. 64bit Snow Leopard 用 Macintosh バイナリ mecab_0.994 をインストールして Snow Leopard 用 64 bit バイナリ版 R で利用する場合
      1. + http://web.ias.tokushima-u.ac.jp/linguistik/snow.html からダウンロードしてください
      2. ++ filemecab-0.98.tar.gz をインストールして Snow Leopard 用 64 bit バイナリ版 Rで使う場合 (R-2.14.1 アプリケーションのR64で利用) fileRMeCab_0.9902.tgz

開発環境の文字コードは UTF-8 でした. ご利用は自己責任でお願いします.

_ Linux 版 のインストール方法

  1. Rのインストール 以下の(1-1)か(1-2)のいずれかの手順でインストールします。
    1. (1-1)レポジトリからRをインストール
      $  sudo echo "deb http://cran.ism.ac.jp/bin/linux/ubuntu ???/ " >> /etc/apt/sources.list  #???をUbuntuのバージョンに合わせて修正
      # 詳細は http://cran.ism.ac.jp/bin/linux/ubuntu/README.html
      $ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 51716619E084DAB9
      $ sudo apt-get update
      $ sudo apt-get install r-base
      $ sudo apt-get install r-base-dev
    2. (1-2) あるいはR をソースからインストールする。以下の手順に従って下さい(--enable-R-shlib オプションを付けてconfigureしてください)
      sudo apt-get install build-essential gfortran xorg-dev
      sudo apt-get install libreadline-dev libcairo-dev
      tar zxf R-2.15.0.tar.gz
      cd R-2.15.0
      ./configure --enable-R-shlib 
      make
      sudo make install
  2. MeCab?のインストール MeCabを以下の(2-1)か(2-2)の方法でインストールします.
    1. (2-1) レポジトリからインストール
       sudo apt-get install mecab libmecab-dev 
       sudo apt-get install mecab-ipadic-utf8
    2. (2-2) あるいはソースからインストール http://code.google.com/p/mecab/downloads/list からソース版 mecab-0.996.tar.gzを取得します. 同じくhttp://code.google.com/p/mecab/downloads/list から 辞書mecab-ipadic-2.7.0-20070801.tar.gz http://code.google.com/p/mecab/downloads/detail?name=mecab-ipadic-2.7.0-20070801.tar.gz もダウンロードしてください(naist辞書を使うこともできます、このページ下を参照してください).バージョンを表す数字は適当に読み替えてください.
      1. terminalを起動して,ダウンロードしたフォルダに移動します.仮にこれを Downloads フォルダとします.
        $ cd Downloads
        $ tar zxvf mecab-0.996.tar.gz
        $ cd mecab-0.996
        $ ./configure --with-charset="utf8"
        $ make
        # もしも Symbol _libconv 関連のエラーが出た場合は
        #    $ make clean
        #    $  ./configure --with-charset="utf8" LDFLAGS="-liconv"
        #    $ make
        #    とやり直して下さい 
        $ sudo make install
        $ sudo ldconfig ## Linux ではこれが必要
      2. もしも sudo make install を実行すると make Error , Permission denied などと表示される場合は次のようにしてください.
        $ chmod 700 install-sh
        $ sudo make install
      3. 辞書もインストールします
        $ tar zxf mecab-ipadic-2.7.0-20070****.tar.gz
        $ cd mecab-ipadic-2.7.0-20070****
        $ ./configure --with-charset="utf-8"
        # ここでエラーが出る場合は PATH を通してみてください
        # 以下の一行を実行します.
        $ export PATH=/usr/local/bin:PATH
        $ make
        $ sudo make install
        # 今後のために PATH を追加しておくとよいでしょう
        $ echo $PATH
        # を実行して表示された内容に /usr/local/bin が含まれていない場合は
        # ホームディレクトリに戻って
        $ cd
        # 次のコマンドを実行しておきます.
        $ echo '/usr/local/bin:$PATH' >> .profile
  3. RMeCab?のインストール
    1. Rを起動して,以下のように入力してEnterキーを押してインストールして下さい.これで完了です。
       install.packages ("RMeCab", repos = "http://rmecab.jp/R")

_ RMeCab?の機能説明は別ページにしました.

_ 試用データセット (2009年11月25日修正)

filedata.zip(Windowsの方、Shift-Jis) : filedata.tar.gz (MacおよびUnixユーザーの方, utf-8 ファイル):

解凍後,中に含まれる data フォルダをドライブの先頭にコピーして,RMeCab?.R ファイル内のコードを実行します.詳しくはフォルダ内の README_RMeCab?.txt を読んでください.

_ RMeCabで辞書を指定

_ naist-jdicを使う

ここ を参照してください。

_ UniDic? を使う

ここ を参照してください。

_ Mac/Linuxで library(RMeCab?)でロードに失敗する場合

以下をコンソールで実行して再インストールしてください.

install.packages ("RMeCab", repos = "http://rmecab.jp/R", type = "source")

ソースファイルは以下に置いています。

https://bitbucket.org/motohiro_ishida/rmecab
https://github.com/IshidaMotohiro/RMeCab

_ FAQ

  • Q) RMeCab?の諸関数にファイルではなく、文字列を渡したい
  • A) 以下のようにしてください。
# # その1
tmp <- textConnection("tmp", "w")

writeLines ("国境の長いトンネルを抜けると雪国であった。夜の底が白くなった。信号所に汽車が止まった。向側の座席から娘が立って来て、島村の前のガラス窓を落とした。雪の冷気が流れ込んだ。",con =  tmp)
textConnectionValue(tmp)
readLines(tmp)

library(RMeCab)

RMeCabC(tmp)

RMeCabFreq(tmp)

close(tmp)

# # その2
dummy <- c ("私は真面目な学生です。", "彼女は数学専攻の学生です。", "彼らは物理学を専攻している。")
tmpdir <- tempdir ()

for (i in seq(dummy) ){
   td <- tempfile("tmp", tmpdir = tmpdir)
   write( dummy [i] ,  file = td)
   if (file.exists (td)) cat( td, "exists", "\n")
}

library (RMeCab)
x <- docMatrix (tmpdir)
x
  • お問い合わせはメールをください.関数の追加についても,気楽にご相談ください.

石田基広

ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp

_ R の参考書

テキストマイニングのためのツール: データ解析・グラフィックス環境 R から日本語形態素解析ソフト和布蕪(MeCab)を呼び出して使うインターフェイス

  • テキストマイニング入門RMeCabを利用したテキストマイニングについては を参照いただければ幸いです.
    • R のレファレンスです.
  • 初心者向けにRをいちから解説した入門書です.
    • 出版社のサイト
  • 中級者になるために.
  • 解析をばりばり行うために.
  • データをばりばり処理するために.
  • R のプログラミングテクニックを学ぶために.
  • R での解析手法に慣れるために.
  • とにかく R を使ってみたい.
  • 統計学と R を同時に学びたい.