RMeCab のバックアップ(No.112) - アールメカブ

アールメカブ


RMeCab のバックアップ(No.112)


_ 基本

  • 2022 年 04 月 29 日 RMeCab_1.09 for R-4.2.0 (64bit・UTF-8のみ対応) 公開
  • 2022 年 04 月 29 日 RMeCab_1.08 for R-4.2.0 (64bit・UTF-8のみ対応) 公開
  • 2021 年 11 月 27 日 M1 MacOSX 用の注意を追記
  • 2021 年 05 月 27 日 RMeCab_1.07 for R-4.1.0 (M1 Mac 用バイナリを追加で作成) 公開
  • 2021 年 01 月 11 日 RMeCab_1.06 for R-4.0.3 (MacおよびLinuxでは辞書としてneologdを指定できるようになりました) 公開

R と MeCab? の両方が既にインストールされているのならば R を起動し、コンソールで以下を実行すればRMeCabパッケージのインストールは完了です。

 # Windows あるいは Mac の場合
 install.packages("RMeCab", repos = "http://rmecab.jp/R")
 install.packages("RMeCab", repos = "https://rmecab.jp/R")# httpsだとエラーになることがあります
 # Linux あるいは、Mac で上記の命令がエラーとなる場合 
 install.packages("RMeCab", repos = "https://rmecab.jp/R", type = "source") 
 install.packages("RMeCab", repos = "http://rmecab.jp/R", type = "source") # httpsだとエラーになることがあります

あるいは GitHub? からインストールもできます。

# Windows で Rtools4 と MeCab をすでにインストールしている場合、あるいはMac あるいは Linux の場合
install.packages("remotes")
remotes::install_github("IshidaMotohiro/RMeCab")

実行できるか、以下を試してみましょう。

library(RMeCab)
res <- RMeCabC("すもももももももものうち")
unlist (res)

次のように表示されれば、インストールは成功しています。(なお、利用辞書にneologdを設定している場合、"すもももももももものうち"全体が一語として表示されます)。

> unlist (res)
    名詞     助詞     名詞     助詞     名詞     助詞     名詞 
 "すもも"     "も"   "もも"     "も"   "もも"     "の"   "うち" 

MeCab?のインストールから始めたいという方は、以下、自身のOSに対応したセクションの解説を参照してください。 https://rmecab.jp/new/ でも説明しています(内容はこのページと同じです)。

_ 『Rで学ぶテキストマイニング』データセット(2017年06月30日修正)

https://github.com/IshidaMotohiro/TextMining

_ RMeCab?の機能説明は別ページにしました.


管理人 について : 参考ページ 統計的言語処理: 旧バージョン保管庫 SoftArchive


RMeCabパッケージ

和布蕪ってのはこれ
  • 2022 年 04 月 29 日 RMeCab_1.09 for R-4.2.0 (64bit・UTF-8のみ対応) 公開
  • 2021 年 05 月 27 日 RMeCab_1.07 for R-4.1.0 (M1 Mac 用バイナリを追加で作成) 公開
  • 2021 年 01 月 11 日 RMeCab_1.06 for R-4.0.3 公開 ipadicに加えneologd辞書 に対応しました。 /usr/local/etc/mecabrc を以下のように変更するか、オリジナルのmecabrcをホームフォルダに .mecabrc という名前で保存し以下のように変更してください。
    dicdir =  /usr/local/lib/mecab/dic/mecab-ipadic-neologd
    ;dicdir =  /usr/local/lib/mecab/dic/ipadic
  • 2020 年 04 月 28 日 RMeCab_1.05 for R-4.0.0 公開
  • 2019 年 06 月 10 日 RMeCab_1.04 for R-3.6.0 公開 RMeCabText?()を大規模テキストに適用可能とした
  • 2019 年 06 月 03 日 RMeCab_1.03 for R-3.6.0 公開 docDF() を大規模テキスト・データフレームに適用可能とした
  • 2019 年 05 月 27 日 RMeCab_1.02 for R-3.6.0 公開 使用メモリを拡張した
  • 2019 年 04 月 28 日 RMeCab_1.01 for R-3.6.0 公開
  • 2017 年 08 月 04 日 RMeCab_0.99999 for R-3.4.1 公開 一部の関数 (RMeCabText?(), RMeCabC()) でメモリ周りのエラーが生じることがあったのを修正しました
  • 2017 年 07 月 10 日 RMeCab_0.99998 for R-3.4.1 公開 一部の関数で解析対象となる文書ファイル数を 512 に制限していたのを解除
  • 2017 年 04 月 24 日 RMeCab_0.99997 for R-3.4.0 公開 docMatrixDF()関数(データフレームのテキスト列から文書単語行列を生成の出力で、列名を OBS からROW に変更。各列は、もとのデータフレームの行(回答者)に対応する
  • 2016 年 12 月 27 日 RMeCab_0.99995 for R-3.3.2 公開
  • 2016 年 05 月 06 日 RMeCab_0.99994 for R-3.3.0 公開
  • 2015 年 12 月 18 日 RMeCab_0.99993 for R-3.2.3 公開 リファクタリングを予定しているため、ソースを整理しました
  • 2015 年 12 月 11 日 RMeCab_0.99992 for R-3.2.3 公開 Windows版で、解析対象とするファイルの名前がアスキー文字列でない(つまりファイル名が日本語の)場合に、一部の関数がファイルの存在を認識しないことを修正
  • 2015 年 04 月 17 日 RMeCab_0.9999 for R-3.2.0 公開 ユーザーのmecabrcファイルを指定する際、パスにチルダが含まれているとRごと落ちることを修正
  • 2014 年 03 月 10 日 RMeCab_0.9995 for R-3.0.3 公開 Mac/Maverick & Homebrew版Rに対応
  • 2013 年 12 月 17 日 RMeCab_0.9994 for R-3.0.2 公開 メモリ空間を拡張

Rここ から,自分のOSにあったファイルをダウンロードしてください.例えばWindows版なら,[Windows]->[base]とクリックし,R-4.*.*-win.exeをダウンロードします.後はダブルクリックを繰り返せばインストールできます.なお、Windowsを利用している場合、パッケージのインストール先が OneDrive? にならないように気をつけてください。コンピュータのシステム設定でユーザ環境として R_USER に、自身の書き込み権限があり、かつ日本語全角文字を含まないフォルダを指定してください。

システム環境の設定
  • グラフで日本語を正しく表示させるために設定ファイルを用意します。以下をR のコンソールで実行すると、ホームフォルダに .Rprofile というファイルが作成されます。以降、は起動時にこのファイル内部の設定を読み込むので、グラフなどで日本語が正しく表示されます。
    source ("http://rmecab.jp/R/Rprofile.R")
    # この設定は次回の起動から有効になりますので、いったんRないしRStudioを終了させます

なおRを終了させる際、[workspace(作業情報)を保存しますか] と聞いてきますが, No を選んでおきましょう。

_ Windows 版 RMeCab? (32/64 bit) インストール手順

R-4.2.0 以降、オリジナルのMeCab?では動作しません。ここ https://github.com/ikegami-yukino/mecab/releases/tag/v0.996 から 64bit版MeCab?をダウンロードし、辞書としてUTF-8を指定してください(文字コード指定のダイアログが現れない場合はデフォルトでUTF-8がインストールされるようです)。また、RMeCab?で解析するファイルは UTF-8 で保存してください(WindowsのデフォルトはShift-JISであり、ニ全角文字が含まれるCSVファイルなどもRMeCab?に読ませる場合はUTF-8に変更してください)。

インストール先は標準設定のままとします( C:\Program Files\MeCab となっているはずです) .また文字コードは UTF-8 に変更します.

  1. Rを起動して,以下のように入力してEnterキーを押してインストールして下さい.別にMeCab?がインストールされていれば、これで完了です。注意:はじめてRとRStudioをインストールした場合、パッケージの追加作業はR本体を起動して行ってください。最初からRStudioを使うと、WindowsのOneDrive?にパッケージのインストール先が用意され、トラブルを起こすことがあります。最初にR本体でパッケージをインストールすると、以降、RStudioでも、パッケージのインストール先としてがC:/Users/****/Documents/R/win-library/認識されます。
     install.packages ("RMeCab", repos = "http://rmecab.jp/R")
    以上でインストールは完了です

_ Windows版RMeCab_0.88までのインストール方法

_ Mac OS X 版 のインストール方法

  1. MeCab?のインストール
    1. ソースからインストールするか、あるいはHomebrewを使ってインストールします。最初にソースからのインストールする方法を紹介します。次に、Homebrewを使う場合を説明します。なお、M1 (Apple silicon arm64 ) MacOSX には M1版R-arm64.pkgをインストールしてください。また、MeCab?をビルドするターミナルでRosettaが動かないように設定してください。さもないとArm64用MeCab?がビルドされません。詳細は https://rmecab.jp/new/forums/topic/rmecab%e3%81%ae%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab%e3%82%a8%e3%83%a9%e3%83%bc-2/#post-8111 を参照してください。
      1. MeCabソースからのインストール    まず開発環境をインストールしておく必要があります.「アプリケーション」の「ユーティリティー」フォルダにあるターミナルを起動します。以下のよう入力してEnterを押します。
        xcode-select --install
        xcode_c.png
        Xcodeを入手する必要はありません。コマンドラインツールだけをインストールします。ライセンスに同意すると、インストールが開始します。 MeCabをインストールします.なおHomebrew版MeCabを利用する場合はこちらを参照してください。 http://taku910.github.io/mecab/ からソース版mecab_0.996.tar.gz を取得します.
        和布蕪ってのはこれ
        続いて辞書mecab-ipadic-2.7.0-20070801.tar.gz もダウンロードしてください(naist辞書を使うこともできます、このページ下を参照してください). terminalを起動して,ダウンロードしたフォルダに移動します.仮にこれを Downloads フォルダとします.
        $ cd Downloads 
        $ tar zxvf mecab-0.996.tar.gz #
        $ cd mecab-0.996
        $ ./configure --with-charset="utf8"
        $ make
        # もしも Symbol _libconv 関連のエラーが出た場合は
        #    $ make clean
        #    $  ./configure --with-charset="utf8" LDFLAGS="-liconv"
        #    $ make
        #    とやり直して下さい 
        $ sudo make install
             ##  もしも sudo make install を実行すると make Error , Permission denied などと表示される場合は次のようにしてください.
             ## $ chmod 700 install-sh
             ## $ sudo make install
         辞書もインストールします
        $ cd ~/Downloads
        $ tar zxf mecab-ipadic-2.7.0-20070****.tar.gz
        $ cd mecab-ipadic-2.7.0-20070****
        $ ./configure --with-charset="utf-8"
        # # ここでエラーが出る場合は PATH を通してみてください
        # # 以下の一行を実行します.
        # # $ export PATH=/usr/local/bin:PATH
        $ make
        $ sudo make install
        #    試してみる
              $ mecab
              すもももももももものうち
              すもも    名詞,一般,*,*,*,*,すもも,スモモ,スモモ
              も    助詞,係助詞,*,*,*,*,も,モ,モ
              もも    名詞,一般,*,*,*,*,もも,モモ,モモ
              も    助詞,係助詞,*,*,*,*,も,モ,モ
              もも    名詞,一般,*,*,*,*,もも,モモ,モモ
              の    助詞,連体化,*,*,*,*,の,ノ,ノ
              うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
              EOS
              CtrlキーとC キーの同時押しで終了
              #  万が一 mecabが無いと言われた場合はPATHを通す
              # $ echo $PATH
              # # を実行して表示された内容に /usr/local/bin が含まれていない場合は
              # # ホームディレクトリに戻って
              # $ cd
              # # 次のコマンドを実行しておきます.
              # #  echo export PATH='/usr/local/bin:$PATH' >> ~/.profile
              以上でMeCabのインストールは終了です。
    2. あるいは Hombrew から MeCab? をインストール   (homebrew http://brew.sh/index_ja.html はマックで一般的に使われているパッケージ管理システムです。別途インストールが必要です)
    brew install mecab
    brew install mecab-ipadic

以上です。まれにHomebrewでは動作しない場合があります。その場合はHombrewでの辞書設定を参照ください。

  1. 準備が整ったので RMeCab?をインストールします。以下のように入力してEnterキーを押して下さい.これで完了です。
     install.packages ("RMeCab", repos = "http://rmecab.jp/R", type = "source")
    あるいは以下のようにしてもインストールできます。
    install.packages("devtools")
    devtools::install_github("IshidaMotohiro/RMeCab")
    以上でインストールは完了です
    1. バイナリファイルをダウンロードしたい場合for Mavericksあるいはfor Mountain Lionからもダウンロードできます。

_ Linux 版 のインストール方法

  1. Rのインストール 以下の(1-1)か(1-2)のいずれかの手順でインストールします。
    1. (1-1)レポジトリからRをインストール
      $  sudo echo "deb http://cran.ism.ac.jp/bin/linux/ubuntu ???/ " >> /etc/apt/sources.list  #???をUbuntuのバージョンに合わせて修正
      # 詳細は http://cran.ism.ac.jp/bin/linux/ubuntu/README.html
      $ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 51716619E084DAB9
      $ sudo apt-get update
      $ sudo apt-get install r-base
      $ sudo apt-get install r-base-dev
    2. (1-2) あるいはR をソースからインストールする。以下の手順に従って下さい(--enable-R-shlib オプションを付けてconfigureしてください)
      sudo apt-get install build-essential gfortran xorg-dev
      sudo apt-get install libreadline-dev libcairo-dev
      tar zxf R-3.2.2.tar.gz
      cd R-3.2.2
      ./configure --enable-R-shlib 
      make
      sudo make install
  2. MeCabをUbuntuレポジトリからか、あるいはソースからインストールしてください。
    1. (1-1)レポジトリからMeCab?をインストール
      sudo apt install  build-essential mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8
    2. ソースからMeCab?をインストール http://taku910.github.io/mecab/ からソース版 mecab-0.996.tar.gzを取得します. 同じく辞書 mecab-ipadic-2.7.0-20070801.tar.gz もダウンロードしてください(naist辞書を使うこともできます、このページ下を参照してください).バージョンを表す数字は適当に読み替えてください.
      1. terminalを起動して,ダウンロードしたフォルダに移動します.仮にこれを Downloads フォルダとします.
        $ cd Downloads
        $ tar zxvf mecab-0.996.tar.gz
        $ cd mecab-0.996
        $ ./configure --with-charset="utf8"
        $ make
        # もしも Symbol _libconv 関連のエラーが出た場合は
        #    $ make clean
        #    $  ./configure --with-charset="utf8" LDFLAGS="-liconv"
        #    $ make
        #    とやり直して下さい 
        $ sudo make install
        $ sudo ldconfig ## Linux ではこれが必要
      2. もしも sudo make install を実行すると make Error , Permission denied などと表示される場合は次のようにしてください.
        $ chmod 700 install-sh
        $ sudo make install
      3. 辞書もインストールします
        $ tar zxf mecab-ipadic-2.7.0-20070****.tar.gz
        $ cd mecab-ipadic-2.7.0-20070****
        $ ./configure --with-charset="utf-8"
        # ここでエラーが出る場合は PATH を通してみてください
        # 以下の一行を実行します.
        $ export PATH=/usr/local/bin:PATH
        $ make
        $ sudo make install
        # 今後のために PATH を追加しておくとよいでしょう
        $ echo $PATH
        # を実行して表示された内容に /usr/local/bin が含まれていない場合は
        # ホームディレクトリに戻って
        $ cd
        # 次のコマンドを実行しておきます.
        $ echo '/usr/local/bin:$PATH' >> .profile
  3. RMeCab?のインストール
    1. Rを起動して,以下のように入力してEnterキーを押してインストールして下さい.これで完了です。
       install.packages ("RMeCab", repos = "http://rmecab.jp/R", type = "source")
      あるいは以下のようにしてもインストールできます。
      install.packages("devtools")
      devtools::install_github("IshidaMotohiro/RMeCab")
      以上でインストールは完了です
      1. バイナリファイルはfor 32 bit あるいは for 64 bit でダウンロードできます。

_ 『Rで学ぶテキストマイニング』データセット(2015年12月17日修正)

解凍後,中に含まれる data フォルダをドライブの先頭にコピーして,RMeCab?.R ファイル内のコードを実行します.詳しくはフォルダ内の README_RMeCab?.txt を読んでください.

_ RMeCabで辞書を指定

_ neologd を使う

以下のようにインストールします。

$ git clone &#8211;depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n

インストール先の確認

$ mecab -d /usr/lib/mecab/dic/mecab-ipadic-neologd

動作確認

$ echo “8月3日に放送された「中居正広の金曜日のスマイルたちへ」(TBS系)で、1日たった5分でぽっこりおなかを解消するというダイエット方法を紹介。キンタ ロー。にも密着。” | mecab

RMeCab?でNeologdを使う準備

/usr/local/etc/mecabrc を開いて以下のように変更するか、オリジナルのこのmecabrcファイルをホームフォルダに .mecabrc という隠しファイルとして保存し、これを以下のように変更してください

; Configuration file of MeCab
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
; dicdir = /usr/local/lib/mecab/dic/ipadic
dicdir = /usr/local/lib/mecab/dic/mecab-ipadic-neologd

コマンドラインで、たとえば、以下のように操作します。

$ cp /usr/local/etc/mecabrc  ~/.mecabrc
$ sed -i -e 's/dicdir =  \/usr\/local\/lib\/mecab\/dic\/ipadic/dicdir = \/usr\/local\/lib\/mecab\/dic\/mecab-ipadic-neologd/' ~/.mecabrc 

_ naist-jdicを使う

ここ を参照してください。

_ UniDic? を使う

ここ を参照してください。

_ ソースファイルは以下に置いています。

https://github.com/IshidaMotohiro/RMeCab

_ FAQ

  • Q) RMeCab?の諸関数にファイルではなく、文字列を渡したい
  • A) 以下のようにしてください。
# # その1
tmp <- textConnection("kawabata", "w")

writeLines ("国境の長いトンネルを抜けると雪国であった。夜の底が白くなった。信号所に汽車が止まった。向側の座席から娘が立って来て、島村の前のガラス窓を落とした。雪の冷気が流れ込んだ。",con =  tmp)
textConnectionValue(tmp)
readLines(tmp)

library(RMeCab)

RMeCabC(tmp)

RMeCabFreq(tmp)

close(tmp)

# # その2
dummy <- c ("私は真面目な学生です。", "彼女は数学専攻の学生です。", "彼らは物理学を専攻している。")
tmpdir <- tempdir ()

for (i in seq(dummy) ){
   td <- tempfile("tmp", tmpdir = tmpdir)
   write( dummy [i] ,  file = td)
   if (file.exists (td)) cat( td, "exists", "\n")
}

library (RMeCab)
x <- docMatrix (tmpdir)
x

_ RMeCab?を引用いただく場合

以下のいずれかの方法でいかがでしょうか?

  • 著書を参考文献に記載いただくか
    • 石田基広 (2017) 『Rによるテキストマイニング入門第2版』森北出版(東京) 183頁
    • 石田基広 (2008) 『Rによるテキストマイニング入門』森北出版(東京) 173頁
  • あるいはRで以下のようにすると情報が表示されますので、これを参考にしていただく
    library(RMeCab)
    citation("RMeCab")
    Rでパッケージを引用する場合の一般的な書式です。ただし、この表示通りに引用しなければならないというわけではありません。

_ R の参考書

テキストマイニングのためのツール: データ解析・グラフィックス環境 R から日本語形態素解析ソフト和布蕪(MeCab)を呼び出して使うインターフェイス

  • テキストマイニング入門RMeCabを利用したテキストマイニングについては を参照いただければ幸いです.
    • R のレファレンスです.
  • 初心者向けにRをいちから解説した入門書です.
    • 出版社のサイト
  • R のレファレンスです.
  • 初心者向けにRをいちから解説した入門書です.
  • 中級者になるために.
  • 解析をばりばり行うために.
  • データをばりばり処理するために.
  • R のプログラミングテクニックを学ぶために.
  • R での解析手法に慣れるために.
  • とにかく R を使ってみたい.
  • 統計学と R を同時に学びたい.