SoftArchive のバックアップ(No.44) - アールメカブ

アールメカブ


SoftArchive のバックアップ(No.44)


software

  • 機能追加 2008年 08月23日: RMeCab? 本体にdocMatrix2()関数、docNgram2()関数、NgramDF2()関数を追加。それぞれ旧来のdocMatrix()関数、docNgram()関数、NgramDF()関数に機能を追加したもの。詳しくは、試用データセットfiledata2.zip (Windows), filedata2.tar.gz (Mac, Unix) の fileRMeCab.R コード内のコメント、あるいはマニュアル filemanual0823.pdfをご参照ください.

Rここ から,自分のOSにあったファイルをダウンロードしてください.例えばWindows版なら,[Windows]->[base]とクリックし,R-2.*.*-win32.exeをダウンロードします.後はダブルクリックを繰り返せばインストールできます.なお、Windows版の場合は起動直後に日本語の設定をしてください。メニューの [編集]->[GUIプリファレンス]->[Font] で MS Gothic を選び [save] を押して、保存先はデフォルトそのままにマイドキュメントに保存します。その後は [OK] を押して操作を続行します。なおRを終了させる際、workspace(作業情報)を保存するかと聞いてきますが,Yes でも No でもどちらでもお好みで。

_ 注意

ダウンロードの際、ファイル名を一切変更しないください! . Rはインストール時に、ファイル名と中身のチェックを行います.ファイル名が中身の情報と一致しない場合、インストールは行われません.特に Internet Explorer 6 はファイル名に [1] を付記することがあります.この場合は手作業でファイル名を元通りに変更してください.

_ 開発状況

  • 2008年 08月15日: RMeCab? 本体をアップデート(docMatrix()関数のメッセージを少し詳しいものに変更.RMeCabDF()関数に列番号と列名のどちらでも指定できるようにした)
  • 2008年 8月2日: Rのライブラリがユーザーホームにある場合の環境設定ファイルfileRMeCabInstallXP.batfileRMeCabInstallVista.bat を作成
  • 2008年 08月18日: RMeCab? 本体に関数を追加.docMatrixDF()関数は,データフレームの指定列を対象に文書・ターム行列を作成.あわせて,マニュアル filemanual0818.pdfとデータセット filedata.zip (Windows), filedata.tar.gz (Mac, Unix)を作成し直した.
  • 2008年 08月15日: RMeCab? 本体をアップデート(docMatrix()関数のメッセージを少し詳しいものに変更.RMeCabDF()関数に列番号と列名のどちらでも指定できるようにした)
  • 2008年 8月2日: Rのライブラリがユーザーホームにある場合の環境設定ファイルfileRMeCabInstallXP.batfileRMeCabInstallVista.bat を作成
  • 2008年 07月22日: RMeCab? 本体をアップデート(Ngram()関数の文字カウント機能のバグをフィックス)
  • 2008年 06月28日: docMatrix関数に出力メッセージを追加
  • 2008年 06月26日: RMeCab? 本体をアップデート(RMeCabC関数のメモリ関係のバグをフィックス)
  • 2008年 06月18日: RMeCab? 本体をアップデート(微調整で機能に変化なし)
  • 2008年 06月14日: RMeCab? 本体と試用データセットfilemanual.pdf をアップデート

_ 現在のヴァージョン

_ 使い方の手引き filemanual0818.pdf

  • お問い合わせはメールをください

ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp

_ バージョン 0.61 (R-2.7.1) 2008年 9月2日

  • メモリ関係の微調整:変数宣言の見直し
    • Windows バイナリ(R-2.7.1),バージョン 0.61fileRMeCab_0.61.zip と付属の環境設定ファイル
    • Macintosh バイナリ(R-2.7.1),バージョン 0.61fileRMeCab_0.61.tgz
    • Linux バイナリ(R-2.7.1),バージョン 0.61 fileRMeCab_0.61.tar.gz

_ バージョン 0.60 (R-2.7.1) 2008年 9月1日

  • メモリ関係の微調整:使われていない変数が残っていたので削除
    • Windows バイナリ(R-2.7.1),バージョン 0.60fileRMeCab_0.60.zip と付属の環境設定ファイル
    • Macintosh バイナリ(R-2.7.1),バージョン 0.60fileRMeCab_0.60.tgz
    • Linux バイナリ(R-2.7.1),バージョン 0.60 fileRMeCab_0.60.tar.gz

_ バージョン 0.59 (R-2.7.1) 2008年 8月23日

  • RMeCab? 本体にdocMatrix2()関数、docNgram2()関数、Ngram2()関数を追加。それぞれ旧来のdocMatrix()関数、docNgram()関数、Ngram()関数に機能を追加したもの。詳しくは、試用データセットfiledata2.zip (Windows), filedata2.tar.gz (Mac, Unix) の RMeCab?.Rコード内のコメント、あるいはマニュアル filemanual0823.pdfをご参照ください.
    • Windows バイナリ(R-2.7.1),バージョン 0.59fileRMeCab_0.59.zip と付属の環境設定ファイル
    • Macintosh バイナリ(R-2.7.1),バージョン 0.59fileRMeCab_0.59.tgz
    • Linux バイナリ(R-2.7.1),バージョン 0.59 fileRMeCab_0.59.tar.gz

_ バージョン 0.58 (R-2.7.0) 2008年 8月20日

  • 開発バージョン未公開

_ バージョン 0.57 (R-2.7.0) 2008年 8月18日

  • Windows バイナリ(R-2.7.0),バージョン 0.57fileRMeCab_0.57.zip と付属の環境設定ファイル
  • Macintosh バイナリ(R-2.7.0),バージョン 0.57fileRMeCab_0.57.tgz
  • Linux バイナリ(R-2.7.1),バージョン 0.57 fileRMeCab_0.57.tar.gz
    • 関数を新規追加.docMatrixDF()関数は,データフレームの指定された列から文書・ターム行列を作成する.引数はdocMatrix()関数と同じ(ただしtype引数はなく,形態素原型のみが抽出).pos引数で抽出する品詞,minFreq引数で全被験者(テキスト)での合計頻度の最低値,weight引数で重みを決める.

_ バージョン 0.56 (R-2.7.0) 2008年 8月15日

  • Windows バイナリ(R-2.7.0),バージョン 0.56fileRMeCab_0.56.zip と付属の環境設定ファイル fileRMeCabInstall.bat
  • Macintosh バイナリ(R-2.7.0),バージョン 0.56fileRMeCab_0.56.tgz
  • Linux バイナリ(R-2.7.1),バージョン 0.56 fileRMeCab_0.56.tar.gz
    • docMatrix関数を重みを付けないで実行する場合,行列情報を含む行が二つあることを表示するメッセージを追加した.RMeCabDF 関数で,第2引数に列番号の他,列名を指定できるようにした.

_ バージョン 0.55 (R-2.7.0) 2008年 7月22日

  • Windows バイナリ(R-2.7.0),バージョン 0.55fileRMeCab_0.55.zip と付属の環境設定ファイル fileRMeCabInstall.bat
  • Macintosh バイナリ(R-2.7.0),バージョン 0.55fileRMeCab_0.55.tgz
  • Linux バイナリ(R-2.7.0),バージョン 0.55 fileRMeCab_0.55.tar.gz
    • Ngram関数で type引数に 0 を指定した場合,つまり文字単位でN-gram を求めた場合,ファイル末尾の文字をカウントしていなかったのを修正.またマニュアルを少し修正追加した.

_ バージョン 0.54 (R-2.7.0) 2008年 6月26日

  • Windows バイナリ(R-2.7.0),バージョン 0.54fileRMeCab_0.54.zip と付属の環境設定ファイル fileRMeCabInstall.bat
  • Macintosh バイナリ(R-2.7.0),バージョン 0.54fileRMeCab_0.54.tgz
  • Linux バイナリ(R-2.7.0),バージョン 0.54 fileRMeCab_0.54.tar.gz
    • docMatrix関数に出力メッセージを追加; RMeCabC()関数のメモリ関係のバグをフィックス.

_ バージョン 0.53 (R-2.7.0) 2008年 6月18日

_ バージョン 0.52 (R-2.7.0) 2008年 6月14日

_ バージョン 0.51 2008年 6月13日

_ バージョン 0.50 2008年 5月12日

_ バージョン 0.49 β 2008年 5月5日

  • Windows バイナリ(R-2.7.0),バージョン 0.49&ref(): File not found: "RMeCab_0.49.zip" at page "SoftArchive"; と付属の環境設定ファイル fileRMeCabInstall.bat
  • Macintosh バイナリ(R-2.7.0),バージョン 0.49 &ref(): File not found: "RMeCab_0.49.tgz" at page "SoftArchive";
  • Linux バイナリ(R-2.7.0),バージョン 0.49 &ref(): File not found: "RMeCab_0.49.tar.gz" at page "SoftArchive";
    • バージョン 0.48 を R-2.7.0 でコンパイルした.

_ バージョン 0.48 β 2008年 5月5日

  • Windows バイナリ(R-2.6.2),バージョン 0.48&ref(): File not found: "RMeCab_0.48.zip" at page "SoftArchive"; と付属の環境設定ファイル fileRMeCabInstall.bat
  • Macintosh バイナリ(R-2.6.2),バージョン 0.48 &ref(): File not found: "RMeCab_0.48.tgz" at page "SoftArchive";
  • Linux バイナリ(R-2.6.2),バージョン 0.48 &ref(): File not found: "RMeCab_0.48.tar.gz" at page "SoftArchive";
    • ターム・文書行列作成の際の重みを見直した.局所的重みに「文書頻度 TF」,「対数頻度」,「バイナリ頻度」の 3 種類を,大域的重みに「IDF」,「大域的IDF」,「確率的IDF」,「エントロピー」の 4 種類,そしてコサイン正規化関数一つを実装し直した.

_ バージョン 0.47 β 2008年4月28日

  • Windows バイナリ,バージョン 0.47&ref(): File not found: "RMeCab_0.47.zip" at page "SoftArchive"; と付属の環境設定ファイル fileRMeCabInstall.bat
  • Macintosh バイナリ,バージョン 0.47 &ref(): File not found: "RMeCab_0.47.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.47 &ref(): File not found: "RMeCab_0.47.tar.gz" at page "SoftArchive";
    • docNgram(), makeNgram(), rmSing() 関数を追加.Ngramを作成する場合にディレクトリを指定可能とした.ディレクトリ内のファイルすべてについて Ngram を計り,行にテキスト名,列にNgram名を備えたデータフレームを返す.またMeCab? の出力から品詞情報が「記号」の要素を除く

_ バージョン 0.46

  • Windows バイナリ,バージョン 0.46&ref(): File not found: "RMeCab_0.46.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.46 &ref(): File not found: "RMeCab_0.46.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.46 &ref(): File not found: "RMeCab_0.46.tar.gz" at page "SoftArchive";
    • collocate 関数の出力から T-score, MI-score,対数尤度比(G^2)を求める関数 collScores()関数を追加.

_ バージョン 0.45

  • Windows バイナリ,バージョン 0.45 &ref(): File not found: "RMeCab_0.45.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.45 &ref(): File not found: "RMeCab_0.45.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.45 &ref(): File not found: "RMeCab_0.45.tar.gz" at page "SoftArchive";
    • collocate 関数の出力を修正。

_ バージョン 0.44

  • Windows バイナリ,バージョン 0.44 &ref(): File not found: "RMeCab_0.44.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.44 &ref(): File not found: "RMeCab_0.44.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.44 &ref(): File not found: "RMeCab_0.44.tar.gz" at page "SoftArchive";
    • collocate 関数の出力に総トークン数と,総形態素数に関する情報を追加

_ バージョン 0.43

  • Windows バイナリ,バージョン 0.43 &ref(): File not found: "RMeCab_0.43.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.43 &ref(): File not found: "RMeCab_0.43.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.43 &ref(): File not found: "RMeCab_0.43.tar.gz" at page "SoftArchive";
    • エラー処理を追加

_ バージョン 0.42

  • Windows バイナリ,バージョン 0.42 &ref(): File not found: "RMeCab_0.42.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.42 &ref(): File not found: "RMeCab_0.42.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.42 &ref(): File not found: "RMeCab_0.42.tar.gz" at page "SoftArchive";
    • N-gramカウント,およびコロケーションカウント用の関数を追加

_ バージョン 0.41

  • Windows バイナリ,バージョン 0.41 &ref(): File not found: "RMeCab_0.41.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.41 &ref(): File not found: "RMeCab_0.41.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.41 &ref(): File not found: "RMeCab_0.41.tar.gz" at page "SoftArchive";
    • バージョン 0.40 で文書行列に TF-IDF などの重み付けを行う場合, [ [TOTAL-TOKENS] ] 行や[ [LESS-THAN-1] ] 行まで含めて計算していたのを修正し,これらの行を削除した結果に重み付けを行うようにした.

_ バージョン 0.40

  • Windows バイナリ,バージョン 0.40 &ref(): File not found: "RMeCab_0.40.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.40 &ref(): File not found: "RMeCab_0.40.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.40 &ref(): File not found: "RMeCab_0.40.tar.gz" at page "SoftArchive";
    • バージョン 0.39 docMatrix()関数に minFreq オプションを復活させた.また品詞や最低頻度を指定して文書行列を出力する際,テキストの総語数などの情報を表示させる.例えばテキストの総token数は [ [TOTAL-TOKENS] ]という行に,また指定された品詞(pos <- c("名詞"," 形容詞","動詞") )のうち,指定された頻度(minFreq  =1) 未満のものを, [ [LESS-THAN-1] ] という行として,文書行列に含めた.

_ バージョン 0.39

  • Windows バイナリ,バージョン 0.39 &ref(): File not found: "RMeCab_0.39.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.39 &ref(): File not found: "RMeCab_0.39.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.39 &ref(): File not found: "RMeCab_0.39.tar.gz" at page "SoftArchive";
    • 文書ターム行列を作成する際,文書が大きいとメモリが足りなくなり R が落ちることがある。そこでC++ソースを見直して,メモリの調整を行った。

_ バージョン 0.38

  • Windows バイナリ,バージョン 0.38 &ref(): File not found: "RMeCab_0.38.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.38 &ref(): File not found: "RMeCab_0.38.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.38 &ref(): File not found: "RMeCab_0.38.tar.gz" at page "SoftArchive";
    • 文書ターム行列を作成する際,文書が大きいとメモリが足りなくなり R が落ちることがある。そこでC++ソースを見直して,メモリの調整を行った。

_ バージョン 0.37

  • Windows バイナリ,バージョン 0.37
  • Macintosh バイナリ,バージョン 0.37
  • Linux バイナリ,バージョン 0.37
    • 英文マニュアルを一部追加作成.MeCab? は辞書にない単語の原形を * として返してしまうことがあることに気がついた.
      陀多と云う男が一人
      陀多    名詞,一般,*,*,*,*,*

そこで,こうした場合,入力された語形をそのまま返すよう修正.またC++コードを見直して,メモリ管理を多少改善させた.に RMeCabDoc?()関数を追加.これに伴い,RMeCabDoc?.R,RMeCabDoc?.Rd を追加した.

_ バージョン 0.36

  • Windows バイナリ,バージョン 0.36 &ref(): File not found: "RMeCab_0.36.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.36 &ref(): File not found: "RMeCab_0.36.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.36 &ref(): File not found: "RMeCab_0.36.tar.gz" at page "SoftArchive";
    • 英文マニュアルを一部追加作成.docMatrix ()関数がファイルの一行目しか読んでいないバグを修正.C++コードに RMeCabDoc?()関数を追加.これに伴い,RMeCabDoc?.R,RMeCabDoc?.Rd を追加した.

_ バージョン 0.35

  • Windows バイナリ,バージョン 0.35 &ref(): File not found: "RMeCab_0.35.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.35 &ref(): File not found: "RMeCab_0.35.tgz" at page "SoftArchive";
  • Linux バイナリ,バージョン 0.35 &ref(): File not found: "RMeCab_0.35.tar.gz" at page "SoftArchive";
    • 英文マニュアルを一部作成.C++コードを一部手直した.それに関連して R コードを見直した.

_ バージョン 0.34

  • Windows バイナリ,バージョン 0.34
  • Macintosh バイナリ,バージョン 0.34
  • Linux バイナリ,バージョン 0.34
    • 日本語・文書ターム行列の作成関数を追加.また行列に重み(TF/IDF)をつけられるようにした.

_ バージョン 0.33

  • Windows バイナリ,バージョン 0.33 &ref(): File not found: "RMeCab_0.33.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.33 &ref(): File not found: "RMeCab_0.33.tgz" at page "SoftArchive";
    • データフレームを第一引数として,第二引数で指定された列に含まれる日本語文章を解析して返す.

_ バージョン 0.32

  • Windows バイナリ,バージョン 0.32 &ref(): File not found: "RMeCab_0.32.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.32 &ref(): File not found: "RMeCab_0.32.tgz" at page "SoftArchive";
    • ファイルを読み込んで形態素原型とその頻度表を作成し,データフレームとして返す関数を追加

_ バージョン 0.2

  • Windows バイナリ,バージョン 0.2 &ref(): File not found: "RMeCab_0.2.zip" at page "SoftArchive";
  • Macintosh バイナリ,バージョン 0.2 &ref(): File not found: "RMeCab_0.2.tgz" at page "SoftArchive";
    • 形態素原型をえるオプションを追加

_ バージョン 0.1

  • Linux バイナリ,バージョン 0.1
    • とりあえず動くだけのもの.

_ ご感想などのご報告

お問い合わせはメールをください

ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp