SoftArchive のバックアップ差分(No.39) - アールメカブ

アールメカブ


SoftArchive のバックアップ差分(No.39)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[software]]



#contents

* 試用データセット(2008年6月14日修正) [#eacb4dfc]
&ref(testSetWin.zip);(Windowsの方、Shift-Jis) : &ref(testSetUnix.tar.gz); (MacおよびUnixユーザーの方, utf-8 ファイル): 解凍後,中に含まれる data フォルダごとドライブの先頭などにコピーして,その中の''RMeCab.R'' ファイル内のコードを実行します.詳しくはフォルダ内の ''README.txt'' を読んでください.


* RMeCabパッケージ [#e01ed756]

&size(18){[[R:http://cran.md.tsukuba.ac.jp/]]}; から日本語形態素解析ソフト''&color(blue){和布蕪};( [[MeCab:http://mecab.sourceforge.net/]] )''を呼び出して使うインターフェイス
- &color(green){2008年 08月18日: RMeCab 本体に関数を追加.docMatrixDF()関数は,データフレームの指定列を対象に文書・ターム行列を作成.};
- &color(green){2008年 08月18日: RMeCab 本体に関数を追加.docMatrixDF()関数は,データフレームの指定列を対象に文書・ターム行列を作成.あわせて,マニュアル &ref(SoftArchive/manual0818.pdf);とデータセット &ref(SoftArchive/data.zip); (Windows), &ref(SoftArchive/data.tar.gz); (Mac, Unix)を作成し直した.};
- &color(green){2008年 08月15日: RMeCab 本体をアップデート(docMatrix()関数のメッセージを少し詳しいものに変更.RMeCabDF()関数に列番号と列名のどちらでも指定できるようにした)};
- &color(green){2008年 8月2日: Rのライブラリがユーザーホームにある場合の環境設定ファイル&ref(SoftArchive/RMeCabInstallXP.bat); と&ref(SoftArchive/RMeCabInstallVista.bat); を作成};
- &color(green){2008年 07月22日: RMeCab 本体をアップデート(Ngram()関数の文字カウント機能のバグをフィックス)};
- &color(green){2008年 06月28日: docMatrix関数に出力メッセージを追加};
- &color(green){2008年 06月26日: RMeCab 本体をアップデート(RMeCabC関数のメモリ関係のバグをフィックス)};
- &color(green){2008年 06月18日: RMeCab 本体をアップデート(微調整で機能に変化なし)};
- &color(green){2008年 06月14日: RMeCab 本体と[[試用データセット>#data]]と&ref(RMeCab/manual.pdf); をアップデート};
//- &color(green){2008年 06月13日: RMeCab本体,testSet データとmanual.pdf  をアップデート};


#contents

&size(18){[[R:http://cran.md.tsukuba.ac.jp/]]}; は [[ここ:http://cran.md.tsukuba.ac.jp/]] から,自分のOSにあったファイルをダウンロードしてください.例えばWindows版なら,''[Windows]->[base]''とクリックし,''R-2.*.*-win32.exe''をダウンロードします.後はダブルクリックを繰り返せばインストールできます.なお、Windows版の場合は起動直後に日本語の設定をしてください。メニューの
''[編集]->[GUIプリファレンス]->[Font]'' で ''MS Gothic'' を選び
''[save]'' を押して、保存先はデフォルトそのままに''マイドキュメント''に保存します。その後は  ''[OK]'' を押して操作を続行します。なおRを終了させる際、workspace(作業情報)を保存するかと聞いてきますが,Yes でも No でもどちらでもお好みで。

* 注意 [#heaccda4]
ダウンロードの際、''&color(red){ファイル名を一切変更しないください!};'' . Rはインストール時に、ファイル名と中身のチェックを行います.ファイル名が中身の情報と一致しない場合、インストールは行われません.特に Internet Explorer 6 はファイル名に [1] を付記することがあります.この場合は手作業でファイル名を元通りに変更してください.

* 現在のヴァージョン [#m8771ef5]
**  使い方の手引き &ref(RMeCab/manual.pdf); [#g4eabbab]
**  使い方の手引き &ref(SoftArchive/manual0818.pdf); [#g4eabbab]
-- お問い合わせはメールをください

ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp
** バージョン 0.57 (R-2.7.0) 2008年 8月18日 [#x950059a]
- Windows バイナリ(R-2.7.0),バージョン 0.57&ref(SoftArchive/RMeCab_0.57.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.57&ref(SoftArchive/RMeCab_0.57.tgz); 
- Linux バイナリ(R-2.7.1),バージョン 0.57 &ref(SoftArchive/RMeCab_0.57.tar.gz); 
-- 関数を新規追加.docMatrixDF()関数は,データフレームの指定された列から文書・ターム行列を作成する.引数はdocMatrix()関数と同じ(ただしtype引数はなく,形態素原型のみが抽出).pos引数で抽出する品詞,minFreq引数で被験者全体を通じての最低頻度,weight引数で重みを決める.


** バージョン 0.56 (R-2.7.0) 2008年 8月15日 [#cd4fe042]
- Windows バイナリ(R-2.7.0),バージョン 0.56&ref(SoftArchive/RMeCab_0.56.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.56&ref(SoftArchive/RMeCab_0.56.tgz); 
- Linux バイナリ(R-2.7.1),バージョン 0.56 &ref(SoftArchive/RMeCab_0.56.tar.gz); 
-- docMatrix関数を重みを付けないで実行する場合,行列情報を含む行が二つあることを表示するメッセージを追加した.RMeCabDF 関数で,第2引数に列番号の他,列名を指定できるようにした. 

** バージョン 0.55 (R-2.7.0) 2008年 7月22日 [#l568ac8f]
- Windows バイナリ(R-2.7.0),バージョン 0.55&ref(SoftArchive/RMeCab_0.55.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.55&ref(SoftArchive/RMeCab_0.55.tgz); 
- Linux バイナリ(R-2.7.0),バージョン 0.55 &ref(SoftArchive/RMeCab_0.55.tar.gz); 
-- Ngram関数で type引数に 0 を指定した場合,つまり文字単位でN-gram を求めた場合,ファイル末尾の文字をカウントしていなかったのを修正.またマニュアルを少し修正追加した.

** バージョン 0.54 (R-2.7.0) 2008年 6月26日 [#o78f59dc]
- Windows バイナリ(R-2.7.0),バージョン 0.54&ref(SoftArchive/RMeCab_0.54.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.54&ref(SoftArchive/RMeCab_0.54.tgz); 
- Linux バイナリ(R-2.7.0),バージョン 0.54 &ref(SoftArchive/RMeCab_0.54.tar.gz); 
-- docMatrix関数に出力メッセージを追加; RMeCabC()関数のメモリ関係のバグをフィックス.

** バージョン 0.53 (R-2.7.0) 2008年 6月18日 [#iebf3c66]
- Windows バイナリ(R-2.7.0),バージョン 0.53&ref(SoftArchive/RMeCab_0.53.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.53&ref(SoftArchive/RMeCab_0.53.tgz); 
- Linux バイナリ(R-2.7.0),バージョン 0.53 &ref(SoftArchive/RMeCab_0.53.tar.gz); 
-- 微調整で機能に0.52 からの変更はない.

** バージョン 0.52 (R-2.7.0) 2008年 6月14日 [#j7b72024]
- Windows バイナリ(R-2.7.0),バージョン 0.52&ref(SoftArchive/RMeCab_0.52.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.52&ref(SoftArchive/RMeCab_0.52.tgz); 
- Linux バイナリ(R-2.7.0),バージョン 0.52 &ref(SoftArchive/RMeCab_0.52.tar.gz); 
-- 新たに NgramDF()関数を追加した.


** バージョン 0.51 2008年 6月13日 [#m248f88e]

- Windows バイナリ(R-2.7.0),バージョン 0.51&ref(SoftArchive/RMeCab_0.51.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.51&ref(SoftArchive/RMeCab_0.51.tgz); 
- Linux バイナリ(R-2.7.0),バージョン 0.51 &ref(SoftArchive/RMeCab_0.51.tar.gz); 
-- Ngram()関数に品詞を指定する機能を追加した.


** バージョン 0.50 2008年 5月12日 [#u0142dd1]

- Windows バイナリ(R-2.7.0),バージョン 0.50&ref(SoftArchive/RMeCab_0.50.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.50&ref(SoftArchive/RMeCab_0.50.tgz); 
- Linux バイナリ(R-2.7.0),バージョン 0.50 &ref(SoftArchive/RMeCab_0.50.tar.gz); 
-- collScores()関数を見直した.またG2は外した.


** バージョン 0.49 β 2008年 5月5日 [#j036268c]

- Windows バイナリ(R-2.7.0),バージョン 0.49&ref(SoftArchive/RMeCab_0.49.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.7.0),バージョン 0.49 &ref(SoftArchive/RMeCab_0.49.tgz); 
- Linux バイナリ(R-2.7.0),バージョン 0.49 &ref(SoftArchive/RMeCab_0.49.tar.gz); 
-- バージョン 0.48 を R-2.7.0 でコンパイルした.

** バージョン 0.48 β 2008年 5月5日 [#ub900cf6]

- Windows バイナリ(R-2.6.2),バージョン 0.48&ref(SoftArchive/RMeCab_0.48.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ(R-2.6.2),バージョン 0.48 &ref(SoftArchive/RMeCab_0.48.tgz); 
- Linux バイナリ(R-2.6.2),バージョン 0.48 &ref(SoftArchive/RMeCab_0.48.tar.gz); 
-- ターム・文書行列作成の際の重みを見直した.局所的重みに「文書頻度 TF」,「対数頻度」,「バイナリ頻度」の 3 種類を,大域的重みに「IDF」,「大域的IDF」,「確率的IDF」,「エントロピー」の 4 種類,そしてコサイン正規化関数一つを実装し直した.


** バージョン 0.47 β 2008年4月28日 [#nbcb1eea]
- Windows バイナリ,バージョン 0.47&ref(SoftArchive/RMeCab_0.47.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat); 
- Macintosh バイナリ,バージョン 0.47 &ref(SoftArchive/RMeCab_0.47.tgz); 
- Linux バイナリ,バージョン 0.47 &ref(SoftArchive/RMeCab_0.47.tar.gz); 
-- docNgram(), makeNgram(), rmSing() 関数を追加.Ngramを作成する場合にディレクトリを指定可能とした.ディレクトリ内のファイルすべてについて Ngram を計り,行にテキスト名,列にNgram名を備えたデータフレームを返す.またMeCab の出力から品詞情報が「記号」の要素を除く



** バージョン 0.46 [#ke6c5550]

- Windows バイナリ,バージョン 0.46&ref(SoftArchive/RMeCab_0.46.zip); 
- Macintosh バイナリ,バージョン 0.46 &ref(SoftArchive/RMeCab_0.46.tgz); 
- Linux バイナリ,バージョン 0.46 &ref(SoftArchive/RMeCab_0.46.tar.gz); 
-- collocate 関数の出力から T-score, MI-score,対数尤度比(G^2)を求める関数 collScores()関数を追加.


** バージョン 0.45 [#g0121c50]

- Windows バイナリ,バージョン 0.45 &ref(SoftArchive/RMeCab_0.45.zip); 
- Macintosh バイナリ,バージョン 0.45 &ref(SoftArchive/RMeCab_0.45.tgz); 
- Linux バイナリ,バージョン 0.45 &ref(SoftArchive/RMeCab_0.45.tar.gz); 
-- collocate 関数の出力を修正。


** バージョン 0.44 [#n2100815]
- Windows バイナリ,バージョン 0.44 &ref(RMeCab_0.44.zip); 
- Macintosh バイナリ,バージョン 0.44 &ref(RMeCab_0.44.tgz); 
- Linux バイナリ,バージョン 0.44 &ref(RMeCab_0.44.tar.gz); 
-- collocate 関数の出力に総トークン数と,総形態素数に関する情報を追加

** バージョン 0.43 [#mbb17618]
- Windows バイナリ,バージョン 0.43 &ref(RMeCab_0.43.zip); 
- Macintosh バイナリ,バージョン 0.43 &ref(RMeCab_0.43.tgz); 
- Linux バイナリ,バージョン 0.43 &ref(RMeCab_0.43.tar.gz); 
-- エラー処理を追加

** バージョン 0.42 [#i1210e05]
- Windows バイナリ,バージョン 0.42 &ref(RMeCab_0.42.zip); 
- Macintosh バイナリ,バージョン 0.42 &ref(RMeCab_0.42.tgz); 
- Linux バイナリ,バージョン 0.42 &ref(RMeCab_0.42.tar.gz); 
-- N-gramカウント,およびコロケーションカウント用の関数を追加

** バージョン 0.41 [#wf99792f]
- Windows バイナリ,バージョン 0.41 &ref(RMeCab_0.41.zip); 
- Macintosh バイナリ,バージョン 0.41 &ref(RMeCab_0.41.tgz); 
- Linux バイナリ,バージョン 0.41 &ref(RMeCab_0.41.tar.gz); 
-- バージョン 0.40 で文書行列に TF-IDF などの重み付けを行う場合, [ [TOTAL-TOKENS] ] 行や[ [LESS-THAN-1] ] 行まで含めて計算していたのを修正し,これらの行を削除した結果に重み付けを行うようにした. 

** バージョン 0.40 [#u6c52538]
- Windows バイナリ,バージョン 0.40 &ref(RMeCab_0.40.zip); 
- Macintosh バイナリ,バージョン 0.40 &ref(RMeCab_0.40.tgz); 
- Linux バイナリ,バージョン 0.40 &ref(RMeCab_0.40.tar.gz); 
-- バージョン 0.39 docMatrix()関数に minFreq オプションを復活させた.また品詞や最低頻度を指定して文書行列を出力する際,テキストの総語数などの情報を表示させる.例えばテキストの総token数は   [ [TOTAL-TOKENS] ]という行に,また指定された品詞(pos <- c("名詞","
形容詞","動詞") )のうち,指定された頻度(minFreq  =1) 未満のものを,   [ [LESS-THAN-1] ]   という行として,文書行列に含めた.


** バージョン 0.39 [#v014b734]
- Windows バイナリ,バージョン 0.39 &ref(RMeCab_0.39.zip); 
- Macintosh バイナリ,バージョン 0.39 &ref(RMeCab_0.39.tgz); 
- Linux バイナリ,バージョン 0.39 &ref(RMeCab_0.39.tar.gz); 
-- 文書ターム行列を作成する際,文書が大きいとメモリが足りなくなり R が落ちることがある。そこでC++ソースを見直して,メモリの調整を行った。

** バージョン 0.38 [#e18dbaa6]
- Windows バイナリ,バージョン 0.38 &ref(RMeCab_0.38.zip); 
- Macintosh バイナリ,バージョン 0.38 &ref(RMeCab_0.38.tgz); 
- Linux バイナリ,バージョン 0.38 &ref(RMeCab_0.38.tar.gz); 
-- 文書ターム行列を作成する際,文書が大きいとメモリが足りなくなり R が落ちることがある。そこでC++ソースを見直して,メモリの調整を行った。

** バージョン 0.37 [#tf3002c0]
- Windows バイナリ,バージョン 0.37 
- Macintosh バイナリ,バージョン 0.37 
- Linux バイナリ,バージョン 0.37 
-- 英文マニュアルを一部追加作成.MeCab は辞書にない単語の原形を * として返してしまうことがあることに気がついた.
 陀多と云う男が一人
 陀多    名詞,一般,*,*,*,*,*

そこで,こうした場合,入力された語形をそのまま返すよう修正.またC++コードを見直して,メモリ管理を多少改善させた.に RMeCabDoc()関数を追加.これに伴い,RMeCabDoc.R,RMeCabDoc.Rd を追加した.



** バージョン 0.36 [#v6fc3c89]
- Windows バイナリ,バージョン 0.36 &ref(RMeCab_0.36.zip); 
- Macintosh バイナリ,バージョン 0.36 &ref(RMeCab_0.36.tgz); 
- Linux バイナリ,バージョン 0.36 &ref(RMeCab_0.36.tar.gz); 
-- 英文マニュアルを一部追加作成.docMatrix ()関数がファイルの一行目しか読んでいないバグを修正.C++コードに RMeCabDoc()関数を追加.これに伴い,RMeCabDoc.R,RMeCabDoc.Rd を追加した.



** バージョン 0.35 [#c3a1a82d]
- Windows バイナリ,バージョン 0.35 &ref(RMeCab_0.35.zip); 
- Macintosh バイナリ,バージョン 0.35 &ref(RMeCab_0.35.tgz); 
- Linux バイナリ,バージョン 0.35 &ref(RMeCab_0.35.tar.gz); 
-- 英文マニュアルを一部作成.C++コードを一部手直した.それに関連して R コードを見直した.



** バージョン 0.34 [#b03c3ba3]
- Windows バイナリ,バージョン 0.34 
- Macintosh バイナリ,バージョン 0.34  
- Linux バイナリ,バージョン 0.34 
-- 日本語・文書ターム行列の作成関数を追加.また行列に重み(TF/IDF)をつけられるようにした.

** バージョン 0.33 [#td00455c]
- Windows バイナリ,バージョン 0.33 &ref(RMeCab_0.33.zip); 
- Macintosh バイナリ,バージョン 0.33 &ref(RMeCab_0.33.tgz); 
-- データフレームを第一引数として,第二引数で指定された列に含まれる日本語文章を解析して返す.

** バージョン 0.32 [#mc7aeb6b]
- Windows バイナリ,バージョン 0.32 &ref(RMeCab_0.32.zip); 
- Macintosh バイナリ,バージョン 0.32 &ref(RMeCab_0.32.tgz); 
-- ファイルを読み込んで形態素原型とその頻度表を作成し,データフレームとして返す関数を追加

** バージョン 0.2 [#d247125f]
- Windows バイナリ,バージョン 0.2 &ref(RMeCab_0.2.zip); 
- Macintosh バイナリ,バージョン 0.2 &ref(RMeCab_0.2.tgz); 
-- 形態素原型をえるオプションを追加

** バージョン 0.1 [#g8badd14]
- Linux  バイナリ,バージョン 0.1
-- とりあえず動くだけのもの.


// 以下,ヴァージョン番号を熟させ過ぎたので,以上のように修正した
//* バージョン 1.1 [#x27fa54a]
//- Windows バイナリ,バージョン 1.0 &ref(RMeCab_1.1.zip); 
//-- 形態素原型をえるオプションを追加
//- Macintosh バイナリ,バージョン 1.0 &ref(RMeCab_1.0.tgz); 
//-- 形態素原型をえるオプションを追加
//
//* バージョン 1.0 [#j24df273]
//- Windows バイナリ,バージョン 1.0 &ref(RMeCab_1.0.zip); 
//-- ただ動くだけ
//- Macintosh バイナリ,バージョン 1.0 &ref(RMeCab_1.0.tgz); 
//-- ただ動くだけ



* ご感想などのご報告 [#ab44b563]
//#article
お問い合わせはメールをください

ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp