SoftArchive のバックアップソース(No.16)

[[software]]



#contents

* 試用データセット(2008年4月4日修正) [#eacb4dfc]
&ref(testSetWin.zip);(Windowsの方、Shift-Jis) : &ref(testSetUnix.zip); (MacおよびUnixユーザーの方, utf-8 ファイル): 解凍後，中に含まれる data フォルダごとドライブの先頭などにコピーして，その中の''RMeCab.R'' ファイル内のコードを実行します．詳しくはフォルダ内の ''README.txt'' を読んでください．


* RMeCaBパッケージ [#e01ed756]

** バージョン 0.42 [#i1210e05]
- Windows バイナリ，バージョン 0.42 &ref(RMeCab_0.42.zip); 
- Macintosh バイナリ，バージョン 0.42 &ref(RMeCab_0.42.tgz); 
- Linux バイナリ，バージョン 0.42 &ref(RMeCab_0.42.tar.gz); 
-- N-gramカウント，およびコロケーションカウント用の関数を追加

** バージョン 0.41 [#wf99792f]
- Windows バイナリ，バージョン 0.41 &ref(RMeCab_0.41.zip); 
- Macintosh バイナリ，バージョン 0.41 &ref(RMeCab_0.41.tgz); 
- Linux バイナリ，バージョン 0.41 &ref(RMeCab_0.41.tar.gz); 
-- バージョン 0.40 で文書行列に TF-IDF などの重み付けを行う場合， [ [TOTAL-TOKENS] ] 行や[ [LESS-THAN-1] ] 行まで含めて計算していたのを修正し，これらの行を削除した結果に重み付けを行うようにした． 

** バージョン 0.40 [#u6c52538]
- Windows バイナリ，バージョン 0.40 &ref(RMeCab_0.40.zip); 
- Macintosh バイナリ，バージョン 0.40 &ref(RMeCab_0.40.tgz); 
- Linux バイナリ，バージョン 0.40 &ref(RMeCab_0.40.tar.gz); 
-- バージョン 0.39 docMatrix()関数に minFreq オプションを復活させた．また品詞や最低頻度を指定して文書行列を出力する際，テキストの総語数などの情報を表示させる．例えばテキストの総token数は   [ [TOTAL-TOKENS] ]という行に，また指定された品詞(pos <- c("名詞","
形容詞","動詞") )のうち，指定された頻度(minFreq　 =1) 未満のものを，   [ [LESS-THAN-1] ]   という行として，文書行列に含めた．


** バージョン 0.39 [#v014b734]
- Windows バイナリ，バージョン 0.39 &ref(RMeCab_0.39.zip); 
- Macintosh バイナリ，バージョン 0.39 &ref(RMeCab_0.39.tgz); 
- Linux バイナリ，バージョン 0.39 &ref(RMeCab_0.39.tar.gz); 
-- 文書ターム行列を作成する際，文書が大きいとメモリが足りなくなり R が落ちることがある。そこでC++ソースを見直して，メモリの調整を行った。

** バージョン 0.38 [#e18dbaa6]
- Windows バイナリ，バージョン 0.38 &ref(RMeCab_0.38.zip); 
- Macintosh バイナリ，バージョン 0.38 &ref(RMeCab_0.38.tgz); 
- Linux バイナリ，バージョン 0.38 &ref(RMeCab_0.38.tar.gz); 
-- 文書ターム行列を作成する際，文書が大きいとメモリが足りなくなり R が落ちることがある。そこでC++ソースを見直して，メモリの調整を行った。

** バージョン 0.37 [#tf3002c0]
- Windows バイナリ，バージョン 0.37 
- Macintosh バイナリ，バージョン 0.37 
- Linux バイナリ，バージョン 0.37 
-- 英文マニュアルを一部追加作成．MeCab は辞書にない単語の原形を * として返してしまうことがあることに気がついた．
 陀多と云う男が一人
 陀多    名詞,一般,*,*,*,*,*

そこで，こうした場合，入力された語形をそのまま返すよう修正．またC++コードを見直して，メモリ管理を多少改善させた．に RMeCabDoc()関数を追加．これに伴い，RMeCabDoc.R，RMeCabDoc.Rd を追加した．



** バージョン 0.36 [#v6fc3c89]
- Windows バイナリ，バージョン 0.36 &ref(RMeCab_0.36.zip); 
- Macintosh バイナリ，バージョン 0.36 &ref(RMeCab_0.36.tgz); 
- Linux バイナリ，バージョン 0.36 &ref(RMeCab_0.36.tar.gz); 
-- 英文マニュアルを一部追加作成．docMatrix ()関数がファイルの一行目しか読んでいないバグを修正．C++コードに RMeCabDoc()関数を追加．これに伴い，RMeCabDoc.R，RMeCabDoc.Rd を追加した．



** バージョン 0.35 [#c3a1a82d]
- Windows バイナリ，バージョン 0.35 &ref(RMeCab_0.35.zip); 
- Macintosh バイナリ，バージョン 0.35 &ref(RMeCab_0.35.tgz); 
- Linux バイナリ，バージョン 0.35 &ref(RMeCab_0.35.tar.gz); 
-- 英文マニュアルを一部作成．C++コードを一部手直した．それに関連して R コードを見直した．



** バージョン 0.34 [#b03c3ba3]
- Windows バイナリ，バージョン 0.34 
- Macintosh バイナリ，バージョン 0.34  
- Linux バイナリ，バージョン 0.34 
-- 日本語・文書ターム行列の作成関数を追加．また行列に重み(TF/IDF)をつけられるようにした．

** バージョン 0.33 [#td00455c]
- Windows バイナリ，バージョン 0.33 &ref(RMeCab_0.33.zip); 
- Macintosh バイナリ，バージョン 0.33 &ref(RMeCab_0.33.tgz); 
-- データフレームを第一引数として，第二引数で指定された列に含まれる日本語文章を解析して返す．

** バージョン 0.32 [#mc7aeb6b]
- Windows バイナリ，バージョン 0.32 &ref(RMeCab_0.32.zip); 
- Macintosh バイナリ，バージョン 0.32 &ref(RMeCab_0.32.tgz); 
-- ファイルを読み込んで形態素原型とその頻度表を作成し，データフレームとして返す関数を追加

** バージョン 0.2 [#d247125f]
- Windows バイナリ，バージョン 0.2 &ref(RMeCab_0.2.zip); 
- Macintosh バイナリ，バージョン 0.2 &ref(RMeCab_0.2.tgz); 
-- 形態素原型をえるオプションを追加

** バージョン 0.1 [#g8badd14]
- Linux  バイナリ，バージョン 0.1
-- とりあえず動くだけのもの．


// 以下，ヴァージョン番号を熟させ過ぎたので，以上のように修正した
//* バージョン 1.1 [#x27fa54a]
//- Windows バイナリ，バージョン 1.0 &ref(RMeCab_1.1.zip); 
//-- 形態素原型をえるオプションを追加
//- Macintosh バイナリ，バージョン 1.0 &ref(RMeCab_1.0.tgz); 
//-- 形態素原型をえるオプションを追加
//
//* バージョン 1.0 [#j24df273]
//- Windows バイナリ，バージョン 1.0 &ref(RMeCab_1.0.zip); 
//-- ただ動くだけ
//- Macintosh バイナリ，バージョン 1.0 &ref(RMeCab_1.0.tgz); 
//-- ただ動くだけ
アールメカブ

SoftArchive のバックアップソース(No.16)