- 追加された行はこの色です。
- 削除された行はこの色です。
[[software]]
#contents
* 試用データセット(2008年4月4日修正) [#eacb4dfc]
&ref(testSetWin.zip);(Windowsの方、Shift-Jis) : &ref(testSetUnix.zip); (MacおよびUnixユーザーの方, utf-8 ファイル): 解凍後,中に含まれる data フォルダごとドライブの先頭などにコピーして,その中の''RMeCab.R'' ファイル内のコードを実行します.詳しくはフォルダ内の ''README.txt'' を読んでください.
* RMeCaBパッケージ [#e01ed756]
** バージョン 0.47 β 2008年4月28日 [#nbcb1eea]
- Windows バイナリ,バージョン 0.47&ref(SoftArchive/RMeCab_0.47.zip);
- Windows バイナリ,バージョン 0.47&ref(SoftArchive/RMeCab_0.47.zip); と付属の環境設定ファイル &ref(SoftArchive/RMeCabInstall.bat);
- Macintosh バイナリ,バージョン 0.47 &ref(SoftArchive/RMeCab_0.47.tgz);
- Linux バイナリ,バージョン 0.47 &ref(SoftArchive/RMeCab_0.47.tar.gz);
-- docNgram(), makeNgram(), rmSing() 関数を追加.Ngramを作成する場合にディレクトリを指定可能とした.ディレクトリ内のファイルすべてについて Ngram を計り,行にテキスト名,列にNgram名を備えたデータフレームを返す.またMeCab の出力から品詞情報が「記号」の要素を除く
** バージョン 0.46 [#ke6c5550]
- Windows バイナリ,バージョン 0.46&ref(SoftArchive/RMeCab_0.46.zip);
- Macintosh バイナリ,バージョン 0.46 &ref(SoftArchive/RMeCab_0.46.tgz);
- Linux バイナリ,バージョン 0.46 &ref(SoftArchive/RMeCab_0.46.tar.gz);
-- collocate 関数の出力から T-score, MI-score,対数尤度比(G^2)を求める関数 collScores()関数を追加.
** バージョン 0.45 [#g0121c50]
- Windows バイナリ,バージョン 0.45 &ref(SoftArchive/RMeCab_0.45.zip);
- Macintosh バイナリ,バージョン 0.45 &ref(SoftArchive/RMeCab_0.45.tgz);
- Linux バイナリ,バージョン 0.45 &ref(SoftArchive/RMeCab_0.45.tar.gz);
-- collocate 関数の出力を修正。
** バージョン 0.44 [#n2100815]
- Windows バイナリ,バージョン 0.44 &ref(RMeCab_0.44.zip);
- Macintosh バイナリ,バージョン 0.44 &ref(RMeCab_0.44.tgz);
- Linux バイナリ,バージョン 0.44 &ref(RMeCab_0.44.tar.gz);
-- collocate 関数の出力に総トークン数と,総形態素数に関する情報を追加
** バージョン 0.43 [#mbb17618]
- Windows バイナリ,バージョン 0.43 &ref(RMeCab_0.43.zip);
- Macintosh バイナリ,バージョン 0.43 &ref(RMeCab_0.43.tgz);
- Linux バイナリ,バージョン 0.43 &ref(RMeCab_0.43.tar.gz);
-- エラー処理を追加
** バージョン 0.42 [#i1210e05]
- Windows バイナリ,バージョン 0.42 &ref(RMeCab_0.42.zip);
- Macintosh バイナリ,バージョン 0.42 &ref(RMeCab_0.42.tgz);
- Linux バイナリ,バージョン 0.42 &ref(RMeCab_0.42.tar.gz);
-- N-gramカウント,およびコロケーションカウント用の関数を追加
** バージョン 0.41 [#wf99792f]
- Windows バイナリ,バージョン 0.41 &ref(RMeCab_0.41.zip);
- Macintosh バイナリ,バージョン 0.41 &ref(RMeCab_0.41.tgz);
- Linux バイナリ,バージョン 0.41 &ref(RMeCab_0.41.tar.gz);
-- バージョン 0.40 で文書行列に TF-IDF などの重み付けを行う場合, [ [TOTAL-TOKENS] ] 行や[ [LESS-THAN-1] ] 行まで含めて計算していたのを修正し,これらの行を削除した結果に重み付けを行うようにした.
** バージョン 0.40 [#u6c52538]
- Windows バイナリ,バージョン 0.40 &ref(RMeCab_0.40.zip);
- Macintosh バイナリ,バージョン 0.40 &ref(RMeCab_0.40.tgz);
- Linux バイナリ,バージョン 0.40 &ref(RMeCab_0.40.tar.gz);
-- バージョン 0.39 docMatrix()関数に minFreq オプションを復活させた.また品詞や最低頻度を指定して文書行列を出力する際,テキストの総語数などの情報を表示させる.例えばテキストの総token数は [ [TOTAL-TOKENS] ]という行に,また指定された品詞(pos <- c("名詞","
形容詞","動詞") )のうち,指定された頻度(minFreq =1) 未満のものを, [ [LESS-THAN-1] ] という行として,文書行列に含めた.
** バージョン 0.39 [#v014b734]
- Windows バイナリ,バージョン 0.39 &ref(RMeCab_0.39.zip);
- Macintosh バイナリ,バージョン 0.39 &ref(RMeCab_0.39.tgz);
- Linux バイナリ,バージョン 0.39 &ref(RMeCab_0.39.tar.gz);
-- 文書ターム行列を作成する際,文書が大きいとメモリが足りなくなり R が落ちることがある。そこでC++ソースを見直して,メモリの調整を行った。
** バージョン 0.38 [#e18dbaa6]
- Windows バイナリ,バージョン 0.38 &ref(RMeCab_0.38.zip);
- Macintosh バイナリ,バージョン 0.38 &ref(RMeCab_0.38.tgz);
- Linux バイナリ,バージョン 0.38 &ref(RMeCab_0.38.tar.gz);
-- 文書ターム行列を作成する際,文書が大きいとメモリが足りなくなり R が落ちることがある。そこでC++ソースを見直して,メモリの調整を行った。
** バージョン 0.37 [#tf3002c0]
- Windows バイナリ,バージョン 0.37
- Macintosh バイナリ,バージョン 0.37
- Linux バイナリ,バージョン 0.37
-- 英文マニュアルを一部追加作成.MeCab は辞書にない単語の原形を * として返してしまうことがあることに気がついた.
陀多と云う男が一人
陀多 名詞,一般,*,*,*,*,*
そこで,こうした場合,入力された語形をそのまま返すよう修正.またC++コードを見直して,メモリ管理を多少改善させた.に RMeCabDoc()関数を追加.これに伴い,RMeCabDoc.R,RMeCabDoc.Rd を追加した.
** バージョン 0.36 [#v6fc3c89]
- Windows バイナリ,バージョン 0.36 &ref(RMeCab_0.36.zip);
- Macintosh バイナリ,バージョン 0.36 &ref(RMeCab_0.36.tgz);
- Linux バイナリ,バージョン 0.36 &ref(RMeCab_0.36.tar.gz);
-- 英文マニュアルを一部追加作成.docMatrix ()関数がファイルの一行目しか読んでいないバグを修正.C++コードに RMeCabDoc()関数を追加.これに伴い,RMeCabDoc.R,RMeCabDoc.Rd を追加した.
** バージョン 0.35 [#c3a1a82d]
- Windows バイナリ,バージョン 0.35 &ref(RMeCab_0.35.zip);
- Macintosh バイナリ,バージョン 0.35 &ref(RMeCab_0.35.tgz);
- Linux バイナリ,バージョン 0.35 &ref(RMeCab_0.35.tar.gz);
-- 英文マニュアルを一部作成.C++コードを一部手直した.それに関連して R コードを見直した.
** バージョン 0.34 [#b03c3ba3]
- Windows バイナリ,バージョン 0.34
- Macintosh バイナリ,バージョン 0.34
- Linux バイナリ,バージョン 0.34
-- 日本語・文書ターム行列の作成関数を追加.また行列に重み(TF/IDF)をつけられるようにした.
** バージョン 0.33 [#td00455c]
- Windows バイナリ,バージョン 0.33 &ref(RMeCab_0.33.zip);
- Macintosh バイナリ,バージョン 0.33 &ref(RMeCab_0.33.tgz);
-- データフレームを第一引数として,第二引数で指定された列に含まれる日本語文章を解析して返す.
** バージョン 0.32 [#mc7aeb6b]
- Windows バイナリ,バージョン 0.32 &ref(RMeCab_0.32.zip);
- Macintosh バイナリ,バージョン 0.32 &ref(RMeCab_0.32.tgz);
-- ファイルを読み込んで形態素原型とその頻度表を作成し,データフレームとして返す関数を追加
** バージョン 0.2 [#d247125f]
- Windows バイナリ,バージョン 0.2 &ref(RMeCab_0.2.zip);
- Macintosh バイナリ,バージョン 0.2 &ref(RMeCab_0.2.tgz);
-- 形態素原型をえるオプションを追加
** バージョン 0.1 [#g8badd14]
- Linux バイナリ,バージョン 0.1
-- とりあえず動くだけのもの.
// 以下,ヴァージョン番号を熟させ過ぎたので,以上のように修正した
//* バージョン 1.1 [#x27fa54a]
//- Windows バイナリ,バージョン 1.0 &ref(RMeCab_1.1.zip);
//-- 形態素原型をえるオプションを追加
//- Macintosh バイナリ,バージョン 1.0 &ref(RMeCab_1.0.tgz);
//-- 形態素原型をえるオプションを追加
//
//* バージョン 1.0 [#j24df273]
//- Windows バイナリ,バージョン 1.0 &ref(RMeCab_1.0.zip);
//-- ただ動くだけ
//- Macintosh バイナリ,バージョン 1.0 &ref(RMeCab_1.0.tgz);
//-- ただ動くだけ
* ご感想などのご報告 [#ab44b563]
#article