- 追加された行はこの色です。
- 削除された行はこの色です。
[[管理人>admin]] について : 参考ページ [[統計的言語処理]]: 形態素解析パッケージ [[RMeCab]]
// &size(20){&color(red){現在開発を継続中です};};
&size(20){&color(red){いったん開発を凍結しました.ここに公開されているバージョンは,現在のCaBoChaおよびRに最適化されていません};};
2012 09 30
----------
&size(18){&color(blue){2010年8月28日 RCaBoCha_0.26 にて,かなり大きな変更を加えました};};.要点は
-- 指定された品詞の係り受けをすべて出力
-- MeCabやユーザー辞書の指定を可能に
-- 活用語の場合,出力を表層形と原型のどちらかを選択可能に
----------
&size(20){&color(blue){[[RCaBoCha]]パッケージ};};
日本語の係り受け関係を R で解析できるようにします.形態素解析パッケージ[[RMeCab]]もご参照ください.
- ''&color(green){テキストマイニング入門};'':テキストマイニングについては『[[Rによるテキストマイニング入門:http://www.amazon.co.jp/R%E3%81%AB%E3%82%88%E3%82%8B%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%9E%E3%82%A4%E3%83%8B%E3%83%B3%E3%82%B0%E5%85%A5%E9%96%80-%E7%9F%B3%E7%94%B0-%E5%9F%BA%E5%BA%83/dp/4627848412/]]』森北出版,2008.12
- ''&color(green){テキストマイニング入門};'':[[RMeCab]]を利用したテキストマイニングについては
&htmlinsert(amazontext,asin=4627848412,text=『Rによるテキストマイニング入門』森北出版);
//『[[Rによるテキストマイニング入門:http://www.amazon.co.jp/R%E3%81%AB%E3%82%88%E3%82%8B%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%9E%E3%82%A4%E3%83%8B%E3%83%B3%E3%82%B0%E5%85%A5%E9%96%80-%E7%9F%B3%E7%94%B0-%E5%9F%BA%E5%BA%83/dp/4627848412/]]』森北出版,2008.12
を参照いただければ幸いです.
#contents
* 実装済みの関数 [#e9db8318]
&size(18){&color(blue){RCaBoCha};関数}; : CaBocha の単純な出力を返す.
> kekka <- RCaBoCha("今日は鰻が食べたいな。")
FROMAT_TREE =
<DATE>今日</DATE>は---D
鰻が-D
食べたいな。
EOS
> kekka # D1 は句の連番,D2 はその係り受け関係を表す
Term1 Term2 POS D1 D2
1 今日 今日 名詞 1 2
2 は は 助詞 1 2
3 鰻 鰻 名詞 2 2
4 が が 助詞 2 2
5 食べ 食べる 動詞 3 -1
6 たい たい 助動詞 3 -1
7 な な 助詞 3 -1
8 。 。 記号 3 -1
#####################################################
# RCaBoCha() 関数
#####################################################
# CaBoCha の解析結果をそのまま出力
> RCaBoCha("それは面白い本であった。")
FROMAT_TREE =
それは---D
面白い-D
本であった。
EOS
Term1 Term2 POS D1 D2
1 それ それ 名詞 1 2
2 は は 助詞 1 2
3 面白い 面白い 形容詞 2 2
4 本 本 名詞 3 -1
5 で だ 助動詞 3 -1
6 あっ ある 助動詞 3 -1
7 た た 助動詞 3 -1
8 。 。 記号 3 -1
RCaBoCha("それは面白い本であった。",0)# Tree を出さない
RCaBoCha("それは面白い本であった。",
mecabrc="/Users/motohiro/.mecabrc")# mecabrc を指定
----------------------
&size(18){&color(blue){RCaBoChaFreq};関数}; : 否定の係りを判定して頻度を測る
> kekka <- RCaBoChaFreq("今日は鰻が美味しいな.
+ 昨日は鰻が美味しくなかった。")
> kekka
Term1 Freq
1 が 2
2 た 1
3 な 1
4 は 2
5 今日 1
6 昨日 1
7 美味しい 1
8 美味しい+ない 1
9 鰻 2
#####################################################
# RCaBoChaFreq() 関数
#####################################################
## CaBoCha の解析結果を頻度表に
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
> RCaBoChaFreq("それは面白い本であった。
しかし、この本に比べると面白くはない。")
string 2 = "ない" setted: length = 0
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ 名詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 に 助詞 1
11 は 助詞 1
12 は+ない 助詞+形容詞 1
13 本 名詞 2
14 比べる 動詞 1
15 面白い 形容詞 1
16 面白い+ない 形容詞+形容詞 1
&size(18){&color(blue){RCaBoChaFile};関数}; : ファイルを対象に否定の係りを判定して頻度を測る.''引数&color(green){rmT = c("助詞", "記号")}; ''などとして,抽出''しない''品詞を指定可能.デフォルトは記号のみ. ただし半角スペースと全角スペース,"!?.。.!?"は常に削除する.
# 係り受けのタームを指定する.デフォルトは「ない」
> RCaBoChaFreq("それは面白い本であった。しかし、この本に比べると 面白くはない。", str2 = "は")
string 2 = "は" setted: length = 1
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ+は 名詞+助詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 ない 形容詞 1
11 に 助詞 1
12 本 名詞 2
13 比べる 動詞 1
14 面白い 形容詞 1
15 面白い+は 形容詞+助詞 1
> kekka <- RCaBoChaFile("綺麗な花.txt")
file = 綺麗な花.txt
> kekka
Term1 Freq
1 あの 1
2 この 1
3 その 1
4 だ 1
5 だ+ない 2
6 は 2
7 は+ない 1
8 も 1
9 綺麗 1
10 綺麗+ない 2
11 花 3
mecabrc="/Users/motohiro/.mecabrc" mecabrc を指定可能
----------------------
&size(18){&color(blue){RCaBoChaDF};関数}; : データフレームの指定列を対象に否定の係りを判定して頻度を測り,ターム・文章行列を作成.''引数 &color(green){rmT = c("助詞", "記号")};'' などとして,抽出''しない''品詞を指定可能.デフォルトは記号のみ. ただし半角スペースと全角スペース,"!?.。.!?"は常に削除する. また ''&color(green){minFreq};引数''で,全文書を通じての総頻度の閾値を指定可能.
&size(18){&color(blue){RCaBoChaFile};関数}; : ファイルを対象に指定された語との係り受けを判定して頻度を測る.''引数&color(green){rmT = c("助詞", "記号")}; ''などとして,抽出''しない''品詞を指定可能.デフォルトは記号のみ. ただし半角スペースと全角スペース,"!?.。.!?"は常に削除する.
#####################################################
# RCaBoChaFile() 関数
#####################################################
# ファイルを読み込んで頻度表を作成
# 引数 conj = 0 活用語はそのまま表層形で
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
# さらに 引数 rmT =c("記号","助詞") 等として
# 対象としない品詞を指定できます
> res <- RCaBoChaFile("kumo.txt", "")
Pos[0] = 記号 removed
file = kumo.txt
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 10
5 ある 連体詞 3
6 あれ 名詞 1
7 いくら 副詞 2
8 いつの間にか 副詞 1
9 いや 接続詞 3
10 いらっしゃる 動詞 2
...
365 落ちる 動詞 4
366 落ちる+ない 動詞+助動詞 1
367 葉 名詞 2
368 蓮 名詞 4
369 蓮池 名詞 4
...
> dat <- read.csv("data/flower.csv")
> kekka <- RCaBoChaDF(dat[,"Reply"], rmT = c("助詞"))
> kekka
OBS.1 OBS.2 OBS.3 OBS.4 OBS.5
あの 0 0 1 0 0
う 0 0 0 0 1
が 0 0 0 1 0
この 0 1 0 0 0
その 1 0 0 0 0
だ 0 1 0 1 0
だろ 0 0 0 0 1
で 1 0 1 0 0
な 0 0 0 1 1
の 0 0 0 0 1
は 1 1 0 0 1
は+ない 0 0 1 0 0
も 0 0 1 0 0
やっぱり 0 0 0 1 0
バラ 0 0 0 1 0
花 1 1 1 0 0
桜 0 0 0 0 1
綺麗 0 1 0 1 1
綺麗+ない 1 0 1 0 0
> res <- RCaBoChaFile("kumo.txt", "の")
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 9
5 ある 連体詞 3
6 ある+の 動詞+名詞 1
7 あれ+の 名詞+助詞 1
8 いくら 副詞 2
9 いつの間にか 副詞 1
10 いや 接続詞 3
...
#### 重み付けも可能 TD IDF を計算して、標準化するには
> res <- RCaBoChaFile("kumo.txt", rmT =c("記号","助詞") )
> res
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
...
399 違い 名詞 1
400 違い+ない 名詞+助動詞 1
...
res <- RCaBoChaFile("kumo.txt", conj = 0)
## conj = 0 活用語はそのまま表層形で
res <- RCaBoChaFile("kumo.txt", rmT =c("記号","助詞") , mecabrc="/Users/motohiro/.mecabrc")
## mecabrc を指定.念のため絶対パスで指定してください
----------------------
&size(18){&color(blue){RCaBoChaDF};関数}; : データフレームの指定列を対象に指定された語との係り受けを判定して頻度を測り,ターム・文章行列を作成.引数 pos =c("名詞","形容詞") などで抽出する品詞を指定できます. デフォルトでは pos =c("名詞","形容詞","動詞") がセットされています.ただし半角スペースと全角スペース,"!?.。.!?"は常に削除する. また ''&color(green){minFreq};引数''で,全文書を通じての総頻度の閾値を指定可能.
####################################################
# RCaBoChaDF() 関数
#####################################################
## データフレームから文書ターム行列を作成する。
##
# RCaBoCha_0.25 までの rmT str2 は廃止しました
# 引数 conj = 0 活用語はそのまま表層形で
# 引数 pos =c("名詞","形容詞") などで抽出する品詞を指定できます
## デフォルトでは pos =c("名詞","形容詞","動詞") がセットされています
# 引数 minFreq で文書全体を通しての最小頻度を指定できます
dat <- read.csv("H18koe.csv") ## 沖縄観光についての自由意見
res <- RCaBoChaDF(dat[,"opinion"])##やや時間がかかります
nrow(res)
# [1] 2263
head(res[200:205, 1:5])
# TERM POS1 POS2 ROW3 ROW4
#200 どこ+店 名詞+名詞 代名詞+名詞 0 0
#201 どちら+下車 名詞+名詞 代名詞+名詞 0 0
#202 どれ+の 名詞+名詞 代名詞+名詞 0 0
#203 どれ+料理 名詞+名詞 代名詞+名詞 0 0
#204 どれ+沖縄 名詞+名詞 代名詞+名詞 0 0
#205 ない+こと 助動詞+名詞 *+名詞 0 0
head(res[res$POS1 %in% c("名詞+動詞", "形容詞+名詞"), 1:5])
## "名詞+動詞" あるいは "形容詞+名詞" のケースをみる
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容詞","動詞"))###やや時間がかかります
nrow(res)
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容詞","動詞"), mecabrc = "/Users/motohiro/.mecabrc")
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容詞"),
mecabrc = "/Users/motohiro/.mecabrc")
## mecabrc を指定.念のため絶対パスで指定してください
res <- RCaBoChaDF(dat[,"opinion"], conj = 0)
## 活用語はそのまま表層形で
----------------------
&size(18){&color(blue){RCaBoChaMx};関数}; : フォルダ全体あるいは単独ファイルを対象に指定された語との係り受けを判定して頻度を測り,ターム・文章行列を作成.引数 pos =c("名詞","形容詞") などで抽出する品詞を指定できます. デフォルトでは pos =c("名詞","形容詞","動詞") がセットされています. ただし半角スペースと全角スペース,"!?.。.!?"は常に削除する. また ''&color(green){minFreq };引数''で,全文書を通じての総頻度の閾値を指定可能.
#####################################################
# RCaBoChaMx() 関数
#####################################################
## ファイルあるいはディレクトリから文書ターム行列を作成。
> res <- RCaBoChaDF(dat[,"Reply"],rmT =c("記号","助詞"),
weight = "tf*idf*norm")
> nrow(res)
[1] 15
> res
OBS.1 OBS.2 OBS.3 OBS.4 OBS.5
あの 0.00000 0.00000 0.66658 0.00000 0.00000
う 0.00000 0.00000 0.00000 0.00000 0.43546
この 0.00000 0.70093 0.00000 0.00000 0.00000
その 0.66658 0.00000 0.00000 0.00000 0.00000
だ 0.00000 0.48993 0.00000 0.42058 0.00000
だろ 0.00000 0.00000 0.00000 0.00000 0.43546
で 0.46592 0.00000 0.46592 0.00000 0.00000
な 0.00000 0.00000 0.00000 0.00000 0.43546
の 0.00000 0.00000 0.00000 0.00000 0.43546
やっぱり 0.00000 0.00000 0.00000 0.60171 0.00000
バラ 0.00000 0.00000 0.00000 0.60171 0.00000
花 0.34854 0.36650 0.34854 0.00000 0.00000
桜 0.00000 0.00000 0.00000 0.00000 0.43546
綺麗 0.00000 0.36650 0.00000 0.31462 0.22769
綺麗+ない 0.46592 0.00000 0.46592 0.00000 0.0000
> apply(res^2, 2, sum) ## 各列の自乗の合計は1
OBS.1 OBS.2 OBS.3 OBS.4 OBS.5
1 1 1 1 1
# RCaBoCha_0.25 までの rmT str2 は廃止しました
# 引数 conj = 0 活用語はそのまま表層形で
# 引数 pos =c("名詞","形容詞") などで抽出する品詞を指定できます
## デフォルトでは pos =c("名詞","形容詞","動詞") がセットされています
# さらに引数 minFreq で文書全体を通しての最小頻度を指定できます
&size(18){&color(blue){RCaBoChaMx};関数}; : フォルダ全体あるいは単独ファイルを対象に否定の係りを判定して頻度を測り,ターム・文章行列を作成.''引数 &color(green){rm = c("助詞", "記号")};'' などとして,抽出''しない''品詞を指定可能.デフォルトは記号のみ. ただし半角スペースと全角スペース,"!?.。.!?"は常に削除する. また ''&color(green){minFreq };引数''で,全文書を通じての総頻度の閾値を指定可能.
> kekka <- RCaBoChaMx("data/flower")
file_name = data/flower/hana1.txt opened
file_name = data/flower/hana2.txt opened
file_name = data/flower/hana3.txt opened
file_name = data/flower/hana4.txt opened
file_name = data/flower/hana5.txt opened
> kekka
hana1.txt hana2.txt hana3.txt hana4.txt hana5.txt
あの 0 0 1 0 0
う 0 0 0 0 1
が 0 0 0 1 0
この 0 1 0 0 0
その 1 0 0 0 0
だ 0 1 0 1 0
だろ 0 0 0 0 1
で 1 0 1 0 0
な 0 0 0 1 1
の 0 0 0 0 1
は 1 1 0 0 1
は+ない 0 0 1 0 0
も 0 0 1 0 0
やっぱり 0 0 0 1 0
バラ 0 0 0 1 0
花 1 1 1 0 0
桜 0 0 0 0 1
綺麗 0 1 0 1 1
綺麗+ない 1 0 1 0 0
### 重み付けも可能 TD IDF を計算して、標準化するには
> res <- RCaBoChaMx("C:/data/flower" ,rmT =c("記号","助詞"),
weight = "tf*idf*norm")
file_name = C:/data/flower/hana1.txt opened
file_name = C:/data/flower/hana2.txt opened
file_name = C:/data/flower/hana3.txt opened
file_name = C:/data/flower/hana4.txt opened
file_name = C:/data/flower/hana5.txt opened
> nrow(res)
[1] 15
> res
hana1.txt hana2.txt hana3.txt hana4.txt hana5.txt
あの 0.00000 0.00000 0.66658 0.00000 0.00000
う 0.00000 0.00000 0.00000 0.00000 0.43546
この 0.00000 0.70093 0.00000 0.00000 0.00000
その 0.66658 0.00000 0.00000 0.00000 0.00000
だ 0.00000 0.48993 0.00000 0.42058 0.00000
だろ 0.00000 0.00000 0.00000 0.00000 0.43546
で 0.46592 0.00000 0.46592 0.00000 0.00000
な 0.00000 0.00000 0.00000 0.00000 0.43546
の 0.00000 0.00000 0.00000 0.00000 0.43546
やっぱり 0.00000 0.00000 0.00000 0.60171 0.00000
バラ 0.00000 0.00000 0.00000 0.60171 0.00000
花 0.34854 0.36650 0.34854 0.00000 0.00000
桜 0.00000 0.00000 0.00000 0.00000 0.43546
綺麗 0.00000 0.36650 0.00000 0.31462 0.22769
綺麗+ない 0.46592 0.00000 0.46592 0.00000 0.00000
> apply(res^2, 2, sum) ## 各列の自乗の合計は1
hana1.txt hana2.txt hana3.txt hana4.txt hana5.txt
1 1 1 1 1
res <- RCaBoChaMx("morikita")
## file_name = morikita/morikita1.txt opened
## file_name = morikita/morikita2.txt opened
## file_name = morikita/morikita3.txt opened
nrow(res)## [1] 66
res[50:55,]
# TERM POS1 POS2 morikita1.txt morikita2.txt
#50 科学+者 名詞+名詞 一般+名詞 0 0
#51 系+化 名詞+名詞 接尾+名詞 1 0
#52 系+特 名詞+名詞 接尾+名詞 1 0
#53 編曲+感じ 名詞+名詞 サ変接続+名詞 0 1
#54 編集+感じ 名詞+名詞 サ変接続+名詞 0 1
#55 者+企業 名詞+名詞 接尾+名詞 0 1
# morikita3.txt
#50 1
#51 0
#52 0
#53 0
#54 0
#55 0
## 単独ファイルも読み込み可能
> res <- RCaBoChaMx("C:/data/flower/hana1.txt")
file_name = C:/data/flower/hana1.txt opened
> res
hana1.txt
その 1
で 1
は 1
花 1
綺麗+ない 1
res <- RCaBoChaMx("morikita",pos = c("名詞","形容詞","動詞"))###やや時間がかかります
nrow(res)
#res <- RCaBoChaMx("morikita",pos = c("名詞","形容詞","動詞"), mecabrc = "/Users/motohiro/mecabrc")
&size(18){&color(blue){RCaBoChaCnt};関数}; : 単独のファイルを引数として,そのファイルを文に分割し,各文の形態素数と句数をデータフレームとして出力する.
> kekka <- RCaBoChaCnt("data/merosu.txt")
file = data/merosu.txt #『走れメロス』を解析
> kekka
Nr. Terms Phrases
1 1 5 2
2 2 17 6
3 3 7 3
4 4 8 3
5 5 12 5
... 以下略
文の区切りは " !?.。.!?" である.これも引数で指定できた方が良いかな?
----------------------
&size(18){&color(blue){RCaBoChaCnt};関数}; : 指定された単独ファイルを対象に,文の数,その文中の単語と品詞,文中の単語数,句数をまとめたデータフレームを返す.列名はそれぞれ
# totalNo = 文頭からの語数
# SentNo = 文番号
# TermNo = 文中単語番号
# Term = 単語
# Pos = 品詞
# CharN = その文字数
# Cid = 文中の句番号
> res <- RCaBoChaCnt("kumo.txt" )
> res[1:20,]
# 文頭からの語数 # 文番号 # 文中単語番号 # 単語 # 品詞 # その文字数 # 文中の句番号
totalNo SentNo TermNo Term Pos CharN Cid
1 1 1 1 ある 連体詞 2 1
2 2 1 2 日 名詞 1 2
3 3 1 3 の 助詞 1 2
4 4 1 4 事 名詞 1 3
5 5 1 5 で 助動詞 1 3
6 6 1 6 ござい 助動詞 3 3
7 7 1 7 ます 助動詞 2 3
8 8 1 1 。 記号 1 1
9 9 2 1 御 接頭詞 1 1
10 10 2 2 釈迦 名詞 2 1
11 11 2 3 様 名詞 1 1
12 12 2 4 は 助詞 1 1
13 13 2 5 極楽 名詞 2 2
14 14 2 6 の 助詞 1 2
15 15 2 7 蓮池 名詞 2 3
16 16 2 8 の 助詞 1 3
17 17 2 9 ふち 名詞 2 4
18 18 2 10 を 助詞 1 4
19 19 2 11 、 記号 1 4
20 20 2 12 独り 名詞 2 5
...
* CaBoCha 0.60 [#we305e34]
[[ここからダウンロード:http://sourceforge.net/projects/cabocha/]]して,インストールしてください.
[[ここからダウンロード:http://sourceforge.net/projects/cabocha/files/]]して,インストールしてください.
Windowsではファイルをダブルクリックし,文字コードは Shift-JISを選び,後は[続ける]を押すだけです.
Linux や Mac OS X ではかなり面倒な手続きが必要です.[[ここを参考にしてください>和布蕪他インストール]].
* 現在のヴァージョン [#k5093330]
** バージョン 0.13 (R-2.9.0) 2009 年 04 月 20 日 [#mcfc859b]
文字コード周りを修正
** バージョン 0.12 (R-2.9.0) 2009 年 04 月 18 日 [#jc0e09b7]
** バージョン 0.11 (R-2.8.1) 2008 年 12 月 24 日 [#q17740aa]
* 現在のヴァージョン(すべてβ版です) [#k5093330]
* バージョン 0.29β (R-2.13.0) 2011 年 06 月 04 日 [#t6312bb2]
R-2.13.0 対応.
- Windows 版 R 32 bit 用
&ref(RCaBoCha_0.29.zip); (R-2.13.0) :
--(Windows 版 R x64 bit 版は現在のところ用意していません.)
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.29.tgz); (R64 R-2.13.0) : R64でお使いください
-Leopard 32 bit :
&ref(RCaBoCha_0.29maci386.tgz); (R32 R-2.13.0) : R(32bit)でお使いください
-PPC 32 bit :
&ref(RCaBoCha_0.29_PPC.tgz); (R32 R-2.13.0) : R(PPC32bit)でお使いください
-Linux 64 bit :
&ref(RCaBoCha_0.29_R_x86_64-unknown-linux-gnu.tar.gz); (R-2.13.0) :
-Linux 32 bit :
&ref(RCaBoCha_0.29_R_i686-pc-linux-gnu.tar.gz); (R-2.13.0) :
* バージョン 0.28β (R-2.12.0) 2010 年 10 月 28 日 [#d83b21a6]
R-2.12.0 対応.
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.28.zip); (R-2.12.0) :
--(Windows 版 R x64 bit 版は現在のところ用意していません.)
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.28.tgz); (R64 R-2.12.0) : R64でお使いください
-Leopard 32 bit :
&ref(RCaBoCha_0.28_i386.tgz); (R32 R-2.12.0) : R(32bit)でお使いください
-Linux 64 bit :
&ref(RCaBoCha_0.28_R_x86_64-unknown-linux-gnu.tar.gz); (R-2.12.0) :
-Linux 32 bit :
&ref(RCaBoCha_0.28_R_i686-pc-linux-gnu.tar.gz); (R-2.12.0) :
* バージョン 0.27β (R-2.11.1) 2010 年 08 月 29 日 [#d981703e]
R-2.11.1 対応.
conj 引数を追加し,活用語の場合,出力を表層形 (conj = 0: デフォルト) とするか,あるいは原型(conj = 1) とするかを選択できるようにした
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.27.zip); (R-2.11.1) :
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.27_R_x86_64-apple-darwin9.8.0.tgz); (R64 R-2.11.1) : R64でお使いください
-Leopard 32 bit :
&ref(RCaBoCha_0.27.tgz); (R32 R-2.11.1) : R(32bit)でお使いください
-Linux 64 bit :
&ref(RCaBoCha_0.27_R_x86_64-unknown-linux-gnu.tar.gz); (R-2.11.1) :
-Linux 32 bit :
&ref(RCaBoCha_0.27_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1) :
* バージョン 0.26β (R-2.11.1) 2010 年 08 月 28 日 [#y605cecc]
R-2.11.1 対応.
&size(18){&color(blue){かなり大きな変更を加えました};};.要点は,
-1)係り受けをすべて抽出する
-2)mecabrcリソースファイルを指定可能に
-3)RCaBoCha では 0 オプションでTreeを表示しない
ようにしたことです.
CaBoChaそのものが,かなり遅いので,ファイルが大きくなると
解析にも相応に時間がかかりますので注意してください.
mecabrcファイルの指定する場合,ファイルの設定内容に
十分ご注意ください
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.26.zip); (R-2.11.1) :
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.26_R_x86_64-apple-darwin9.8.0.tgz); (R64 R-2.11.1) : R64でお使いください
-Leopard 32 bit :
&ref(RCaBoCha_0.26.tgz); (R32 R-2.11.1) : R(32bit)でお使いください
-Linux 64 bit :
&ref(RCaBoCha_0.26_R_x86_64-unknown-linux-gnu.tar.gz); (R-2.11.1) :
-Linux 32 bit :
&ref(RCaBoCha_0.26_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1) :
// * バージョン 0.25β (R-2.11.1) 未公開 [#j18f9b35]
* バージョン 0.24β (R-2.11.1) 2010 年 06 月 14 日 [#mabc0434]
R-2.11.1 に対応. 機能の追加,変更はありませんが,/CaBoChaのdllを同封しましたので,インストール後, CaBoCha の libcabocha.dll と libcrftt.dll をコピーするなどのに必要はなくなりました.
&ref(RCaBoCha_0.24.zip); (R-2.11.1) :
** バージョン 0.23β (R-2.11.0) 2010 年 04 月 29 日 [#k15f7a07]
R-2.11.0 に対応. 機能の追加,変更はありません.
[[ここから:http://groups.google.co.jp/group/rcabocha]]プラットフォームにあったバージョンをダウンロードしてください
** バージョン 0.23β (R-2.10.1) 2009 年 12 月 17 日 [#qd955da0]
R-2.10.1 に対応. 機能の追加,変更はありません.
** バージョン 0.22β (R-2.10.0) 2009 年 11 月 26 日 [#j7d3203b]
R-2.10.0 に対応. 機能の追加,変更はありません.
** バージョン 0.21β (R-2.9.2) 2009 年 08 月 25 日 [#vf5a2b6d]
R-2.9.2 に対応. 機能の追加,変更はありません.
年内に,もう一度大きなバージョンアップを考えています.
* バージョン 0.20β (R-2.9.0) 2009 年 06 月 13 日 大幅修正版 [#k70abc85]
[[Boostライブラリ>Boost_Install]]を導入し,C++コードを大幅に修正.
- Makevars.win に以下を追記
PKG_CPPFLAGS = -I. -Ic:/Boost/include/boost-1_33_1
# PKG_LIBS = -Lc:/Program\ Files/CaBoCha/bin $(MECAB)
-Lc:/Boost/lib/libboost_regex-mgw.lib # (予備)
** バージョン 0.14β -19 β (R-2.9.0) 2009 年 [#o264efc0]
未公開
* バージョン 0.13β (R-2.9.0) 2009 年 04 月 20 日 大幅修正版[#mcfc859b]
大幅に修正。今までは Linux の UTF-8 作成したC++ソースファイルやDESCRIPTIONは UTF-8 のまま、しかし R ソース、Man ファイルを、Windows常でバイナリを作成する場合には Shift-Jisに変換してコンパイルするという手抜きをしていたが、そろそろ限界なので UTF-8で作成した C++ ソース内で、Riconv_open("", "UTF-8") を使って文字コードをプラットフォームにあわせて変換する処理を行うことにして R ソースや man ファイルから日本語文字列を削除した。
** バージョン 0.12β (R-2.9.0) 2009 年 04 月 18 日 [#jc0e09b7]
** バージョン 0.11β (R-2.8.1) 2008 年 12 月 24 日 [#q17740aa]
以前の R-2.8.0 には文字コードに不具合があるので,できれば最新の R を利用してください.
** バージョン 0.10 (R-2.8.0) 2008 年 11 月 10 日 [#mbdd839f]
** バージョン 0.10β (R-2.8.0) 2008 年 11 月 10 日 [#mbdd839f]
微調整
** バージョン 0.09 (R-2.8.0) 2008 年 11 月 07 日 [#f0f8d07a]
* バージョン 0.09β (R-2.8.0) 2008 年 11 月 07 日 [#f0f8d07a]
文字コードまわりの修正を行った
//** バージョン 0.08 (R-2.8.0) 2008 年 11 月 05 日 [#p5e9d414]
** バージョン 0.07 (R-2.7.1) 2008 年 9 月 26 日 [#jf56709e]
//** バージョン 0.06 (R-2.7.1) 2008年 8月30日 [#zdb23311]
//** バージョン 0.08β (R-2.8.0) 2008 年 11 月 05 日 [#p5e9d414]
** バージョン 0.07β (R-2.7.1) 2008 年 9 月 26 日 [#jf56709e]
//** バージョン 0.06β (R-2.7.1) 2008年 8月30日 [#zdb23311]
* &color(blue){&size(18){Windows 版バイナリ}; }; のインストール方法 [#af8cffd2]
* &color(blue){&size(18){Windows 版 R 用バイナリ}; }; のインストール方法 [#af8cffd2]
(Windows 版 R x64 bit 版は現在のところ用意していません.)
&color(green){&size(16){Windows 版 R 32 bit 用 };};
&ref(RCaBoCha_0.13.zip); (R-2.9.0) &ref(RCaBoCha_0.11.zip); (R-2.8.1), &ref(RCaBoCha_0.07.zip); (R-2.7.1) &ref(SoftArchive/README_RCaBoCha.txt); (Shift-JIS)
&ref(RCaBoCha_0.28.zip); (R-2.12.0) :
&ref(RCaBoCha_0.27.zip); (R-2.11.1) :
//[[RCaBoCha_0.24 beta for R-2.11.0 on Windows ここ:http://groups.google.co.jp/group/rcabocha]]からお使いのプラットフォームにあったバージョンをダウンロードしてください
//[[RCaBoCha_0.23.zip:http://groups.google.co.jp/group/rcabocha]] (R-2.10.1) :
//
//&ref(RCaBoCha_0.22.zip); (R-2.10.0) :
//&ref(RCaBoCha_0.21.zip); (R-2.9.2) : &ref(RCaBoCha_0.20.zip); (R-2.9.0) : &ref(RCaBoCha_0.11.zip); (R-2.8.1), //&ref(RCaBoCha_0.07.zip); (R-2.7.1) &ref(SoftArchive/README_RCaBoCha.txt); (Shift-JIS)
と
付属の環境設定ファイル (CaBoChaへのPATHをWindowsの環境設定に追加したい場合は不要)
-- &ref(RCaBoChaInstall.bat); (標準的なライブラリフォルダ設定の場合)
-- &ref(RCaBoChaInstallXP.bat);(ライブラリフォルダがユーザーフォルダ内にあるXPの場合)
-- &ref(RCaBoChaInstallVista.bat); (ライブラリフォルダがユーザーフォルダ内にあるVISTAの場合)
%%付属の環境設定ファイル (CaBoChaへのPATHをWindowsの環境設定に追加したい場合は不要)%% RCaBoCha_0.25からは不要になりました.
-- %%&ref(RCaBoChaInstall.bat); (標準的なライブラリフォルダ設定の場合) %%
-- %%&ref(RCaBoChaInstallXP.bat);(ライブラリフォルダがユーザーフォルダ内にあるXPの場合) %%
-- %%&ref(RCaBoChaInstallVista.bat); (ライブラリフォルダがユーザーフォルダ内にあるVISTAの場合) :Vistaの場合ファイルを右クリックして [管理者] として実行します.%%
&color(green){&size(20){インストール手順};};
+ まず''&color(red){[[CaBoCha:http://CaBoCha.sourceforge.net/]]};''をインストールしてください.[[ここ:http://sourceforge.net/projects/cabocha/]] から win32バイナリをダウンロードしてインストールします.インストール先は標準設定のまま ''[[C:\Program Files\CaBoCha]]'' とします.また文字コードは Shit-Jis のままとします.なお自身のある方はCaBoChaへのPATHをWindowsの環境設定に追加してください.C:\Program Files\CaBoCha\binをPATHに追記.)
+ まず''&color(red){[[CaBoCha:http://CaBoCha.sourceforge.net/]]};''をインストールしてください.[[ここ:http://sourceforge.net/projects/cabocha/]] から CaBoCha-0.60pre*.zip win32バイナリをダウンロードしてインストールします.インストール先は標準設定のまま ''[[C:\Program Files\CaBoCha]]'' とします.また文字コードは Shit-Jis のままとします.
++ インストール後
必ずしも必要ではありませんが, Windowsの環境設定で CaBoCha へのパスを通します.最新の注意を払って作業してください.
すなわちコントロール・パネルの[システム]アイテムを起動し、
表示される[システムのプロパティ]ダイアログの[詳細設定]タブ
(Windows 2000では[詳細]タブ)
をクリックし、[システム環境変数] (あるいはユーザー環境に新規作成)の PATH の先頭に
C:\Program Files\CaBoCha\bin;
を追記します.最後のセミコロンを忘れないようにしてください.また,既存の内容を上書きしたり, 消したりしないよう, 最新の注意を払って作業してください.
+ 次に ''&color(blue){RCaBoCha_***.zip};'' をRにインストールします.*** の部分はバージョン番号です.Rのメニューから''[パッケージ]''→''[ローカルにあるzipファイルからのパッケージのインストール]''を選んで,ダウンロードした ''&color(blue){RCaBoCha_***.zip};''ファイルを選んでインストールします.[win-libraryを作成したいのですか] と聞いてきた時は OK を押してください(この際,R はユーザーフォルダを作成します).
CaBoChaへのPATHをWindowsの環境設定に追加した方は,続く3.以下の処理は不要です.詳しくは &ref(SoftArchive/README_RCaBoCha.txt); (Shift-JISファイル)をご覧ください.
+ ここで,Rのライブラリフォルダがどこにあるかを確認してください.Rのコンソール画面で ''.libPaths() '' を実行すると分かります.通常はRがインストールされたフォルダになります.
++この結果の''最初の出力 ([1] のすぐ右横の表示内容)'' が
[1] "C:/PROGRA~1/R/R-2*~*.*/library"
のように (*の部分はバージョン番号)なっていれば,R 本体と同じ場所にあります.以下の手順の''4.''までを実行してください.
++ ''.libPaths() '' の''最初の出力''が
[1] "C:\\Document and Settings\\ishida\\Documents/R/win-library/2.7"
あるいは
なお RCaBoCha_0.23 まではインストール後, libcabocha.dll と libcrftt.dll の設定が必要でしたが,RCaBoCha_0.24 からはこの設定作業は不要になりました.
[1] "C:\\Users\\ishida\\Documents/R/win-library/2.7"
ご利用は自己責任でお願いします.
のようにユーザー名を含んでいる場合は,ユーザーフォルダにライブラリはインストールされています.以下の手順の''4.'' は飛ばして,手順の''5.'',場合によっては ''6.'' までを実行してください.
+ 続いて, CaBoCha と R の両方が標準的なフォルダにインストールされた状態であり,またRのライブラリフォルダが R 本体と同じ場所にあれば,&ref(RCaBoChaInstall.bat); をダブルクリック してください.''これでインストールは完了です''.さっそく[[機能>RCaBoCha#kinou]]を試してみてください.なお[[試用データセット>#data]]を用意しました.
+ CaBoCha はデフォルトのままインストール先を変更しなかったが,Rのライブラリフォルダがユーザフォルダになっている場合,XPのユーザーであれば&ref(RCaBoChaInstallXP.bat); を,またVistaのユーザーは&ref(RCaBoChaInstallVista.bat); を実行して,環境設定を行ってください.これでインストールは完了です.
+ 以上です。なお、R 終了時にはワークスペースを保存しないことをお勧めします。言語解析結果は、一般に大きなオブジェクトになり、容量を必要とします。
+ ''&color(red){ここまでの手順でうまく動作しない場合}; ''.
++ CaBoCha と R のインストール先を独自に変更した場合や RCaBoCha が動作しない場合は以下を手作業で実行してください.
+++ CaBoChaをインストールしたフォルダ内の bin フォルダに ''&color(red){libcabocha.dll};'' ''&color(red){libcrtff.dll};'' というファイルがありますので,この二つを R のライブラリ関連フォルダ library にインストールされた RCaBoChaパッケージフォルダ内の ''libs'' フォルダ内にコピーします.
+++ R のインストール先に RCaBoChaパッケージ用のライブラリフォルダが存在しない場合,別の場所,すなわちユーザーフォルダにインストールされた可能性があります.
//''Vistaの場合'' (場合によっては XP でも) 、Rのインストール後にユーザーが追加したRライブラリ類は、&color(red){個人フォルダにインストールされていることがあります};.
例えば個人名のフォルダの中に ''「ドキュメント」''->''「R」''->''「win-library」''->''「2.*」''があり,その中に ''RCaBoCha\libs'' フォルダがあるかもしれません。Rのコンソール画面で ''.libPaths() ''と実行すると分かります.以下は Vista Home Basic にR-2.7.1をインストールし、続いて''RCaBoCha'' をインストールした直後に実行した結果です。
* &color(blue){&size(18){Mac 版バイナリ}; }; のインストール方法 [#nd01f207]
> .libPaths()
[1] "C:\\Users\\ishida\\Documents/R/win-library/2.7"
[2] "C:/PROGRA~1/R/R-27~1.1/library"
&color(green){&size(16){Snow Leopard 64 bit : };};
この場合は ''&color(red){libcabocha.dll};'' と''&color(red){libcrftt.dll};'' を ''win-library/2.8'' の中の''[[RCaBoCha\libs]]'' というフォルダの中に手作業でコピーしてください。
&ref(RCaBoCha_0.29.tgz); (R64 R-2.13.0) : R64でお使いください
&ref(RCaBoCha_0.26_R_x86_64-apple-darwin9.8.0.tgz); (R64 R-2.11.1) : R64でお使いください
&color(green){&size(16){Leopard 32 bit : };};
&ref(RCaBoCha_0.29maci386.tgz); (R32 R-2.13.0) : R(32bit)でお使いください
ご利用は自己責任でお願いします.
* &color(blue){&size(18){Mac 版バイナリ}; }; のインストール方法 [#nd01f207]
&ref(RCaBoCha_0.13.tgz); (R-2.9.0), &ref(RCaBoCha_0.11.tgz); (R-2.8.1), &ref(RCaBoCha_0.07.tgz); (R-2.7.1)
&ref(RCaBoCha_0.29_PPC.tgz); (R32 R-2.13.0) : R(PPC32bit)でお使いください
// [[RCaBoCha_0.24 beta for R-2.11.0 on Mac ここ:http://groups.google.co.jp/group/rcabocha]]からお使いのプラットフォームにあったバージョンをダウンロードしてください
//[[RCaBoCha_0.23.tgz:http://groups.google.co.jp/group/rcabocha]] (R-2.10.1) :
//&ref(RCaBoCha_0.22.tgz); (Snow Leopard R64 R-2.10.0) : //&ref(RCaBoCha_0.21.tgz); (R-2.9.2) : //&ref(RCaBoCha_0.20.tgz); (R-2.9.0) : //&ref(RCaBoCha_0.11.tgz); (R-2.8.1), &ref(RCaBoCha_0.07.tgz); (R-2.7.1)
+ CaBoChaをインストールします.かなり面倒です.[[ここを参考にしてください>和布蕪他インストール]].
+ R を起動します.
メニューから'' [パッケージとデータ]→[パッケージインストーラ]''を選びます.一番上の''CRAN''と表示されているメニューを''[このコンピューター上のバイナリパッケージ]''に変更します.右下の ''installボタン''を押して,ダウンロードした ''&color(blue){RCaBoCha_***.tgz};''を選びます.*** の部分はバージョン番号です.
++ インストールする権限がないといわれた場合は,自分のホームに例えば RLibs などというフォルダを新規作成します。そして,やはりホームに ''.Renviron''というファイルを作成し,中身を次のように編集してください.
R_LIBS=/Users/ishida/Rlibs
''ishida'' の部分は terminal 画面の $ マークの前に表示されているログイン名に変えてください.terminal上では以下のようにしても作成できます.
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron
$ cat .Renviron
++ その上で,Rを起動しなおして,再び''&color(blue){RCaBoCha_***.tgz};'' パッケージをインストールする手続きを行い、ファイルを選ぶ前に ウィンドウ下の ''[ユーザーエリア]'' にチェックを入れておきます.
以上です。なお、R 終了時にはワークスペースを保存しないことをお勧めします。言語解析結果は、一般に大きなオブジェクトになり、容量を必要とします。
ご利用は自己責任でお願いします.
///////////
* &color(blue){&size(18){Linux 版バイナリ & ソース}; }; のインストール方法 [#a0fb2bc3]
&ref(RCaBoCha_0.13.tar.gz); (R-2.9.0), &ref(RCaBoCha_0.11.tar.gz); (R-2.8.1), &ref(RCaBoCha_0.07.tar.gz); (R-2.7.1)
[[RCaBoCha_0.24 beta for R-2.11.0 on Linux ここ:http://groups.google.co.jp/group/rcabocha]]からお使いのプラットフォームにあったバージョンをダウンロードしてください
&color(green){&size(16){Linux 64 bit : };};
&ref(RCaBoCha_0.29_R_x86_64-unknown-linux-gnu.tar.gz); (R-2.13.0) :
&ref(RCaBoCha_0.27_R_x86_64-unknown-linux-gnu.tar.gz); (R-2.11.1) :
color(green){&size(16){Linux 32 bit : };};
&ref(RCaBoCha_0.29_R_i686-pc-linux-gnu.tar.gz); (R-2.13.0) :
&ref(RCaBoCha_0.27_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1) :
//[[RCaBoCha_0.23.tar.gz::http://groups.google.co.jp/group/rcabocha]] (R-2.10.1) :
//&ref(RCaBoCha_0.22.tar.gz); (R-2.10.0) :
//&ref(RCaBoCha_0.21.tar.gz); (R-2.9.2) :
//&ref(RCaBoCha_0.20.tar.gz); (R-2.9.0) : //&ref(RCaBoCha_0.11.tar.gz); (R-2.8.1) : //&ref(RCaBoCha_0.07.tar.gz); (R-2.7.1)
+ CaBoChaをインストールします.かなり面倒です.[[ここを参考にしてください>和布蕪他インストール]].
+ R コンソールで次のように実行してください.
> install.packages("RCaBoCha_0.11.tar.gz", lib.loc = ".",
> install.packages("RCaBoCha_0.26.tar.gz", lib.loc = ".",
repos = NULL)
> library(RCaBoCha)
以上です。なお、R 終了時にはワークスペースを保存しないことをお勧めします。言語解析結果は、一般に大きなオブジェクトになり、容量を必要とします。
//* [[ソース>#Q]] [#ae7b2def]
* 試行用データ [#sba31629]
** &ref(dataRCaBoChaWin.zip); Windows用Shift JIS です。 [#veeede36]
** &ref(dataRCaBoChaUnix.tar.gz); MacOSXやLinux用UTF-8 です。 [#yb05f918]
&aname(Q);
* バージョン履歴:お問い合わせ [#oa08596b]
-お問い合わせはメールをください.関数の追加についても,気楽にご相談ください.
石田基広
ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp
-[[SoftArchive]] [[ソース>RSource]]
-- 掲示板を兼ねてますので,パスワードを設定しています.めかぶです.
* R の参考書 [#oca4f220]
//&htmlinsert(amazontext,asin=,text=);
-&htmlinsert(amazontext,asin=4431712186,text=U・リゲス著『Rの基礎とプログラミング技法』シュプリンガー社); 中級者になるために.
-&htmlinsert(amazontext,asin=4431713123,text=B・エヴェリット著『RとS-PLUSによる多変量解析』シュプリンガー社); 解析をばりばり行うために.
-&htmlinsert(amazontext,asin=4431100474,text=P・スペクター著『Rデータ自由自在』シュプリンガー社); データをばりばり処理するために.
-&htmlinsert(amazontext,asin=4274067572,text=青木繁伸『Rによる統計解析』オーム社); R のプログラミングテクニックを学ぶために.
- &htmlinsert(amazontext,asin=4627096011,text=金明哲『Rによるデータサイエンス』森北書店); R での解析手法に慣れるために.
- &htmlinsert(amazontext,asin=4777511847,text=舟尾暢男『データ解析環境「R」』工学社); とにかく R を使ってみたい.
-&htmlinsert(amazontext,asin=4894717573,text=中澤港『Rによる統計解析の基礎』ピアソンエデュケーション); 統計学と R を同時に学びたい.