トップ
新規
一覧
単語検索
最終更新
ヘルプ
ログイン
アールメカブ
old_info_RCaBoCha_How_to_Install
をテンプレートにして作成
開始行:
[[RCaBoCha]]
[[管理人>admin]] について : 参考ページ [[統計的言語処理]]...
&size(20){&color(red){現在開発を継続中です};};
----------
&size(20){&color(blue){[[RCaBoCha]]パッケージ};};
日本語の係り受け関係を R で解析できるようにします.形態素...
- ''&color(green){テキストマイニング入門};'':[[RMeCab]]...
&htmlinsert(amazontext,asin=4627848412,text=『Rによるテキ...
//『[[Rによるテキストマイニング入門:http://www.amazon.co....
を参照いただければ幸いです.
#contents
* 実装済みの関数 [#e9db8318]
&size(18){&color(blue){RCaBoCha};関数}; : CaBocha の単純...
#####################################################
# RCaBoCha() 関数
#####################################################
# CaBoCha の解析結果をそのまま出力
> RCaBoCha("それは面白い本であった。")
FROMAT_TREE =
それは---D
面白い-D
本であった。
EOS
Term1 Term2 POS D1 D2
1 それ それ 名詞 1 2
2 は は 助詞 1 2
3 面白い 面白い 形容詞 2 2
4 本 本 名詞 3 -1
5 で だ 助動詞 3 -1
6 あっ ある 助動詞 3 -1
7 た た 助動詞 3 -1
8 。 。 記号 3 -1
&size(18){&color(blue){RCaBoChaFreq};関数}; : 否定の係り...
#####################################################
# RCaBoChaFreq() 関数
#####################################################
## CaBoCha の解析結果を頻度表に
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
> RCaBoChaFreq("それは面白い本であった。
しかし、この本に比べると面白くはない。")
string 2 = "ない" setted: length = 0
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ 名詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 に 助詞 1
11 は 助詞 1
12 は+ない 助詞+形容詞 1
13 本 名詞 2
14 比べる 動詞 1
15 面白い 形容詞 1
16 面白い+ない 形容詞+形容詞 1
# 係り受けのタームを指定する.デフォルトは「ない」
> RCaBoChaFreq("それは面白い本であった。
しかし、この本に比べると 面白くはない。", str2 = "は")
string 2 = "は" setted: length = 1
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ+は 名詞+助詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 ない 形容詞 1
11 に 助詞 1
12 本 名詞 2
13 比べる 動詞 1
14 面白い 形容詞 1
15 面白い+は 形容詞+助詞 1
&size(18){&color(blue){RCaBoChaFile};関数}; : ファイルを...
#####################################################
# RCaBoChaFile() 関数
#####################################################
# ファイルを読み込んで頻度表を作成
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
# さらに 引数 rmT =c("記号","助詞") 等として
# 対象としない品詞を指定できます
> res <- RCaBoChaFile("kumo.txt", "")
Pos[0] = 記号 removed
file = kumo.txt
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 10
5 ある 連体詞 3
6 あれ 名詞 1
7 いくら 副詞 2
8 いつの間にか 副詞 1
9 いや 接続詞 3
10 いらっしゃる 動詞 2
...
365 落ちる 動詞 4
366 落ちる+ない 動詞+助動詞 1
367 葉 名詞 2
368 蓮 名詞 4
369 蓮池 名詞 4
...
> res <- RCaBoChaFile("kumo.txt", "の")
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 9
5 ある 連体詞 3
6 ある+の 動詞+名詞 1
7 あれ+の 名詞+助詞 1
8 いくら 副詞 2
9 いつの間にか 副詞 1
10 いや 接続詞 3
...
> res <- RCaBoChaFile("kumo.txt", rmT =c("記号","助詞"...
> res
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
...
399 違い 名詞 1
400 違い+ない 名詞+助動詞 1
...
&size(18){&color(blue){RCaBoChaDF};関数}; : データフレー...
####################################################
# RCaBoChaDF() 関数
#####################################################
## データフレームから文書ターム行列を作成する
# この際、str2引数で指定された語との係り受けを考慮
# デフォルトは 否定の「ない」との係り受けを考慮
# 引数 rmT =c("記号","助詞")等として対象としない品詞を指...
# 引数 minFreq で文書全体を通しての最小頻度を指定できます
> dat <- read.csv("H18koe.csv") ## 沖縄観光についての...
> res <- RCaBoChaDF(dat[,"opinion"])
> nrow(res)
> res[48:53, 1:4]
Term Pos OBS.3 OBS.4
48 あまりに 副詞 0 0
49 あらゆる 連体詞 0 0
50 ありえる+ない 動詞+助動詞 0 0
51 ありがたい 形容詞 0 0
52 ありがとう 感動詞 0 0
53 ありのまま 副詞 0 0
...
> res <- RCaBoChaDF(dat[,"opinion"], str2 = "は" )
> nrow(res)
> res[1000:1005, c(1,2, 23:28)]
Term Pos OBS.23 OBS.24 OBS.25 OBS.26 OB...
1000 取り組み 名詞 0 0 0 0 ...
1001 取り組む 動詞 0 0 0 0 ...
1002 取り組む+は 動詞+助詞 0 0 0 0 ...
1003 取る 動詞 0 0 0 0 ...
1004 取れる 動詞 0 0 0 0 ...
1005 受ける 動詞 0 0 0 0 ...
> res <- RCaBoChaDF(dat[,"opinion"],rmT =c("記号","助詞...
> nrow(res)
> res[1500:1505, c(1,2, 60:65)]
Term Pos OBS.60 OBS.61 OBS.62 OBS...
1500 無くなる 動詞 0 0 0 ...
1501 無くなる+ない 動詞+助動詞 0 0 0 ...
1502 無愛想 名詞 0 0 0 ...
1503 無料 名詞 0 0 0 ...
1504 無理 名詞 0 0 0 ...
1505 無駄 名詞 0 0 0 ...
> res <- RCaBoChaDF(dat[,"opinion"], rmT =c("記号","助...
> nrow(res)
> res[100:110, 1:8]
Term Pos OBS.3 OBS.4 OBS.5 OBS.6 OBS...
100 たい 助動詞 0 0 0 1 ...
101 たくさん 名詞 0 0 0 0 ...
102 ただ 接続詞 0 0 0 0 ...
103 たち 名詞 0 0 0 1 ...
104 たび 名詞 0 0 0 0 ...
105 たむろ 名詞 0 0 0 0 ...
106 ため 名詞 0 0 1 0 ...
107 だ 助動詞 0 0 0 0 ...
108 だ+ない 助動詞+助動詞 0 0 0 0 ...
109 だ+ない 助動詞+形容詞 0 0 0 0 ...
110 だい+ない 名詞+形容詞 0 0 0 0 ...
&size(18){&color(blue){RCaBoChaMx};関数}; : フォルダ全体...
#####################################################
# RCaBoChaMx() 関数
#####################################################
# 単独ファイルあるいはディレクトリから文書ターム行列を...
# この際、str2引数で指定された語との係り受けを考慮
# デフォルトは 否定の「ない」との係り受けを考慮
# 引数 rmT =c("記号","助詞")等として対象としない品詞を指...
# さらに引数 minFreq で文書全体を通しての最小頻度をして...
> res <- RcaBoChaMx("flower")
> nrow(res)
> res
Term Pos hana1.txt hana2.txt hana3.txt...
1 あの 連体詞 0 0 1...
2 う 助動詞 0 0 0...
3 が 助詞 0 0 0...
4 この 連体詞 0 1 0...
5 その 連体詞 1 0 0...
6 だ 助動詞 0 1 0...
7 だ+ない 助動詞+助動詞 1 0 0...
8 だ+ない 助動詞+形容詞 0 0 1...
9 な 助詞 0 0 0...
10 の 名詞 0 0 0...
11 は 助詞 1 1 0...
12 は+ない 助詞+形容詞 0 0 1...
13 も 助詞 0 0 1...
14 やっぱり 副詞 0 0 0...
15 バラ 名詞 0 0 0...
16 桜 名詞 0 0 0...
17 綺麗 名詞 0 1 0...
18 綺麗+ない 名詞+助動詞 1 0 0...
19 綺麗+ない 名詞+形容詞 0 0 1...
20 花 名詞 1 1 1...
> res <- RCaBoChaMx("flower", "は")
> res
Term Pos hana1.txt hana2.txt hana3.txt ha...
1 あの 連体詞 0 0 1 ...
2 う 助動詞 0 0 0 ...
3 が 助詞 0 0 0 ...
4 この 連体詞 0 1 0 ...
5 その 連体詞 1 0 0 ...
6 だ 助動詞 1 1 0 ...
7 だ+は 助動詞+助詞 0 0 1 ...
8 な 助詞 0 0 0 ...
9 ない 助動詞 1 0 0 ...
10 ない 形容詞 0 0 1 ...
11 の+は 名詞+助詞 0 0 0 ...
12 も 助詞 0 0 1 ...
13 やっぱり 副詞 0 0 0 ...
14 バラ 名詞 0 0 0 ...
15 桜 名詞 0 0 0 ...
16 綺麗 名詞 1 1 0 ...
17 綺麗+は 名詞+助詞 0 0 1 ...
18 花 名詞 0 0 1 ...
19 花+は 名詞+助詞 1 1 0 ...
> res <- RCaBoChaMx("flower", rmT = "名詞")
> res
Term Pos hana1.txt hana2.txt hana3.txt ...
1 。 記号 0 0 1 ...
2 あの 連体詞 0 0 1 ...
3 う 助動詞 0 0 0 ...
4 が 助詞 0 0 0 ...
5 この 連体詞 0 1 0 ...
6 その 連体詞 1 0 0 ...
7 だ 助動詞 0 1 0 ...
8 だ+ない 助動詞+助動詞 1 0 0 ...
9 だ+ない 助動詞+形容詞 0 0 1 ...
10 な 助詞 0 0 0 ...
11 は 助詞 1 1 0 ...
12 は+ない 助詞+形容詞 0 0 1 ...
13 も 助詞 0 0 1 ...
14 やっぱり 副詞 0 0 0 ...
15 . 記号 1 1 0 ...
&size(18){&color(blue){RCaBoChaCnt};関数}; : 指定された単...
# totalNo = 文頭からの語数
# SentNo = 文番号
# TermNo = 文中単語番号
# Term = 単語
# Pos = 品詞
# CharN = その文字数
# Cid = 文中の句番号
> res <- RCaBoChaCnt("kumo.txt" )
> res[1:20,]
# 文頭からの語数 # 文番号 # 文中単語番号 # 単語 # 品詞 #...
totalNo SentNo TermNo Term Pos CharN Cid
1 1 1 1 ある 連体詞 2 1
2 2 1 2 日 名詞 1 2
3 3 1 3 の 助詞 1 2
4 4 1 4 事 名詞 1 3
5 5 1 5 で 助動詞 1 3
6 6 1 6 ござい 助動詞 3 3
7 7 1 7 ます 助動詞 2 3
8 8 1 1 。 記号 1 1
9 9 2 1 御 接頭詞 1 1
10 10 2 2 釈迦 名詞 2 1
11 11 2 3 様 名詞 1 1
12 12 2 4 は 助詞 1 1
13 13 2 5 極楽 名詞 2 2
14 14 2 6 の 助詞 1 2
15 15 2 7 蓮池 名詞 2 3
16 16 2 8 の 助詞 1 3
17 17 2 9 ふち 名詞 2 4
18 18 2 10 を 助詞 1 4
19 19 2 11 、 記号 1 4
20 20 2 12 独り 名詞 2 5
...
* CaBoCha 0.60 [#we305e34]
[[ここからダウンロード:http://sourceforge.net/projects/ca...
Windowsではファイルをダブルクリックし,文字コードは Shift...
Linux や Mac OS X ではかなり面倒な手続きが必要です.[[こ...
* 現在のヴァージョン(すべてβ版です) [#k5093330]
* バージョン 0.23β (R-2.11.0) 2010 年 04 月 29 日 [#k15f7...
R-2.11.0 に対応. 機能の追加,変更はありません.
[[ここから:http://groups.google.co.jp/group/rcabocha]]プ...
** バージョン 0.23β (R-2.10.1) 2009 年 12 月 17 日 [#qd95...
R-2.10.1 に対応. 機能の追加,変更はありません.
** バージョン 0.22β (R-2.10.0) 2009 年 11 月 26 日 [#j7d3...
R-2.10.0 に対応. 機能の追加,変更はありません.
** バージョン 0.21β (R-2.9.2) 2009 年 08 月 25 日 [#h5592...
R-2.9.2 に対応. 機能の追加,変更はありません.
年内に,もう一度大きなバージョンアップを考えています.
** バージョン 0.20β (R-2.9.0) 2009 年 06 月 13 日 [#k70ab...
[[Boostライブラリ>Boost_Install]]を導入し,C++コードを大...
- Makevars.win に以下を追記
PKG_CPPFLAGS = -I. -Ic:/Boost/include/boost-1_33_1
# PKG_LIBS = -Lc:/Program\ Files/CaBoCha/bin $(MECAB)
-Lc:/Boost/lib/libboost_regex-mgw.lib # (...
** バージョン 0.14β -19 β (R-2.9.0) 2009 年 [#o264efc0]
未公開
** バージョン 0.13β (R-2.9.0) 2009 年 04 月 20 日 大幅修...
大幅に修正。今までは Linux の UTF-8 作成したC++ソースファ...
** バージョン 0.12β (R-2.9.0) 2009 年 04 月 18 日 [#jc0e0...
** バージョン 0.11β (R-2.8.1) 2008 年 12 月 24 日 [#q1774...
以前の R-2.8.0 には文字コードに不具合があるので,できれば...
** バージョン 0.10β (R-2.8.0) 2008 年 11 月 10 日 [#mbdd8...
微調整
** バージョン 0.09β (R-2.8.0) 2008 年 11 月 07 日 [#f0f8d...
文字コードまわりの修正を行った
//** バージョン 0.08β (R-2.8.0) 2008 年 11 月 05 日 [#p5e...
** バージョン 0.07β (R-2.7.1) 2008 年 9 月 26 日 [#jf5670...
//** バージョン 0.06β (R-2.7.1) 2008年 8月30日 [#zdb23311]
* &color(blue){&size(18){Windows 版バイナリ}; }; のインス...
[[RCaBoCha_0.24 beta for R-2.11.0 on Windows ここ:http://...
[[RCaBoCha_0.23.zip:http://groups.google.co.jp/group/rcab...
&ref(RCaBoCha_0.22.zip); (R-2.10.0) :
&ref(RCaBoCha_0.21.zip); (R-2.9.2) : &ref(RCaBoCha_0.20.z...
と
付属の環境設定ファイル (CaBoChaへのPATHをWindowsの環境設...
-- &ref(RCaBoChaInstall.bat); (標準的なライブラリフォルダ...
-- &ref(RCaBoChaInstallXP.bat);(ライブラリフォルダがユー...
-- &ref(RCaBoChaInstallVista.bat); (ライブラリフォルダが...
&color(green){&size(20){インストール手順};};
+ まず''&color(red){[[CaBoCha:http://CaBoCha.sourceforge....
+ 次に ''&color(blue){RCaBoCha_***.zip};'' をRにインスト...
CaBoChaへのPATHをWindowsの環境設定に追加した方は,続く3....
+ ここで,Rのライブラリフォルダがどこにあるかを確認してく...
++この結果の''最初の出力 ([1] のすぐ右横の表示内容)'' が
[1] "C:/PROGRA~1/R/R-2*~*.*/library"
のように (*の部分はバージョン番号)なっていれば,R 本体と...
++ ''.libPaths() '' の''最初の出力''が
[1] "C:\\Document and Settings\\ishida\\Documents/R/win-...
あるいは
[1] "C:\\Users\\ishida\\Documents/R/win-library/2.7"
のようにユーザー名を含んでいる場合は,ユーザーフォルダに...
+ 続いて, CaBoCha と R の両方が標準的なフォルダにインス...
+ CaBoCha はデフォルトのままインストール先を変更しなかっ...
+ 以上です。なお、R 終了時にはワークスペースを保存しない...
+ ''&color(red){ここまでの手順でうまく動作しない場合}; ''.
++ CaBoCha と R のインストール先を独自に変更した場合や RC...
+++ CaBoChaをインストールしたフォルダ内の bin フォルダに ...
+++ R のインストール先に RCaBoChaパッケージ用のライブラリ...
//''Vistaの場合'' (場合によっては XP でも) 、Rのインスト...
例えば個人名のフォルダの中に ''「ドキュメント」''->''「R...
> .libPaths()
[1] "C:\\Users\\ishida\\Documents/R/win-library/2.7"
[2] "C:/PROGRA~1/R/R-27~1.1/library"
この場合は ''&color(red){libcabocha.dll};'' と''&color(re...
ご利用は自己責任でお願いします.
* &color(blue){&size(18){Mac 版バイナリ}; }; のインストー...
[[RCaBoCha_0.24 beta for R-2.11.0 on Mac ここ:http://grou...
[[RCaBoCha_0.23.tgz:http://groups.google.co.jp/group/rcab...
&ref(RCaBoCha_0.22.tgz); (Snow Leopard R64 R-2.10.0) : &...
+ CaBoChaをインストールします.かなり面倒です.[[ここを参...
+ R を起動します.
メニューから'' [パッケージとデータ]→[パッケージインストー...
++ インストールする権限がないといわれた場合は,自分のホー...
R_LIBS=/Users/ishida/Rlibs
''ishida'' の部分は terminal 画面の $ マークの前に表示さ...
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron
$ cat .Renviron
++ その上で,Rを起動しなおして,再び''&color(blue){RCaBoC...
以上です。なお、R 終了時にはワークスペースを保存しないこ...
ご利用は自己責任でお願いします.
///////////
* &color(blue){&size(18){Linux 版バイナリ & ソース}; }; ...
[[RCaBoCha_0.24 beta for R-2.11.0 on Linux ここ:http://gr...
[[RCaBoCha_0.23.tar.gz::http://groups.google.co.jp/group/...
&ref(RCaBoCha_0.22.tar.gz); (R-2.10.0) :
&ref(RCaBoCha_0.21.tar.gz); (R-2.9.2) :
&ref(RCaBoCha_0.20.tar.gz); (R-2.9.0) : &ref(RCaBoCha_0.1...
+ CaBoChaをインストールします.かなり面倒です.[[ここを参...
+ R コンソールで次のように実行してください.
> install.packages("RCaBoCha_0.11.tar.gz", lib.loc = ".",
repos = NULL)
> library(RCaBoCha)
以上です。なお、R 終了時にはワークスペースを保存しないこ...
//* [[ソース>#Q]] [#ae7b2def]
* 試行用データ [#sba31629]
** &ref(dataRCaBoChaWin.zip); Windows用Shift JIS です。 [...
** &ref(dataRCaBoChaUnix.tar.gz); MacOSXやLinux用UTF-8 で...
&aname(Q);
* バージョン履歴:お問い合わせ [#oa08596b]
-お問い合わせはメールをください.関数の追加についても,気...
石田基広
ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp
-[[SoftArchive]] [[ソース>RSource]]
-- 掲示板を兼ねてますので,パスワードを設定しています.め...
* R の参考書 [#oca4f220]
//&htmlinsert(amazontext,asin=,text=);
-&htmlinsert(amazontext,asin=4431712186,text=U・リゲス著...
-&htmlinsert(amazontext,asin=4431713123,text=B・エヴェリ...
-&htmlinsert(amazontext,asin=4431100474,text=P・スペクタ...
-&htmlinsert(amazontext,asin=4274067572,text=青木繁伸『R...
- &htmlinsert(amazontext,asin=4627096011,text=金明哲『Rに...
- &htmlinsert(amazontext,asin=4777511847,text=舟尾暢男『...
-&htmlinsert(amazontext,asin=4894717573,text=中澤港『Rに...
終了行:
[[RCaBoCha]]
[[管理人>admin]] について : 参考ページ [[統計的言語処理]]...
&size(20){&color(red){現在開発を継続中です};};
----------
&size(20){&color(blue){[[RCaBoCha]]パッケージ};};
日本語の係り受け関係を R で解析できるようにします.形態素...
- ''&color(green){テキストマイニング入門};'':[[RMeCab]]...
&htmlinsert(amazontext,asin=4627848412,text=『Rによるテキ...
//『[[Rによるテキストマイニング入門:http://www.amazon.co....
を参照いただければ幸いです.
#contents
* 実装済みの関数 [#e9db8318]
&size(18){&color(blue){RCaBoCha};関数}; : CaBocha の単純...
#####################################################
# RCaBoCha() 関数
#####################################################
# CaBoCha の解析結果をそのまま出力
> RCaBoCha("それは面白い本であった。")
FROMAT_TREE =
それは---D
面白い-D
本であった。
EOS
Term1 Term2 POS D1 D2
1 それ それ 名詞 1 2
2 は は 助詞 1 2
3 面白い 面白い 形容詞 2 2
4 本 本 名詞 3 -1
5 で だ 助動詞 3 -1
6 あっ ある 助動詞 3 -1
7 た た 助動詞 3 -1
8 。 。 記号 3 -1
&size(18){&color(blue){RCaBoChaFreq};関数}; : 否定の係り...
#####################################################
# RCaBoChaFreq() 関数
#####################################################
## CaBoCha の解析結果を頻度表に
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
> RCaBoChaFreq("それは面白い本であった。
しかし、この本に比べると面白くはない。")
string 2 = "ない" setted: length = 0
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ 名詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 に 助詞 1
11 は 助詞 1
12 は+ない 助詞+形容詞 1
13 本 名詞 2
14 比べる 動詞 1
15 面白い 形容詞 1
16 面白い+ない 形容詞+形容詞 1
# 係り受けのタームを指定する.デフォルトは「ない」
> RCaBoChaFreq("それは面白い本であった。
しかし、この本に比べると 面白くはない。", str2 = "は")
string 2 = "は" setted: length = 1
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ+は 名詞+助詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 ない 形容詞 1
11 に 助詞 1
12 本 名詞 2
13 比べる 動詞 1
14 面白い 形容詞 1
15 面白い+は 形容詞+助詞 1
&size(18){&color(blue){RCaBoChaFile};関数}; : ファイルを...
#####################################################
# RCaBoChaFile() 関数
#####################################################
# ファイルを読み込んで頻度表を作成
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
# さらに 引数 rmT =c("記号","助詞") 等として
# 対象としない品詞を指定できます
> res <- RCaBoChaFile("kumo.txt", "")
Pos[0] = 記号 removed
file = kumo.txt
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 10
5 ある 連体詞 3
6 あれ 名詞 1
7 いくら 副詞 2
8 いつの間にか 副詞 1
9 いや 接続詞 3
10 いらっしゃる 動詞 2
...
365 落ちる 動詞 4
366 落ちる+ない 動詞+助動詞 1
367 葉 名詞 2
368 蓮 名詞 4
369 蓮池 名詞 4
...
> res <- RCaBoChaFile("kumo.txt", "の")
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 9
5 ある 連体詞 3
6 ある+の 動詞+名詞 1
7 あれ+の 名詞+助詞 1
8 いくら 副詞 2
9 いつの間にか 副詞 1
10 いや 接続詞 3
...
> res <- RCaBoChaFile("kumo.txt", rmT =c("記号","助詞"...
> res
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
...
399 違い 名詞 1
400 違い+ない 名詞+助動詞 1
...
&size(18){&color(blue){RCaBoChaDF};関数}; : データフレー...
####################################################
# RCaBoChaDF() 関数
#####################################################
## データフレームから文書ターム行列を作成する
# この際、str2引数で指定された語との係り受けを考慮
# デフォルトは 否定の「ない」との係り受けを考慮
# 引数 rmT =c("記号","助詞")等として対象としない品詞を指...
# 引数 minFreq で文書全体を通しての最小頻度を指定できます
> dat <- read.csv("H18koe.csv") ## 沖縄観光についての...
> res <- RCaBoChaDF(dat[,"opinion"])
> nrow(res)
> res[48:53, 1:4]
Term Pos OBS.3 OBS.4
48 あまりに 副詞 0 0
49 あらゆる 連体詞 0 0
50 ありえる+ない 動詞+助動詞 0 0
51 ありがたい 形容詞 0 0
52 ありがとう 感動詞 0 0
53 ありのまま 副詞 0 0
...
> res <- RCaBoChaDF(dat[,"opinion"], str2 = "は" )
> nrow(res)
> res[1000:1005, c(1,2, 23:28)]
Term Pos OBS.23 OBS.24 OBS.25 OBS.26 OB...
1000 取り組み 名詞 0 0 0 0 ...
1001 取り組む 動詞 0 0 0 0 ...
1002 取り組む+は 動詞+助詞 0 0 0 0 ...
1003 取る 動詞 0 0 0 0 ...
1004 取れる 動詞 0 0 0 0 ...
1005 受ける 動詞 0 0 0 0 ...
> res <- RCaBoChaDF(dat[,"opinion"],rmT =c("記号","助詞...
> nrow(res)
> res[1500:1505, c(1,2, 60:65)]
Term Pos OBS.60 OBS.61 OBS.62 OBS...
1500 無くなる 動詞 0 0 0 ...
1501 無くなる+ない 動詞+助動詞 0 0 0 ...
1502 無愛想 名詞 0 0 0 ...
1503 無料 名詞 0 0 0 ...
1504 無理 名詞 0 0 0 ...
1505 無駄 名詞 0 0 0 ...
> res <- RCaBoChaDF(dat[,"opinion"], rmT =c("記号","助...
> nrow(res)
> res[100:110, 1:8]
Term Pos OBS.3 OBS.4 OBS.5 OBS.6 OBS...
100 たい 助動詞 0 0 0 1 ...
101 たくさん 名詞 0 0 0 0 ...
102 ただ 接続詞 0 0 0 0 ...
103 たち 名詞 0 0 0 1 ...
104 たび 名詞 0 0 0 0 ...
105 たむろ 名詞 0 0 0 0 ...
106 ため 名詞 0 0 1 0 ...
107 だ 助動詞 0 0 0 0 ...
108 だ+ない 助動詞+助動詞 0 0 0 0 ...
109 だ+ない 助動詞+形容詞 0 0 0 0 ...
110 だい+ない 名詞+形容詞 0 0 0 0 ...
&size(18){&color(blue){RCaBoChaMx};関数}; : フォルダ全体...
#####################################################
# RCaBoChaMx() 関数
#####################################################
# 単独ファイルあるいはディレクトリから文書ターム行列を...
# この際、str2引数で指定された語との係り受けを考慮
# デフォルトは 否定の「ない」との係り受けを考慮
# 引数 rmT =c("記号","助詞")等として対象としない品詞を指...
# さらに引数 minFreq で文書全体を通しての最小頻度をして...
> res <- RcaBoChaMx("flower")
> nrow(res)
> res
Term Pos hana1.txt hana2.txt hana3.txt...
1 あの 連体詞 0 0 1...
2 う 助動詞 0 0 0...
3 が 助詞 0 0 0...
4 この 連体詞 0 1 0...
5 その 連体詞 1 0 0...
6 だ 助動詞 0 1 0...
7 だ+ない 助動詞+助動詞 1 0 0...
8 だ+ない 助動詞+形容詞 0 0 1...
9 な 助詞 0 0 0...
10 の 名詞 0 0 0...
11 は 助詞 1 1 0...
12 は+ない 助詞+形容詞 0 0 1...
13 も 助詞 0 0 1...
14 やっぱり 副詞 0 0 0...
15 バラ 名詞 0 0 0...
16 桜 名詞 0 0 0...
17 綺麗 名詞 0 1 0...
18 綺麗+ない 名詞+助動詞 1 0 0...
19 綺麗+ない 名詞+形容詞 0 0 1...
20 花 名詞 1 1 1...
> res <- RCaBoChaMx("flower", "は")
> res
Term Pos hana1.txt hana2.txt hana3.txt ha...
1 あの 連体詞 0 0 1 ...
2 う 助動詞 0 0 0 ...
3 が 助詞 0 0 0 ...
4 この 連体詞 0 1 0 ...
5 その 連体詞 1 0 0 ...
6 だ 助動詞 1 1 0 ...
7 だ+は 助動詞+助詞 0 0 1 ...
8 な 助詞 0 0 0 ...
9 ない 助動詞 1 0 0 ...
10 ない 形容詞 0 0 1 ...
11 の+は 名詞+助詞 0 0 0 ...
12 も 助詞 0 0 1 ...
13 やっぱり 副詞 0 0 0 ...
14 バラ 名詞 0 0 0 ...
15 桜 名詞 0 0 0 ...
16 綺麗 名詞 1 1 0 ...
17 綺麗+は 名詞+助詞 0 0 1 ...
18 花 名詞 0 0 1 ...
19 花+は 名詞+助詞 1 1 0 ...
> res <- RCaBoChaMx("flower", rmT = "名詞")
> res
Term Pos hana1.txt hana2.txt hana3.txt ...
1 。 記号 0 0 1 ...
2 あの 連体詞 0 0 1 ...
3 う 助動詞 0 0 0 ...
4 が 助詞 0 0 0 ...
5 この 連体詞 0 1 0 ...
6 その 連体詞 1 0 0 ...
7 だ 助動詞 0 1 0 ...
8 だ+ない 助動詞+助動詞 1 0 0 ...
9 だ+ない 助動詞+形容詞 0 0 1 ...
10 な 助詞 0 0 0 ...
11 は 助詞 1 1 0 ...
12 は+ない 助詞+形容詞 0 0 1 ...
13 も 助詞 0 0 1 ...
14 やっぱり 副詞 0 0 0 ...
15 . 記号 1 1 0 ...
&size(18){&color(blue){RCaBoChaCnt};関数}; : 指定された単...
# totalNo = 文頭からの語数
# SentNo = 文番号
# TermNo = 文中単語番号
# Term = 単語
# Pos = 品詞
# CharN = その文字数
# Cid = 文中の句番号
> res <- RCaBoChaCnt("kumo.txt" )
> res[1:20,]
# 文頭からの語数 # 文番号 # 文中単語番号 # 単語 # 品詞 #...
totalNo SentNo TermNo Term Pos CharN Cid
1 1 1 1 ある 連体詞 2 1
2 2 1 2 日 名詞 1 2
3 3 1 3 の 助詞 1 2
4 4 1 4 事 名詞 1 3
5 5 1 5 で 助動詞 1 3
6 6 1 6 ござい 助動詞 3 3
7 7 1 7 ます 助動詞 2 3
8 8 1 1 。 記号 1 1
9 9 2 1 御 接頭詞 1 1
10 10 2 2 釈迦 名詞 2 1
11 11 2 3 様 名詞 1 1
12 12 2 4 は 助詞 1 1
13 13 2 5 極楽 名詞 2 2
14 14 2 6 の 助詞 1 2
15 15 2 7 蓮池 名詞 2 3
16 16 2 8 の 助詞 1 3
17 17 2 9 ふち 名詞 2 4
18 18 2 10 を 助詞 1 4
19 19 2 11 、 記号 1 4
20 20 2 12 独り 名詞 2 5
...
* CaBoCha 0.60 [#we305e34]
[[ここからダウンロード:http://sourceforge.net/projects/ca...
Windowsではファイルをダブルクリックし,文字コードは Shift...
Linux や Mac OS X ではかなり面倒な手続きが必要です.[[こ...
* 現在のヴァージョン(すべてβ版です) [#k5093330]
* バージョン 0.23β (R-2.11.0) 2010 年 04 月 29 日 [#k15f7...
R-2.11.0 に対応. 機能の追加,変更はありません.
[[ここから:http://groups.google.co.jp/group/rcabocha]]プ...
** バージョン 0.23β (R-2.10.1) 2009 年 12 月 17 日 [#qd95...
R-2.10.1 に対応. 機能の追加,変更はありません.
** バージョン 0.22β (R-2.10.0) 2009 年 11 月 26 日 [#j7d3...
R-2.10.0 に対応. 機能の追加,変更はありません.
** バージョン 0.21β (R-2.9.2) 2009 年 08 月 25 日 [#h5592...
R-2.9.2 に対応. 機能の追加,変更はありません.
年内に,もう一度大きなバージョンアップを考えています.
** バージョン 0.20β (R-2.9.0) 2009 年 06 月 13 日 [#k70ab...
[[Boostライブラリ>Boost_Install]]を導入し,C++コードを大...
- Makevars.win に以下を追記
PKG_CPPFLAGS = -I. -Ic:/Boost/include/boost-1_33_1
# PKG_LIBS = -Lc:/Program\ Files/CaBoCha/bin $(MECAB)
-Lc:/Boost/lib/libboost_regex-mgw.lib # (...
** バージョン 0.14β -19 β (R-2.9.0) 2009 年 [#o264efc0]
未公開
** バージョン 0.13β (R-2.9.0) 2009 年 04 月 20 日 大幅修...
大幅に修正。今までは Linux の UTF-8 作成したC++ソースファ...
** バージョン 0.12β (R-2.9.0) 2009 年 04 月 18 日 [#jc0e0...
** バージョン 0.11β (R-2.8.1) 2008 年 12 月 24 日 [#q1774...
以前の R-2.8.0 には文字コードに不具合があるので,できれば...
** バージョン 0.10β (R-2.8.0) 2008 年 11 月 10 日 [#mbdd8...
微調整
** バージョン 0.09β (R-2.8.0) 2008 年 11 月 07 日 [#f0f8d...
文字コードまわりの修正を行った
//** バージョン 0.08β (R-2.8.0) 2008 年 11 月 05 日 [#p5e...
** バージョン 0.07β (R-2.7.1) 2008 年 9 月 26 日 [#jf5670...
//** バージョン 0.06β (R-2.7.1) 2008年 8月30日 [#zdb23311]
* &color(blue){&size(18){Windows 版バイナリ}; }; のインス...
[[RCaBoCha_0.24 beta for R-2.11.0 on Windows ここ:http://...
[[RCaBoCha_0.23.zip:http://groups.google.co.jp/group/rcab...
&ref(RCaBoCha_0.22.zip); (R-2.10.0) :
&ref(RCaBoCha_0.21.zip); (R-2.9.2) : &ref(RCaBoCha_0.20.z...
と
付属の環境設定ファイル (CaBoChaへのPATHをWindowsの環境設...
-- &ref(RCaBoChaInstall.bat); (標準的なライブラリフォルダ...
-- &ref(RCaBoChaInstallXP.bat);(ライブラリフォルダがユー...
-- &ref(RCaBoChaInstallVista.bat); (ライブラリフォルダが...
&color(green){&size(20){インストール手順};};
+ まず''&color(red){[[CaBoCha:http://CaBoCha.sourceforge....
+ 次に ''&color(blue){RCaBoCha_***.zip};'' をRにインスト...
CaBoChaへのPATHをWindowsの環境設定に追加した方は,続く3....
+ ここで,Rのライブラリフォルダがどこにあるかを確認してく...
++この結果の''最初の出力 ([1] のすぐ右横の表示内容)'' が
[1] "C:/PROGRA~1/R/R-2*~*.*/library"
のように (*の部分はバージョン番号)なっていれば,R 本体と...
++ ''.libPaths() '' の''最初の出力''が
[1] "C:\\Document and Settings\\ishida\\Documents/R/win-...
あるいは
[1] "C:\\Users\\ishida\\Documents/R/win-library/2.7"
のようにユーザー名を含んでいる場合は,ユーザーフォルダに...
+ 続いて, CaBoCha と R の両方が標準的なフォルダにインス...
+ CaBoCha はデフォルトのままインストール先を変更しなかっ...
+ 以上です。なお、R 終了時にはワークスペースを保存しない...
+ ''&color(red){ここまでの手順でうまく動作しない場合}; ''.
++ CaBoCha と R のインストール先を独自に変更した場合や RC...
+++ CaBoChaをインストールしたフォルダ内の bin フォルダに ...
+++ R のインストール先に RCaBoChaパッケージ用のライブラリ...
//''Vistaの場合'' (場合によっては XP でも) 、Rのインスト...
例えば個人名のフォルダの中に ''「ドキュメント」''->''「R...
> .libPaths()
[1] "C:\\Users\\ishida\\Documents/R/win-library/2.7"
[2] "C:/PROGRA~1/R/R-27~1.1/library"
この場合は ''&color(red){libcabocha.dll};'' と''&color(re...
ご利用は自己責任でお願いします.
* &color(blue){&size(18){Mac 版バイナリ}; }; のインストー...
[[RCaBoCha_0.24 beta for R-2.11.0 on Mac ここ:http://grou...
[[RCaBoCha_0.23.tgz:http://groups.google.co.jp/group/rcab...
&ref(RCaBoCha_0.22.tgz); (Snow Leopard R64 R-2.10.0) : &...
+ CaBoChaをインストールします.かなり面倒です.[[ここを参...
+ R を起動します.
メニューから'' [パッケージとデータ]→[パッケージインストー...
++ インストールする権限がないといわれた場合は,自分のホー...
R_LIBS=/Users/ishida/Rlibs
''ishida'' の部分は terminal 画面の $ マークの前に表示さ...
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron
$ cat .Renviron
++ その上で,Rを起動しなおして,再び''&color(blue){RCaBoC...
以上です。なお、R 終了時にはワークスペースを保存しないこ...
ご利用は自己責任でお願いします.
///////////
* &color(blue){&size(18){Linux 版バイナリ & ソース}; }; ...
[[RCaBoCha_0.24 beta for R-2.11.0 on Linux ここ:http://gr...
[[RCaBoCha_0.23.tar.gz::http://groups.google.co.jp/group/...
&ref(RCaBoCha_0.22.tar.gz); (R-2.10.0) :
&ref(RCaBoCha_0.21.tar.gz); (R-2.9.2) :
&ref(RCaBoCha_0.20.tar.gz); (R-2.9.0) : &ref(RCaBoCha_0.1...
+ CaBoChaをインストールします.かなり面倒です.[[ここを参...
+ R コンソールで次のように実行してください.
> install.packages("RCaBoCha_0.11.tar.gz", lib.loc = ".",
repos = NULL)
> library(RCaBoCha)
以上です。なお、R 終了時にはワークスペースを保存しないこ...
//* [[ソース>#Q]] [#ae7b2def]
* 試行用データ [#sba31629]
** &ref(dataRCaBoChaWin.zip); Windows用Shift JIS です。 [...
** &ref(dataRCaBoChaUnix.tar.gz); MacOSXやLinux用UTF-8 で...
&aname(Q);
* バージョン履歴:お問い合わせ [#oa08596b]
-お問い合わせはメールをください.関数の追加についても,気...
石田基広
ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp
-[[SoftArchive]] [[ソース>RSource]]
-- 掲示板を兼ねてますので,パスワードを設定しています.め...
* R の参考書 [#oca4f220]
//&htmlinsert(amazontext,asin=,text=);
-&htmlinsert(amazontext,asin=4431712186,text=U・リゲス著...
-&htmlinsert(amazontext,asin=4431713123,text=B・エヴェリ...
-&htmlinsert(amazontext,asin=4431100474,text=P・スペクタ...
-&htmlinsert(amazontext,asin=4274067572,text=青木繁伸『R...
- &htmlinsert(amazontext,asin=4627096011,text=金明哲『Rに...
- &htmlinsert(amazontext,asin=4777511847,text=舟尾暢男『...
-&htmlinsert(amazontext,asin=4894717573,text=中澤港『Rに...
ページ名: