トップ
新規
一覧
単語検索
最終更新
ヘルプ
ログイン
アールメカブ
RCaBoCha
をテンプレートにして作成
開始行:
[[管理人>admin]] について : 参考ページ [[統計的言語処理]]...
// &size(20){&color(red){現在開発を継続中です};};
&size(20){&color(red){いったん開発を凍結しました.ここに...
2012 09 30
----------
&size(18){&color(blue){2010年8月28日 RCaBoCha_0.26 にて,...
-- 指定された品詞の係り受けをすべて出力
-- MeCabやユーザー辞書の指定を可能に
-- 活用語の場合,出力を表層形と原型のどちらかを選択可能に
----------
&size(20){&color(blue){[[RCaBoCha]]パッケージ};};
日本語の係り受け関係を R で解析できるようにします.形態素...
- ''&color(green){テキストマイニング入門};'':[[RMeCab]]...
&htmlinsert(amazontext,asin=4627848412,text=『Rによるテキ...
//『[[Rによるテキストマイニング入門:http://www.amazon.co....
を参照いただければ幸いです.
#contents
* 実装済みの関数 [#e9db8318]
&size(18){&color(blue){RCaBoCha};関数}; : CaBocha の単純...
#####################################################
# RCaBoCha() 関数
#####################################################
# CaBoCha の解析結果をそのまま出力
> RCaBoCha("それは面白い本であった。")
FROMAT_TREE =
それは---D
面白い-D
本であった。
EOS
Term1 Term2 POS D1 D2
1 それ それ 名詞 1 2
2 は は 助詞 1 2
3 面白い 面白い 形容詞 2 2
4 本 本 名詞 3 -1
5 で だ 助動詞 3 -1
6 あっ ある 助動詞 3 -1
7 た た 助動詞 3 -1
8 。 。 記号 3 -1
RCaBoCha("それは面白い本であった。",0)# Tree を出さない
RCaBoCha("それは面白い本であった。",
mecabrc="/Users/motohiro/.mecabrc")# mecabrc を指定
----------------------
&size(18){&color(blue){RCaBoChaFreq};関数}; : 否定の係り...
#####################################################
# RCaBoChaFreq() 関数
#####################################################
## CaBoCha の解析結果を頻度表に
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
> RCaBoChaFreq("それは面白い本であった。
しかし、この本に比べると面白くはない。")
string 2 = "ない" setted: length = 0
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ 名詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 に 助詞 1
11 は 助詞 1
12 は+ない 助詞+形容詞 1
13 本 名詞 2
14 比べる 動詞 1
15 面白い 形容詞 1
16 面白い+ない 形容詞+形容詞 1
# 係り受けのタームを指定する.デフォルトは「ない」
> RCaBoChaFreq("それは面白い本であった。しかし、この本...
string 2 = "は" setted: length = 1
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ+は 名詞+助詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 ない 形容詞 1
11 に 助詞 1
12 本 名詞 2
13 比べる 動詞 1
14 面白い 形容詞 1
15 面白い+は 形容詞+助詞 1
mecabrc="/Users/motohiro/.mecabrc" mecabrc を指定可能
----------------------
&size(18){&color(blue){RCaBoChaFile};関数}; : ファイルを...
#####################################################
# RCaBoChaFile() 関数
#####################################################
# ファイルを読み込んで頻度表を作成
# 引数 conj = 0 活用語はそのまま表層形で
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
# さらに 引数 rmT =c("記号","助詞") 等として
# 対象としない品詞を指定できます
> res <- RCaBoChaFile("kumo.txt", "")
Pos[0] = 記号 removed
file = kumo.txt
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 10
5 ある 連体詞 3
6 あれ 名詞 1
7 いくら 副詞 2
8 いつの間にか 副詞 1
9 いや 接続詞 3
10 いらっしゃる 動詞 2
...
365 落ちる 動詞 4
366 落ちる+ない 動詞+助動詞 1
367 葉 名詞 2
368 蓮 名詞 4
369 蓮池 名詞 4
...
> res <- RCaBoChaFile("kumo.txt", "の")
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 9
5 ある 連体詞 3
6 ある+の 動詞+名詞 1
7 あれ+の 名詞+助詞 1
8 いくら 副詞 2
9 いつの間にか 副詞 1
10 いや 接続詞 3
...
> res <- RCaBoChaFile("kumo.txt", rmT =c("記号","助詞"...
> res
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
...
399 違い 名詞 1
400 違い+ない 名詞+助動詞 1
...
res <- RCaBoChaFile("kumo.txt", conj = 0)
## conj = 0 活用語はそのまま表層形で
res <- RCaBoChaFile("kumo.txt", rmT =c("記号","助詞") ,...
## mecabrc を指定.念のため絶対パスで指定してください
----------------------
&size(18){&color(blue){RCaBoChaDF};関数}; : データフレー...
####################################################
# RCaBoChaDF() 関数
#####################################################
## データフレームから文書ターム行列を作成する。
##
# RCaBoCha_0.25 までの rmT str2 は廃止しました
# 引数 conj = 0 活用語はそのまま表層形で
# 引数 pos =c("名詞","形容詞") などで抽出する品詞を指定...
## デフォルトでは pos =c("名詞","形容詞","動詞") がセッ...
# 引数 minFreq で文書全体を通しての最小頻度を指定できます
dat <- read.csv("H18koe.csv") ## 沖縄観光についての自由...
res <- RCaBoChaDF(dat[,"opinion"])##やや時間がかかります
nrow(res)
# [1] 2263
head(res[200:205, 1:5])
# TERM POS1 POS2 ROW3 ROW4
#200 どこ+店 名詞+名詞 代名詞+名詞 0 0
#201 どちら+下車 名詞+名詞 代名詞+名詞 0 0
#202 どれ+の 名詞+名詞 代名詞+名詞 0 0
#203 どれ+料理 名詞+名詞 代名詞+名詞 0 0
#204 どれ+沖縄 名詞+名詞 代名詞+名詞 0 0
#205 ない+こと 助動詞+名詞 *+名詞 0 0
head(res[res$POS1 %in% c("名詞+動詞", "形容詞+名詞"), 1:...
## "名詞+動詞" あるいは "形容詞+名詞" のケースをみる
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容...
nrow(res)
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容...
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容...
mecabrc = "/Users/motohiro/.mecabrc")
## mecabrc を指定.念のため絶対パスで指定してください
res <- RCaBoChaDF(dat[,"opinion"], conj = 0)
## 活用語はそのまま表層形で
----------------------
&size(18){&color(blue){RCaBoChaMx};関数}; : フォルダ全体...
#####################################################
# RCaBoChaMx() 関数
#####################################################
## ファイルあるいはディレクトリから文書ターム行列を作成。
# RCaBoCha_0.25 までの rmT str2 は廃止しました
# 引数 conj = 0 活用語はそのまま表層形で
# 引数 pos =c("名詞","形容詞") などで抽出する品詞を指定...
## デフォルトでは pos =c("名詞","形容詞","動詞") がセッ...
# さらに引数 minFreq で文書全体を通しての最小頻度を指定...
res <- RCaBoChaMx("morikita")
## file_name = morikita/morikita1.txt opened
## file_name = morikita/morikita2.txt opened
## file_name = morikita/morikita3.txt opened
nrow(res)## [1] 66
res[50:55,]
# TERM POS1 POS2 morikita1.txt mori...
#50 科学+者 名詞+名詞 一般+名詞 0 ...
#51 系+化 名詞+名詞 接尾+名詞 1 ...
#52 系+特 名詞+名詞 接尾+名詞 1 ...
#53 編曲+感じ 名詞+名詞 サ変接続+名詞 0 ...
#54 編集+感じ 名詞+名詞 サ変接続+名詞 0 ...
#55 者+企業 名詞+名詞 接尾+名詞 0 ...
# morikita3.txt
#50 1
#51 0
#52 0
#53 0
#54 0
#55 0
res <- RCaBoChaMx("morikita",pos = c("名詞","形容詞","動...
nrow(res)
#res <- RCaBoChaMx("morikita",pos = c("名詞","形容詞","...
----------------------
&size(18){&color(blue){RCaBoChaCnt};関数}; : 指定された単...
# totalNo = 文頭からの語数
# SentNo = 文番号
# TermNo = 文中単語番号
# Term = 単語
# Pos = 品詞
# CharN = その文字数
# Cid = 文中の句番号
> res <- RCaBoChaCnt("kumo.txt" )
> res[1:20,]
# 文頭からの語数 # 文番号 # 文中単語番号 # 単語 # 品詞 #...
totalNo SentNo TermNo Term Pos CharN Cid
1 1 1 1 ある 連体詞 2 1
2 2 1 2 日 名詞 1 2
3 3 1 3 の 助詞 1 2
4 4 1 4 事 名詞 1 3
5 5 1 5 で 助動詞 1 3
6 6 1 6 ござい 助動詞 3 3
7 7 1 7 ます 助動詞 2 3
8 8 1 1 。 記号 1 1
9 9 2 1 御 接頭詞 1 1
10 10 2 2 釈迦 名詞 2 1
11 11 2 3 様 名詞 1 1
12 12 2 4 は 助詞 1 1
13 13 2 5 極楽 名詞 2 2
14 14 2 6 の 助詞 1 2
15 15 2 7 蓮池 名詞 2 3
16 16 2 8 の 助詞 1 3
17 17 2 9 ふち 名詞 2 4
18 18 2 10 を 助詞 1 4
19 19 2 11 、 記号 1 4
20 20 2 12 独り 名詞 2 5
...
* CaBoCha 0.60 [#we305e34]
[[ここからダウンロード:http://sourceforge.net/projects/ca...
Windowsではファイルをダブルクリックし,文字コードは Shift...
Linux や Mac OS X ではかなり面倒な手続きが必要です.[[こ...
* 現在のヴァージョン(すべてβ版です) [#k5093330]
* バージョン 0.29β (R-2.13.0) 2011 年 06 月 04 日 [#t6312...
R-2.13.0 対応.
- Windows 版 R 32 bit 用
&ref(RCaBoCha_0.29.zip); (R-2.13.0) :
--(Windows 版 R x64 bit 版は現在のところ用意していません.)
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.29.tgz); (R64 R-2.13.0) : R64でお使いくだ...
-Leopard 32 bit :
&ref(RCaBoCha_0.29maci386.tgz); (R32 R-2.13.0) : R(32bit)...
-PPC 32 bit :
&ref(RCaBoCha_0.29_PPC.tgz); (R32 R-2.13.0) : R(PPC32bit)...
-Linux 64 bit :
&ref(RCaBoCha_0.29_R_x86_64-unknown-linux-gnu.tar.gz); (R...
-Linux 32 bit :
&ref(RCaBoCha_0.29_R_i686-pc-linux-gnu.tar.gz); (R-2.13.0...
* バージョン 0.28β (R-2.12.0) 2010 年 10 月 28 日 [#d83b2...
R-2.12.0 対応.
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.28.zip); (R-2.12.0) :
--(Windows 版 R x64 bit 版は現在のところ用意していません.)
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.28.tgz); (R64 R-2.12.0) : R64でお使いくだ...
-Leopard 32 bit :
&ref(RCaBoCha_0.28_i386.tgz); (R32 R-2.12.0) : R(32bit)で...
-Linux 64 bit :
&ref(RCaBoCha_0.28_R_x86_64-unknown-linux-gnu.tar.gz); (R...
-Linux 32 bit :
&ref(RCaBoCha_0.28_R_i686-pc-linux-gnu.tar.gz); (R-2.12.0...
* バージョン 0.27β (R-2.11.1) 2010 年 08 月 29 日 [#d9817...
R-2.11.1 対応.
conj 引数を追加し,活用語の場合,出力を表層形 (conj = 0: ...
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.27.zip); (R-2.11.1) :
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.27_R_x86_64-apple-darwin9.8.0.tgz); (R64 ...
-Leopard 32 bit :
&ref(RCaBoCha_0.27.tgz); (R32 R-2.11.1) : R(32bit)でお使...
-Linux 64 bit :
&ref(RCaBoCha_0.27_R_x86_64-unknown-linux-gnu.tar.gz); (R...
-Linux 32 bit :
&ref(RCaBoCha_0.27_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1...
* バージョン 0.26β (R-2.11.1) 2010 年 08 月 28 日 [#y605c...
R-2.11.1 対応.
&size(18){&color(blue){かなり大きな変更を加えました};};....
-1)係り受けをすべて抽出する
-2)mecabrcリソースファイルを指定可能に
-3)RCaBoCha では 0 オプションでTreeを表示しない
ようにしたことです.
CaBoChaそのものが,かなり遅いので,ファイルが大きくなると
解析にも相応に時間がかかりますので注意してください.
mecabrcファイルの指定する場合,ファイルの設定内容に
十分ご注意ください
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.26.zip); (R-2.11.1) :
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.26_R_x86_64-apple-darwin9.8.0.tgz); (R64 ...
-Leopard 32 bit :
&ref(RCaBoCha_0.26.tgz); (R32 R-2.11.1) : R(32bit)でお使...
-Linux 64 bit :
&ref(RCaBoCha_0.26_R_x86_64-unknown-linux-gnu.tar.gz); (R...
-Linux 32 bit :
&ref(RCaBoCha_0.26_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1...
// * バージョン 0.25β (R-2.11.1) 未公開 [#j18f9b35]
* バージョン 0.24β (R-2.11.1) 2010 年 06 月 14 日 [#mabc0...
R-2.11.1 に対応. 機能の追加,変更はありませんが,/CaBoCha...
&ref(RCaBoCha_0.24.zip); (R-2.11.1) :
** バージョン 0.23β (R-2.11.0) 2010 年 04 月 29 日 [#k15f...
R-2.11.0 に対応. 機能の追加,変更はありません.
[[ここから:http://groups.google.co.jp/group/rcabocha]]プ...
** バージョン 0.23β (R-2.10.1) 2009 年 12 月 17 日 [#qd95...
R-2.10.1 に対応. 機能の追加,変更はありません.
** バージョン 0.22β (R-2.10.0) 2009 年 11 月 26 日 [#j7d3...
R-2.10.0 に対応. 機能の追加,変更はありません.
** バージョン 0.21β (R-2.9.2) 2009 年 08 月 25 日 [#vf5a2...
R-2.9.2 に対応. 機能の追加,変更はありません.
年内に,もう一度大きなバージョンアップを考えています.
* バージョン 0.20β (R-2.9.0) 2009 年 06 月 13 日 大幅修...
[[Boostライブラリ>Boost_Install]]を導入し,C++コードを大...
- Makevars.win に以下を追記
PKG_CPPFLAGS = -I. -Ic:/Boost/include/boost-1_33_1
# PKG_LIBS = -Lc:/Program\ Files/CaBoCha/bin $(MECAB)
-Lc:/Boost/lib/libboost_regex-mgw.lib # (...
** バージョン 0.14β -19 β (R-2.9.0) 2009 年 [#o264efc0]
未公開
* バージョン 0.13β (R-2.9.0) 2009 年 04 月 20 日 大幅修正...
大幅に修正。今までは Linux の UTF-8 作成したC++ソースファ...
** バージョン 0.12β (R-2.9.0) 2009 年 04 月 18 日 [#jc0e0...
** バージョン 0.11β (R-2.8.1) 2008 年 12 月 24 日 [#q1774...
以前の R-2.8.0 には文字コードに不具合があるので,できれば...
** バージョン 0.10β (R-2.8.0) 2008 年 11 月 10 日 [#mbdd8...
微調整
* バージョン 0.09β (R-2.8.0) 2008 年 11 月 07 日 [#f0f8d0...
文字コードまわりの修正を行った
//** バージョン 0.08β (R-2.8.0) 2008 年 11 月 05 日 [#p5e...
** バージョン 0.07β (R-2.7.1) 2008 年 9 月 26 日 [#jf5670...
//** バージョン 0.06β (R-2.7.1) 2008年 8月30日 [#zdb23311]
* &color(blue){&size(18){Windows 版 R 用バイナリ}; }; の...
(Windows 版 R x64 bit 版は現在のところ用意していません.)
&color(green){&size(16){Windows 版 R 32 bit 用 };};
&ref(RCaBoCha_0.28.zip); (R-2.12.0) :
&ref(RCaBoCha_0.27.zip); (R-2.11.1) :
//[[RCaBoCha_0.24 beta for R-2.11.0 on Windows ここ:http:...
//[[RCaBoCha_0.23.zip:http://groups.google.co.jp/group/rc...
//
//&ref(RCaBoCha_0.22.zip); (R-2.10.0) :
//&ref(RCaBoCha_0.21.zip); (R-2.9.2) : &ref(RCaBoCha_0.20...
と
%%付属の環境設定ファイル (CaBoChaへのPATHをWindowsの環境...
-- %%&ref(RCaBoChaInstall.bat); (標準的なライブラリフォル...
-- %%&ref(RCaBoChaInstallXP.bat);(ライブラリフォルダがユ...
-- %%&ref(RCaBoChaInstallVista.bat); (ライブラリフォルダ...
&color(green){&size(20){インストール手順};};
+ まず''&color(red){[[CaBoCha:http://CaBoCha.sourceforge....
++ インストール後
必ずしも必要ではありませんが, Windowsの環境設定で CaBoCha...
すなわちコントロール・パネルの[システム]アイテムを起動...
表示される[システムのプロパティ]ダイアログの[詳細設定...
(Windows 2000では[詳細]タブ)
をクリックし、[システム環境変数] (あるいはユーザー環境に...
C:\Program Files\CaBoCha\bin;
を追記します.最後のセミコロンを忘れないようにしてくださ...
+ 次に ''&color(blue){RCaBoCha_***.zip};'' をRにインスト...
なお RCaBoCha_0.23 まではインストール後, libcabocha.dll ...
ご利用は自己責任でお願いします.
* &color(blue){&size(18){Mac 版バイナリ}; }; のインストー...
&color(green){&size(16){Snow Leopard 64 bit : };};
&ref(RCaBoCha_0.29.tgz); (R64 R-2.13.0) : R64でお使いくだ...
&ref(RCaBoCha_0.26_R_x86_64-apple-darwin9.8.0.tgz); (R64 ...
&color(green){&size(16){Leopard 32 bit : };};
&ref(RCaBoCha_0.29maci386.tgz); (R32 R-2.13.0) : R(32bit)...
&ref(RCaBoCha_0.29_PPC.tgz); (R32 R-2.13.0) : R(PPC32bit)...
// [[RCaBoCha_0.24 beta for R-2.11.0 on Mac ここ:http://g...
//[[RCaBoCha_0.23.tgz:http://groups.google.co.jp/group/rc...
//&ref(RCaBoCha_0.22.tgz); (Snow Leopard R64 R-2.10.0) : ...
+ CaBoChaをインストールします.かなり面倒です.[[ここを参...
+ R を起動します.
メニューから'' [パッケージとデータ]→[パッケージインストー...
++ インストールする権限がないといわれた場合は,自分のホー...
R_LIBS=/Users/ishida/Rlibs
''ishida'' の部分は terminal 画面の $ マークの前に表示さ...
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron
$ cat .Renviron
++ その上で,Rを起動しなおして,再び''&color(blue){RCaBoC...
以上です。なお、R 終了時にはワークスペースを保存しないこ...
ご利用は自己責任でお願いします.
///////////
* &color(blue){&size(18){Linux 版バイナリ & ソース}; }; ...
[[RCaBoCha_0.24 beta for R-2.11.0 on Linux ここ:http://gr...
&color(green){&size(16){Linux 64 bit : };};
&ref(RCaBoCha_0.29_R_x86_64-unknown-linux-gnu.tar.gz); (R...
&ref(RCaBoCha_0.27_R_x86_64-unknown-linux-gnu.tar.gz); (R...
color(green){&size(16){Linux 32 bit : };};
&ref(RCaBoCha_0.29_R_i686-pc-linux-gnu.tar.gz); (R-2.13.0...
&ref(RCaBoCha_0.27_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1...
//[[RCaBoCha_0.23.tar.gz::http://groups.google.co.jp/grou...
//&ref(RCaBoCha_0.22.tar.gz); (R-2.10.0) :
//&ref(RCaBoCha_0.21.tar.gz); (R-2.9.2) :
//&ref(RCaBoCha_0.20.tar.gz); (R-2.9.0) : //&ref(RCaBoCha...
+ CaBoChaをインストールします.かなり面倒です.[[ここを参...
+ R コンソールで次のように実行してください.
> install.packages("RCaBoCha_0.26.tar.gz", lib.loc = ".",
repos = NULL)
> library(RCaBoCha)
以上です。なお、R 終了時にはワークスペースを保存しないこ...
//* [[ソース>#Q]] [#ae7b2def]
* 試行用データ [#sba31629]
** &ref(dataRCaBoChaWin.zip); Windows用Shift JIS です。 [...
** &ref(dataRCaBoChaUnix.tar.gz); MacOSXやLinux用UTF-8 で...
&aname(Q);
* バージョン履歴:お問い合わせ [#oa08596b]
-お問い合わせはメールをください.関数の追加についても,気...
石田基広
ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp
-[[SoftArchive]] [[ソース>RSource]]
-- 掲示板を兼ねてますので,パスワードを設定しています.め...
* R の参考書 [#oca4f220]
//&htmlinsert(amazontext,asin=,text=);
-&htmlinsert(amazontext,asin=4431712186,text=U・リゲス著...
-&htmlinsert(amazontext,asin=4431713123,text=B・エヴェリ...
-&htmlinsert(amazontext,asin=4431100474,text=P・スペクタ...
-&htmlinsert(amazontext,asin=4274067572,text=青木繁伸『R...
- &htmlinsert(amazontext,asin=4627096011,text=金明哲『Rに...
- &htmlinsert(amazontext,asin=4777511847,text=舟尾暢男『...
-&htmlinsert(amazontext,asin=4894717573,text=中澤港『Rに...
終了行:
[[管理人>admin]] について : 参考ページ [[統計的言語処理]]...
// &size(20){&color(red){現在開発を継続中です};};
&size(20){&color(red){いったん開発を凍結しました.ここに...
2012 09 30
----------
&size(18){&color(blue){2010年8月28日 RCaBoCha_0.26 にて,...
-- 指定された品詞の係り受けをすべて出力
-- MeCabやユーザー辞書の指定を可能に
-- 活用語の場合,出力を表層形と原型のどちらかを選択可能に
----------
&size(20){&color(blue){[[RCaBoCha]]パッケージ};};
日本語の係り受け関係を R で解析できるようにします.形態素...
- ''&color(green){テキストマイニング入門};'':[[RMeCab]]...
&htmlinsert(amazontext,asin=4627848412,text=『Rによるテキ...
//『[[Rによるテキストマイニング入門:http://www.amazon.co....
を参照いただければ幸いです.
#contents
* 実装済みの関数 [#e9db8318]
&size(18){&color(blue){RCaBoCha};関数}; : CaBocha の単純...
#####################################################
# RCaBoCha() 関数
#####################################################
# CaBoCha の解析結果をそのまま出力
> RCaBoCha("それは面白い本であった。")
FROMAT_TREE =
それは---D
面白い-D
本であった。
EOS
Term1 Term2 POS D1 D2
1 それ それ 名詞 1 2
2 は は 助詞 1 2
3 面白い 面白い 形容詞 2 2
4 本 本 名詞 3 -1
5 で だ 助動詞 3 -1
6 あっ ある 助動詞 3 -1
7 た た 助動詞 3 -1
8 。 。 記号 3 -1
RCaBoCha("それは面白い本であった。",0)# Tree を出さない
RCaBoCha("それは面白い本であった。",
mecabrc="/Users/motohiro/.mecabrc")# mecabrc を指定
----------------------
&size(18){&color(blue){RCaBoChaFreq};関数}; : 否定の係り...
#####################################################
# RCaBoChaFreq() 関数
#####################################################
## CaBoCha の解析結果を頻度表に
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
> RCaBoChaFreq("それは面白い本であった。
しかし、この本に比べると面白くはない。")
string 2 = "ない" setted: length = 0
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ 名詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 に 助詞 1
11 は 助詞 1
12 は+ない 助詞+形容詞 1
13 本 名詞 2
14 比べる 動詞 1
15 面白い 形容詞 1
16 面白い+ない 形容詞+形容詞 1
# 係り受けのタームを指定する.デフォルトは「ない」
> RCaBoChaFreq("それは面白い本であった。しかし、この本...
string 2 = "は" setted: length = 1
Term Pos Freq
1 、 記号 1
2 。 記号 2
3 ある 助動詞 1
4 この 連体詞 1
5 しかし 接続詞 1
6 それ+は 名詞+助詞 1
7 た 助動詞 1
8 だ 助動詞 1
9 と 助詞 1
10 ない 形容詞 1
11 に 助詞 1
12 本 名詞 2
13 比べる 動詞 1
14 面白い 形容詞 1
15 面白い+は 形容詞+助詞 1
mecabrc="/Users/motohiro/.mecabrc" mecabrc を指定可能
----------------------
&size(18){&color(blue){RCaBoChaFile};関数}; : ファイルを...
#####################################################
# RCaBoChaFile() 関数
#####################################################
# ファイルを読み込んで頻度表を作成
# 引数 conj = 0 活用語はそのまま表層形で
# この際、str2 で指定したタームとの係り受けを考慮.
# 指定されない場合は 否定の「ない」との係り受けを考慮
# さらに 引数 rmT =c("記号","助詞") 等として
# 対象としない品詞を指定できます
> res <- RCaBoChaFile("kumo.txt", "")
Pos[0] = 記号 removed
file = kumo.txt
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 10
5 ある 連体詞 3
6 あれ 名詞 1
7 いくら 副詞 2
8 いつの間にか 副詞 1
9 いや 接続詞 3
10 いらっしゃる 動詞 2
...
365 落ちる 動詞 4
366 落ちる+ない 動詞+助動詞 1
367 葉 名詞 2
368 蓮 名詞 4
369 蓮池 名詞 4
...
> res <- RCaBoChaFile("kumo.txt", "の")
> res
Term Pos Freq
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
4 ある 動詞 9
5 ある 連体詞 3
6 ある+の 動詞+名詞 1
7 あれ+の 名詞+助詞 1
8 いくら 副詞 2
9 いつの間にか 副詞 1
10 いや 接続詞 3
...
> res <- RCaBoChaFile("kumo.txt", rmT =c("記号","助詞"...
> res
1 あたり 名詞 3
2 あっ 感動詞 1
3 あの フィラー 1
...
399 違い 名詞 1
400 違い+ない 名詞+助動詞 1
...
res <- RCaBoChaFile("kumo.txt", conj = 0)
## conj = 0 活用語はそのまま表層形で
res <- RCaBoChaFile("kumo.txt", rmT =c("記号","助詞") ,...
## mecabrc を指定.念のため絶対パスで指定してください
----------------------
&size(18){&color(blue){RCaBoChaDF};関数}; : データフレー...
####################################################
# RCaBoChaDF() 関数
#####################################################
## データフレームから文書ターム行列を作成する。
##
# RCaBoCha_0.25 までの rmT str2 は廃止しました
# 引数 conj = 0 活用語はそのまま表層形で
# 引数 pos =c("名詞","形容詞") などで抽出する品詞を指定...
## デフォルトでは pos =c("名詞","形容詞","動詞") がセッ...
# 引数 minFreq で文書全体を通しての最小頻度を指定できます
dat <- read.csv("H18koe.csv") ## 沖縄観光についての自由...
res <- RCaBoChaDF(dat[,"opinion"])##やや時間がかかります
nrow(res)
# [1] 2263
head(res[200:205, 1:5])
# TERM POS1 POS2 ROW3 ROW4
#200 どこ+店 名詞+名詞 代名詞+名詞 0 0
#201 どちら+下車 名詞+名詞 代名詞+名詞 0 0
#202 どれ+の 名詞+名詞 代名詞+名詞 0 0
#203 どれ+料理 名詞+名詞 代名詞+名詞 0 0
#204 どれ+沖縄 名詞+名詞 代名詞+名詞 0 0
#205 ない+こと 助動詞+名詞 *+名詞 0 0
head(res[res$POS1 %in% c("名詞+動詞", "形容詞+名詞"), 1:...
## "名詞+動詞" あるいは "形容詞+名詞" のケースをみる
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容...
nrow(res)
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容...
res <- RCaBoChaDF(dat[,"opinion"], pos = c("名詞","形容...
mecabrc = "/Users/motohiro/.mecabrc")
## mecabrc を指定.念のため絶対パスで指定してください
res <- RCaBoChaDF(dat[,"opinion"], conj = 0)
## 活用語はそのまま表層形で
----------------------
&size(18){&color(blue){RCaBoChaMx};関数}; : フォルダ全体...
#####################################################
# RCaBoChaMx() 関数
#####################################################
## ファイルあるいはディレクトリから文書ターム行列を作成。
# RCaBoCha_0.25 までの rmT str2 は廃止しました
# 引数 conj = 0 活用語はそのまま表層形で
# 引数 pos =c("名詞","形容詞") などで抽出する品詞を指定...
## デフォルトでは pos =c("名詞","形容詞","動詞") がセッ...
# さらに引数 minFreq で文書全体を通しての最小頻度を指定...
res <- RCaBoChaMx("morikita")
## file_name = morikita/morikita1.txt opened
## file_name = morikita/morikita2.txt opened
## file_name = morikita/morikita3.txt opened
nrow(res)## [1] 66
res[50:55,]
# TERM POS1 POS2 morikita1.txt mori...
#50 科学+者 名詞+名詞 一般+名詞 0 ...
#51 系+化 名詞+名詞 接尾+名詞 1 ...
#52 系+特 名詞+名詞 接尾+名詞 1 ...
#53 編曲+感じ 名詞+名詞 サ変接続+名詞 0 ...
#54 編集+感じ 名詞+名詞 サ変接続+名詞 0 ...
#55 者+企業 名詞+名詞 接尾+名詞 0 ...
# morikita3.txt
#50 1
#51 0
#52 0
#53 0
#54 0
#55 0
res <- RCaBoChaMx("morikita",pos = c("名詞","形容詞","動...
nrow(res)
#res <- RCaBoChaMx("morikita",pos = c("名詞","形容詞","...
----------------------
&size(18){&color(blue){RCaBoChaCnt};関数}; : 指定された単...
# totalNo = 文頭からの語数
# SentNo = 文番号
# TermNo = 文中単語番号
# Term = 単語
# Pos = 品詞
# CharN = その文字数
# Cid = 文中の句番号
> res <- RCaBoChaCnt("kumo.txt" )
> res[1:20,]
# 文頭からの語数 # 文番号 # 文中単語番号 # 単語 # 品詞 #...
totalNo SentNo TermNo Term Pos CharN Cid
1 1 1 1 ある 連体詞 2 1
2 2 1 2 日 名詞 1 2
3 3 1 3 の 助詞 1 2
4 4 1 4 事 名詞 1 3
5 5 1 5 で 助動詞 1 3
6 6 1 6 ござい 助動詞 3 3
7 7 1 7 ます 助動詞 2 3
8 8 1 1 。 記号 1 1
9 9 2 1 御 接頭詞 1 1
10 10 2 2 釈迦 名詞 2 1
11 11 2 3 様 名詞 1 1
12 12 2 4 は 助詞 1 1
13 13 2 5 極楽 名詞 2 2
14 14 2 6 の 助詞 1 2
15 15 2 7 蓮池 名詞 2 3
16 16 2 8 の 助詞 1 3
17 17 2 9 ふち 名詞 2 4
18 18 2 10 を 助詞 1 4
19 19 2 11 、 記号 1 4
20 20 2 12 独り 名詞 2 5
...
* CaBoCha 0.60 [#we305e34]
[[ここからダウンロード:http://sourceforge.net/projects/ca...
Windowsではファイルをダブルクリックし,文字コードは Shift...
Linux や Mac OS X ではかなり面倒な手続きが必要です.[[こ...
* 現在のヴァージョン(すべてβ版です) [#k5093330]
* バージョン 0.29β (R-2.13.0) 2011 年 06 月 04 日 [#t6312...
R-2.13.0 対応.
- Windows 版 R 32 bit 用
&ref(RCaBoCha_0.29.zip); (R-2.13.0) :
--(Windows 版 R x64 bit 版は現在のところ用意していません.)
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.29.tgz); (R64 R-2.13.0) : R64でお使いくだ...
-Leopard 32 bit :
&ref(RCaBoCha_0.29maci386.tgz); (R32 R-2.13.0) : R(32bit)...
-PPC 32 bit :
&ref(RCaBoCha_0.29_PPC.tgz); (R32 R-2.13.0) : R(PPC32bit)...
-Linux 64 bit :
&ref(RCaBoCha_0.29_R_x86_64-unknown-linux-gnu.tar.gz); (R...
-Linux 32 bit :
&ref(RCaBoCha_0.29_R_i686-pc-linux-gnu.tar.gz); (R-2.13.0...
* バージョン 0.28β (R-2.12.0) 2010 年 10 月 28 日 [#d83b2...
R-2.12.0 対応.
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.28.zip); (R-2.12.0) :
--(Windows 版 R x64 bit 版は現在のところ用意していません.)
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.28.tgz); (R64 R-2.12.0) : R64でお使いくだ...
-Leopard 32 bit :
&ref(RCaBoCha_0.28_i386.tgz); (R32 R-2.12.0) : R(32bit)で...
-Linux 64 bit :
&ref(RCaBoCha_0.28_R_x86_64-unknown-linux-gnu.tar.gz); (R...
-Linux 32 bit :
&ref(RCaBoCha_0.28_R_i686-pc-linux-gnu.tar.gz); (R-2.12.0...
* バージョン 0.27β (R-2.11.1) 2010 年 08 月 29 日 [#d9817...
R-2.11.1 対応.
conj 引数を追加し,活用語の場合,出力を表層形 (conj = 0: ...
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.27.zip); (R-2.11.1) :
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.27_R_x86_64-apple-darwin9.8.0.tgz); (R64 ...
-Leopard 32 bit :
&ref(RCaBoCha_0.27.tgz); (R32 R-2.11.1) : R(32bit)でお使...
-Linux 64 bit :
&ref(RCaBoCha_0.27_R_x86_64-unknown-linux-gnu.tar.gz); (R...
-Linux 32 bit :
&ref(RCaBoCha_0.27_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1...
* バージョン 0.26β (R-2.11.1) 2010 年 08 月 28 日 [#y605c...
R-2.11.1 対応.
&size(18){&color(blue){かなり大きな変更を加えました};};....
-1)係り受けをすべて抽出する
-2)mecabrcリソースファイルを指定可能に
-3)RCaBoCha では 0 オプションでTreeを表示しない
ようにしたことです.
CaBoChaそのものが,かなり遅いので,ファイルが大きくなると
解析にも相応に時間がかかりますので注意してください.
mecabrcファイルの指定する場合,ファイルの設定内容に
十分ご注意ください
-Windows 版 R 32 bit 用
&ref(RCaBoCha_0.26.zip); (R-2.11.1) :
-Snow Leopard 64 bit :
&ref(RCaBoCha_0.26_R_x86_64-apple-darwin9.8.0.tgz); (R64 ...
-Leopard 32 bit :
&ref(RCaBoCha_0.26.tgz); (R32 R-2.11.1) : R(32bit)でお使...
-Linux 64 bit :
&ref(RCaBoCha_0.26_R_x86_64-unknown-linux-gnu.tar.gz); (R...
-Linux 32 bit :
&ref(RCaBoCha_0.26_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1...
// * バージョン 0.25β (R-2.11.1) 未公開 [#j18f9b35]
* バージョン 0.24β (R-2.11.1) 2010 年 06 月 14 日 [#mabc0...
R-2.11.1 に対応. 機能の追加,変更はありませんが,/CaBoCha...
&ref(RCaBoCha_0.24.zip); (R-2.11.1) :
** バージョン 0.23β (R-2.11.0) 2010 年 04 月 29 日 [#k15f...
R-2.11.0 に対応. 機能の追加,変更はありません.
[[ここから:http://groups.google.co.jp/group/rcabocha]]プ...
** バージョン 0.23β (R-2.10.1) 2009 年 12 月 17 日 [#qd95...
R-2.10.1 に対応. 機能の追加,変更はありません.
** バージョン 0.22β (R-2.10.0) 2009 年 11 月 26 日 [#j7d3...
R-2.10.0 に対応. 機能の追加,変更はありません.
** バージョン 0.21β (R-2.9.2) 2009 年 08 月 25 日 [#vf5a2...
R-2.9.2 に対応. 機能の追加,変更はありません.
年内に,もう一度大きなバージョンアップを考えています.
* バージョン 0.20β (R-2.9.0) 2009 年 06 月 13 日 大幅修...
[[Boostライブラリ>Boost_Install]]を導入し,C++コードを大...
- Makevars.win に以下を追記
PKG_CPPFLAGS = -I. -Ic:/Boost/include/boost-1_33_1
# PKG_LIBS = -Lc:/Program\ Files/CaBoCha/bin $(MECAB)
-Lc:/Boost/lib/libboost_regex-mgw.lib # (...
** バージョン 0.14β -19 β (R-2.9.0) 2009 年 [#o264efc0]
未公開
* バージョン 0.13β (R-2.9.0) 2009 年 04 月 20 日 大幅修正...
大幅に修正。今までは Linux の UTF-8 作成したC++ソースファ...
** バージョン 0.12β (R-2.9.0) 2009 年 04 月 18 日 [#jc0e0...
** バージョン 0.11β (R-2.8.1) 2008 年 12 月 24 日 [#q1774...
以前の R-2.8.0 には文字コードに不具合があるので,できれば...
** バージョン 0.10β (R-2.8.0) 2008 年 11 月 10 日 [#mbdd8...
微調整
* バージョン 0.09β (R-2.8.0) 2008 年 11 月 07 日 [#f0f8d0...
文字コードまわりの修正を行った
//** バージョン 0.08β (R-2.8.0) 2008 年 11 月 05 日 [#p5e...
** バージョン 0.07β (R-2.7.1) 2008 年 9 月 26 日 [#jf5670...
//** バージョン 0.06β (R-2.7.1) 2008年 8月30日 [#zdb23311]
* &color(blue){&size(18){Windows 版 R 用バイナリ}; }; の...
(Windows 版 R x64 bit 版は現在のところ用意していません.)
&color(green){&size(16){Windows 版 R 32 bit 用 };};
&ref(RCaBoCha_0.28.zip); (R-2.12.0) :
&ref(RCaBoCha_0.27.zip); (R-2.11.1) :
//[[RCaBoCha_0.24 beta for R-2.11.0 on Windows ここ:http:...
//[[RCaBoCha_0.23.zip:http://groups.google.co.jp/group/rc...
//
//&ref(RCaBoCha_0.22.zip); (R-2.10.0) :
//&ref(RCaBoCha_0.21.zip); (R-2.9.2) : &ref(RCaBoCha_0.20...
と
%%付属の環境設定ファイル (CaBoChaへのPATHをWindowsの環境...
-- %%&ref(RCaBoChaInstall.bat); (標準的なライブラリフォル...
-- %%&ref(RCaBoChaInstallXP.bat);(ライブラリフォルダがユ...
-- %%&ref(RCaBoChaInstallVista.bat); (ライブラリフォルダ...
&color(green){&size(20){インストール手順};};
+ まず''&color(red){[[CaBoCha:http://CaBoCha.sourceforge....
++ インストール後
必ずしも必要ではありませんが, Windowsの環境設定で CaBoCha...
すなわちコントロール・パネルの[システム]アイテムを起動...
表示される[システムのプロパティ]ダイアログの[詳細設定...
(Windows 2000では[詳細]タブ)
をクリックし、[システム環境変数] (あるいはユーザー環境に...
C:\Program Files\CaBoCha\bin;
を追記します.最後のセミコロンを忘れないようにしてくださ...
+ 次に ''&color(blue){RCaBoCha_***.zip};'' をRにインスト...
なお RCaBoCha_0.23 まではインストール後, libcabocha.dll ...
ご利用は自己責任でお願いします.
* &color(blue){&size(18){Mac 版バイナリ}; }; のインストー...
&color(green){&size(16){Snow Leopard 64 bit : };};
&ref(RCaBoCha_0.29.tgz); (R64 R-2.13.0) : R64でお使いくだ...
&ref(RCaBoCha_0.26_R_x86_64-apple-darwin9.8.0.tgz); (R64 ...
&color(green){&size(16){Leopard 32 bit : };};
&ref(RCaBoCha_0.29maci386.tgz); (R32 R-2.13.0) : R(32bit)...
&ref(RCaBoCha_0.29_PPC.tgz); (R32 R-2.13.0) : R(PPC32bit)...
// [[RCaBoCha_0.24 beta for R-2.11.0 on Mac ここ:http://g...
//[[RCaBoCha_0.23.tgz:http://groups.google.co.jp/group/rc...
//&ref(RCaBoCha_0.22.tgz); (Snow Leopard R64 R-2.10.0) : ...
+ CaBoChaをインストールします.かなり面倒です.[[ここを参...
+ R を起動します.
メニューから'' [パッケージとデータ]→[パッケージインストー...
++ インストールする権限がないといわれた場合は,自分のホー...
R_LIBS=/Users/ishida/Rlibs
''ishida'' の部分は terminal 画面の $ マークの前に表示さ...
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron
$ cat .Renviron
++ その上で,Rを起動しなおして,再び''&color(blue){RCaBoC...
以上です。なお、R 終了時にはワークスペースを保存しないこ...
ご利用は自己責任でお願いします.
///////////
* &color(blue){&size(18){Linux 版バイナリ & ソース}; }; ...
[[RCaBoCha_0.24 beta for R-2.11.0 on Linux ここ:http://gr...
&color(green){&size(16){Linux 64 bit : };};
&ref(RCaBoCha_0.29_R_x86_64-unknown-linux-gnu.tar.gz); (R...
&ref(RCaBoCha_0.27_R_x86_64-unknown-linux-gnu.tar.gz); (R...
color(green){&size(16){Linux 32 bit : };};
&ref(RCaBoCha_0.29_R_i686-pc-linux-gnu.tar.gz); (R-2.13.0...
&ref(RCaBoCha_0.27_R_i686-pc-linux-gnu.tar.gz); (R-2.11.1...
//[[RCaBoCha_0.23.tar.gz::http://groups.google.co.jp/grou...
//&ref(RCaBoCha_0.22.tar.gz); (R-2.10.0) :
//&ref(RCaBoCha_0.21.tar.gz); (R-2.9.2) :
//&ref(RCaBoCha_0.20.tar.gz); (R-2.9.0) : //&ref(RCaBoCha...
+ CaBoChaをインストールします.かなり面倒です.[[ここを参...
+ R コンソールで次のように実行してください.
> install.packages("RCaBoCha_0.26.tar.gz", lib.loc = ".",
repos = NULL)
> library(RCaBoCha)
以上です。なお、R 終了時にはワークスペースを保存しないこ...
//* [[ソース>#Q]] [#ae7b2def]
* 試行用データ [#sba31629]
** &ref(dataRCaBoChaWin.zip); Windows用Shift JIS です。 [...
** &ref(dataRCaBoChaUnix.tar.gz); MacOSXやLinux用UTF-8 で...
&aname(Q);
* バージョン履歴:お問い合わせ [#oa08596b]
-お問い合わせはメールをください.関数の追加についても,気...
石田基広
ishida-m(この部分を"@"に変更下さい)ias.tokushima-u.ac.jp
-[[SoftArchive]] [[ソース>RSource]]
-- 掲示板を兼ねてますので,パスワードを設定しています.め...
* R の参考書 [#oca4f220]
//&htmlinsert(amazontext,asin=,text=);
-&htmlinsert(amazontext,asin=4431712186,text=U・リゲス著...
-&htmlinsert(amazontext,asin=4431713123,text=B・エヴェリ...
-&htmlinsert(amazontext,asin=4431100474,text=P・スペクタ...
-&htmlinsert(amazontext,asin=4274067572,text=青木繁伸『R...
- &htmlinsert(amazontext,asin=4627096011,text=金明哲『Rに...
- &htmlinsert(amazontext,asin=4777511847,text=舟尾暢男『...
-&htmlinsert(amazontext,asin=4894717573,text=中澤港『Rに...
ページ名: