RCaBoCha �ΥХå��å�(No.13)

�� ˤĤ�� : ��ͥڡ�� Ū��: ��ǲ��ϥѥå�� RMeCab

RCaBoCha�ѥå��

��ܸ�η��ط�� R �ǲ��ϤǤ��褦�ˤ��ޤ��ǲ��ϥѥå��RMeCab�⤴��Ȥ��

��Ѥߤδؿ�
CaBoCha 0.60
��ߤΥ��
Windows �ǥХ��ʥ� �Υ��󥹥ȡ��ˡ
Mac �ǥХ��ʥ� �Υ��󥹥ȡ��ˡ
Linux �ǥХ��ʥ� �Υ��󥹥ȡ��ˡ
��ѥǡ��
- dataRCaBoChaWin.zip Windows��Shift JIS �Ǥ��
- &ref(): File not found: "dataRCaBoChaUnix.zip" at page "RCaBoCha"; MacOSX��Linux��UTF-8 �Ǥ��
��䤤��碌

_ ��Ѥߤδؿ�

RCaBoCha�ؿ� : CaBocha? ��ñ��ʽ��Ϥ��֤��

> kekka <- RCaBoCha("�����ϱ������٤����ʡ�")
FROMAT_TREE =
<DATE>����</DATE>��---D
                ����-D
          ���٤����ʡ�
EOS
> kekka # D1 �϶��Ϣ�֡�D2 �Ϥ��η�������ط���ɽ��
  Term1  Term2    POS D1 D2
1  ����   ����   ̾��  1  2
2    ��     ��   ����  1  2
3    ��     ��   ̾��  2  2
4    ��     ��   ����  2  2
5  ���� ���٤�   ư��  3 -1
6  ����   ���� ��ư��  3 -1
7    ��     ��   ����  3 -1
8    ��     ��   ����  3 -1

RCaBoChaFreq?�ؿ� : ��η��Ƚ�ꤷ��٤�¬��

> kekka <- RCaBoChaFreq("�����ϱ�����̣�����ʡ�
+                      �����ϱ�����̣�����ʤ��ä���")
> kekka
           Term1 Freq
1            ��    2
2            ��    1
3            ��    1
4            ��    2
5          ����    1
6          ����    1
7      ��̣����    1
8 ��̣����+�ʤ�    1
9            ��    2

RCaBoChaFile?�ؿ� : �ե��оݤ��η��Ƚ�ꤷ��٤�¬�롥��rmT = c("��", "��") �ʤɤȤ��ơ����ʤ��ʻ��ǽ��ǥե��Ȥϵ��Τߡ� ��Ⱦ�ѥ��ڡ��ѥ��ڡ��"!?.��"�Ͼ�˺��롥

> kekka <- RCaBoChaFile("���ʲ�.txt")
file = ���ʲ�.txt 
> kekka
       Term1 Freq
1       ����    1
2       ����    1
3       ����    1
4         ��    1
5    ��+�ʤ�    2
6         ��    2
7    ��+�ʤ�    1
8         ��    1
9       ���    1
10 ���+�ʤ�    2
11        ��    3

RCaBoChaDF�ؿ� : �ǡ��ե졼��λ��оݤ��η��Ƚ�ꤷ��٤�¬�ꡤ��ࡦʸ�Ϲ���� rmT = c("��", "��") �ʤɤȤ��ơ����ʤ��ʻ��ǽ��ǥե��Ȥϵ��Τߡ� ��Ⱦ�ѥ��ڡ��ѥ��ڡ��"!?.��"�Ͼ�˺��롥 �ޤ� minFreq���ǡ��ʸ��̤��Ƥ��٤��ͤ��ǽ��

> dat <- read.csv("data/flower.csv")
> kekka <- RCaBoChaDF(dat[,"Reply"], rmT = c("����"))
> kekka
        OBS.1 OBS.2 OBS.3 OBS.4 OBS.5
����          0     0     1     0     0
��            0     0     0     0     1
��            0     0     0     1     0
����          0     1     0     0     0
����          1     0     0     0     0
��            0     1     0     1     0
����          0     0     0     0     1
��            1     0     1     0     0
��            0     0     0     1     1
��            0     0     0     0     1
��            1     1     0     0     1
��+�ʤ�       0     0     1     0     0
��            0     0     1     0     0
��äѤ�      0     0     0     1     0
�Х�          0     0     0     1     0
��            1     1     1     0     0
��            0     0     0     0     1
���          0     1     0     1     1
���+�ʤ�     1     0     1     0     0

#### �Ť��դ����ǽ TD IDF ��׻����ơ�ɸ�ಽ����ˤ�

> res <- RCaBoChaDF(dat[,"Reply"],rmT =c("����","����"),
      weight = "tf*idf*norm")
> nrow(res)
[1] 15
> res
             OBS.1     OBS.2     OBS.3     OBS.4     OBS.5
����      0.00000 0.00000 0.66658 0.00000 0.00000
��        0.00000 0.00000 0.00000 0.00000 0.43546
����      0.00000 0.70093 0.00000 0.00000 0.00000
����      0.66658 0.00000 0.00000 0.00000 0.00000
��        0.00000 0.48993 0.00000 0.42058 0.00000
����      0.00000 0.00000 0.00000 0.00000 0.43546
��        0.46592 0.00000 0.46592 0.00000 0.00000
��        0.00000 0.00000 0.00000 0.00000 0.43546
��        0.00000 0.00000 0.00000 0.00000 0.43546
��äѤ�  0.00000 0.00000 0.00000 0.60171 0.00000
�Х�      0.00000 0.00000 0.00000 0.60171 0.00000
��        0.34854 0.36650 0.34854 0.00000 0.00000
��        0.00000 0.00000 0.00000 0.00000 0.43546
���      0.00000 0.36650 0.00000 0.31462 0.22769
���+�ʤ� 0.46592 0.00000 0.46592 0.00000 0.0000
> apply(res^2, 2, sum) ## ����μ���ι�פϣ�
OBS.1 OBS.2 OBS.3 OBS.4 OBS.5 
   1     1     1     1     1

RCaBoChaMx?�ؿ� : �ե��Τ��뤤��ñ�ȥե��оݤ��η��Ƚ�ꤷ��٤�¬�ꡤ��ࡦʸ�Ϲ���� rm = c("��", "��") �ʤɤȤ��ơ����ʤ��ʻ��ǽ��ǥե��Ȥϵ��Τߡ� ��Ⱦ�ѥ��ڡ��ѥ��ڡ��"!?.��"�Ͼ�˺��롥 �ޤ� minFreq ���ǡ��ʸ��̤��Ƥ��٤��ͤ��ǽ��

> kekka <- RCaBoChaMx("data/flower")
file_name =  data/flower/hana1.txt opened
file_name =  data/flower/hana2.txt opened
file_name =  data/flower/hana3.txt opened
file_name =  data/flower/hana4.txt opened
file_name =  data/flower/hana5.txt opened
> kekka
           hana1.txt hana2.txt hana3.txt hana4.txt hana5.txt
����              0         0         1         0         0
��                0         0         0         0         1
��                0         0         0         1         0
����              0         1         0         0         0
����              1         0         0         0         0
��                0         1         0         1         0
����              0         0         0         0         1
��                1         0         1         0         0
��                0         0         0         1         1
��                0         0         0         0         1
��                1         1         0         0         1
��+�ʤ�           0         0         1         0         0
��                0         0         1         0         0
��äѤ�          0         0         0         1         0
�Х�              0         0         0         1         0
��                1         1         1         0         0
��                0         0         0         0         1
���              0         1         0         1         1
���+�ʤ�         1         0         1         0         0

### �Ť��դ����ǽ TD IDF ��׻����ơ�ɸ�ಽ����ˤ�
> res <- RCaBoChaMx("C:/data/flower" ,rmT =c("����","����"),
  weight = "tf*idf*norm")
file_name =  C:/data/flower/hana1.txt opened
file_name =  C:/data/flower/hana2.txt opened
file_name =  C:/data/flower/hana3.txt opened
file_name =  C:/data/flower/hana4.txt opened
file_name =  C:/data/flower/hana5.txt opened
> nrow(res)
[1] 15
> res
       hana1.txt hana2.txt hana3.txt hana4.txt hana5.txt
����     0.00000 0.00000 0.66658 0.00000 0.00000
��       0.00000 0.00000 0.00000 0.00000 0.43546
����     0.00000 0.70093 0.00000 0.00000 0.00000
����     0.66658 0.00000 0.00000 0.00000 0.00000
��       0.00000 0.48993 0.00000 0.42058 0.00000
����     0.00000 0.00000 0.00000 0.00000 0.43546
��       0.46592 0.00000 0.46592 0.00000 0.00000
��       0.00000 0.00000 0.00000 0.00000 0.43546
��       0.00000 0.00000 0.00000 0.00000 0.43546
��äѤ�  0.00000 0.00000 0.00000 0.60171 0.00000
�Х�     0.00000 0.00000 0.00000 0.60171 0.00000
��       0.34854 0.36650 0.34854 0.00000 0.00000
��       0.00000 0.00000 0.00000 0.00000 0.43546
���     0.00000 0.36650 0.00000 0.31462 0.22769
���+�ʤ� 0.46592 0.00000 0.46592 0.00000 0.00000
> apply(res^2, 2, sum) ## ����μ���ι�פϣ�
hana1.txt hana2.txt hana3.txt hana4.txt hana5.txt 
       1         1         1         1         1

 ##��ñ�ȥե�������ɤ߹��߲�ǽ
> res <- RCaBoChaMx("C:/data/flower/hana1.txt")
file_name =  C:/data/flower/hana1.txt opened
> res
          hana1.txt
����              1
��                1
��                1
��                1
���+�ʤ�         1

RCaBoChaCnt?�ؿ� : ñ�ȤΥե��Ȥ��ơ��Υե��ʸ��ʬ�䤷��ʸ�η��ǿ��ȶ��ǡ��ե졼��Ȥ��ƽ��Ϥ��롥

> kekka <- RCaBoChaCnt("data/merosu.txt")
file = data/merosu.txt  #�����������٤����
> kekka
    Nr. Terms Phrases
1     1     5       2
2     2    17       6
3     3     7       3
4     4     8       3
5     5    12       5
... �ʲ�ά

ʸ�ζ��ڤ�� " !?.��" �Ǥ��롥��ǻ��Ǥ��ɤ��ʡ�

↑

_ CaBoCha 0.60

��ơ��󥹥ȡ��뤷�Ƥ��.

Windows�Ǥϥե��֥륯��å��ʸ��ɤ� Shift-JIS��ӡ��[³��]�򲡤��Ǥ��

Linux �� Mac OS X �ǤϤ��ʤ��ݤʼ�³��ɬ�פǤ��򻲹ͤˤ��Ƥ��

↑

_ ��ߤΥ��

↑

_ �С�� 0.09 (R-2.8.0) 2008 ǯ 11 �� 07 ��

ʸ��ɤޤ��ν��Ԥä�

↑

_ �С�� 0.08 (R-2.8.0) 2008 ǯ 11 �� 05 ��

↑

_ �С�� 0.07 (R-2.7.1) 2008 ǯ 9 �� 26 ��

↑

_ Windows �ǥХ��ʥ� �Υ��󥹥ȡ��ˡ

RCaBoCha_0.09.zip (R-2.8.0) RCaBoCha_0.07.zip (R-2.7.1) �� °�δĶ��ե��

RCaBoChaInstall.bat (ɸ��Ū�ʥ饤�֥��ե��ξ��)
RCaBoChaInstallXP.bat�ʥ饤�֥��ե��桼��ե��ˤ��XP�ξ��
RCaBoChaInstallVista.bat (�饤�֥��ե��桼��ե��ˤ��VISTA�ξ��

��󥹥ȡ��

�ޤ�CaBoCha�򥤥󥹥ȡ��뤷�Ƥ�� win32�Х��ʥ��ɤ��ƥ��󥹥ȡ��뤷�ޤ��󥹥ȡ��ɸ��Τޤ� C:\Program Files\CaBoCha �Ȥ��ޤ��ޤ�ʸ��ɤ� Shit-Jis �ΤޤޤȤ��ޤ��
�� RCaBoCha_***.zip ��R�˥��󥹥ȡ��뤷�ޤ��*** ��ʬ�ϥС��ֹ�Ǥ��R�Υ�˥塼��[�ѥå��]��[��ˤ��zip�ե��뤫��Υѥå��Υ��󥹥ȡ��]��ǡ��ɤ�� RCaBoCha_***.zip�ե��ǥ��󥹥ȡ��뤷�ޤ��[win-library��ΤǤ��] ��ʹ��Ƥ�� OK �򲡤��Ƥ��ʤ��κݡ�R �ϥ桼��ե��ޤ��ˡ�
��ǡ�R�Υ饤�֥��ե��ɤ��ˤ��뤫��ǧ��Ƥ��R�Υ��󥽡��̤� .libPaths() ��¹Ԥ��ʬ��ޤ��̾��R��󥹥ȡ��뤵�줿�ե��ˤʤ�ޤ��
1. ��η�̤��ǽ�ν�� ([1] �Τ��ɽ��) ��
```
[1] "C:/PROGRA~1/R/R-2*~*.*/library" 
```
  �Τ褦�� (*��ʬ�ϥС��ֹ�)�ʤäƤ��С�R ��Τ�Ʊ��ˤ��ޤ��ʲ��μ��4.�ޤǤ�¹Ԥ��Ƥ��
2. .libPaths() ���ǽ�ν����

[1] "C:\\Document and Settings\\ishida\\Documents/R/win-library/2.7"

��뤤��

[1] "C:\\Users\\ishida\\Documents/R/win-library/2.7"

�Τ褦�˥桼��̾��ޤ�Ǥ��ϡ��桼��ե��˥饤�֥��ϥ��󥹥ȡ��뤵��Ƥ��ޤ��ʲ��μ��4. ��Ф��ơ��5.��ˤ�äƤ� 6. �ޤǤ�¹Ԥ��Ƥ��

³��ơ� CaBoCha �� R ��ξ��ɸ��Ū�ʥե��˥��󥹥ȡ��뤵�줿��֤Ǥ��ꡤ�ޤ�R�Υ饤�֥��ե�� R ��Τ�Ʊ��ˤ��С�RCaBoChaInstall.bat ��֥륯��å� ��Ƥ����ǥ��󥹥ȡ��ϴ�λ�Ǥ���ä��ǽ���ƤߤƤ��ʤ��ѥǡ��å��Ѱդ��ޤ��
CaBoCha �ϥǥե��ȤΤޤޥ��󥹥ȡ��ѹ��ʤ��ä��R�Υ饤�֥��ե��桼��ե��ˤʤäƤ��硤XP�Υ桼��Ǥ��RCaBoChaInstallXP.bat �򡤤ޤ�Vista�Υ桼��RCaBoChaInstallVista.bat ��¹Ԥ��ơ��Ķ��ԤäƤ��ǥ��󥹥ȡ��ϴ�λ�Ǥ��
�ʾ�Ǥ��ʤ��R��λ��ˤϥ��ڡ��¸��ʤ��Ȥ򤪴��ᤷ�ޤ��Ϸ�̤ϡ��̤��礭�ʥ��֥��Ȥˤʤꡢ��̤�ɬ�פȤ��ޤ��
��ޤǤμ��Ǥ��ޤ�ư��ʤ�� ��
1. CaBoCha �� R �Υ��󥹥ȡ��ȼ��ѹ�� RCaBoCha ��ư��ʤ��ϰʲ��ȤǼ¹Ԥ��Ƥ��
  1. CaBoCha�򥤥󥹥ȡ��뤷��ե�� bin �ե�� libcabocha.dll libcrtff.dll �Ȥ��ե��뤬��ޤ��Τǡ��Ĥ� R �Υ饤�֥��Ϣ�ե�� library �˥��󥹥ȡ��뤵�줿 RCaBoCha�ѥå��ե�� libs �ե��˥��ԡ��ޤ��
  2. R �Υ��󥹥ȡ�� RCaBoCha�ѥå��ѤΥ饤�֥��ե��¸�ߤ��ʤ��硤�̤ξ�ꡤ��ʤ��桼��ե��˥��󥹥ȡ��뤵�줿��ǽ��ޤ�� 㤨�иĿ�̾�Υե�� �֥ɥ��ȡ�->��R��->��win-library��->��2.*����ꡤ�� RCaBoCha\libs �ե��뤫�⤷��ޤ��R�Υ��󥽡��̤� .libPaths() �ȼ¹Ԥ��ʬ��ޤ��ʲ�� Vista Home Basic ��R-2.7.1�򥤥󥹥ȡ��뤷��³��RCaBoCha �򥤥󥹥ȡ��뤷��ľ��˼¹Ԥ��̤Ǥ��

> .libPaths()
[1] "C:\\Users\\ishida\\Documents/R/win-library/2.7"
[2] "C:/PROGRA~1/R/R-27~1.1/library"

��ξ�� libcabocha.dll ��libcrftt.dll �� win-library/2.7 ��RCaBoCha\libs? �Ȥ��ե��˼��Ȥǥ��ԡ��Ƥ��

��Ѥϼ��Ǥ�Ǥ��ꤤ��ޤ��

↑

_ Mac �ǥХ��ʥ� �Υ��󥹥ȡ��ˡ

RCaBoCha_0.09.tgz (R-2.8.0), RCaBoCha_0.07.tgz (R-2.7.1)

CaBoCha�򥤥󥹥ȡ��뤷�ޤ��ʤ��ݤǤ��򻲹ͤˤ��Ƥ��
R ��ư��ޤ�� ˥塼�� [�ѥå��ȥǡ��]��[�ѥå��󥹥ȡ��]��Ӥޤ��־��CRAN��ɽ��Ƥ��˥塼��[��Υ��ԥ塼��ΥХ��ʥ�ѥå��]��ѹ��ޤ�� install�ܥ���򲡤��ơ��ɤ�� RCaBoCha_***.tgz��Ӥޤ��*** ��ʬ�ϥС��ֹ�Ǥ��
1. ��󥹥ȡ��뤹�븢�¤��ʤ��Ȥ��줿��ϡ��ʬ�Υۡ��㤨�� RLibs �ʤɤȤ��ե��򿷵��ޤ��ơ��Ϥ�ۡ�� .Renviron�Ȥ��ե��Ȥ򼡤Τ褦��Խ��Ƥ��
```
R_LIBS=/Users/ishida/Rlibs
```
  ishida ��ʬ�� terminal ��̤� $ �ޡ��ɽ��Ƥ��̾��Ѥ��Ƥ��terminal��Ǥϰʲ��Τ褦�ˤ��Ƥ��Ǥ��ޤ��
```
$ echo 'R_LIBS=/Users/ishida/Rlibs' > .Renviron
$ cat .Renviron
```
2. ��ξ�ǡ�R��ư��ʤ��ơ��Ƥ�RCaBoCha_***.tgz �ѥå��򥤥󥹥ȡ��뤹��³��Ԥ��ե�� ɥ�� [�桼��ꥢ] �˥��å��Ƥ��ޤ��

�ʾ�Ǥ��ʤ��R��λ��ˤϥ��ڡ��¸��ʤ��Ȥ򤪴��ᤷ�ޤ��Ϸ�̤ϡ��̤��礭�ʥ��֥��Ȥˤʤꡢ��̤�ɬ�פȤ��ޤ��

��Ѥϼ��Ǥ�Ǥ��ꤤ��ޤ��

↑

_ Linux �ǥХ��ʥ� �Υ��󥹥ȡ��ˡ

RCaBoCha_0.09.tar.gz (R-2.8.0), RCaBoCha_0.07.tar.gz (R-2.7.1)

CaBoCha�򥤥󥹥ȡ��뤷�ޤ��ʤ��ݤǤ��򻲹ͤˤ��Ƥ��

R ��󥽡��Ǽ��Τ褦�˼¹Ԥ��Ƥ��

> install.packages("RCaBoCha_0.07.tar.gz", lib.loc = ".",
   repos = NULL)
> library(RCaBoCha)

�ʾ�Ǥ��ʤ��R��λ��ˤϥ��ڡ��¸��ʤ��Ȥ򤪴��ᤷ�ޤ��Ϸ�̤ϡ��̤��礭�ʥ��֥��Ȥˤʤꡢ��̤�ɬ�פȤ��ޤ��

↑

_ ��ѥǡ��

↑

_ dataRCaBoChaWin.zip Windows��Shift JIS �Ǥ��

↑

_ &ref(): File not found: "dataRCaBoChaUnix.zip" at page "RCaBoCha"; MacOSX��Linux��UTF-8 �Ǥ��

↑

_ ��䤤��碌

�᡼��򤯤��ؿ��ɲäˤĤ��Ƥ⡤��ڤˤ��̤��

��Ĵ�

ishida-m(��ʬ��"��"��ѹ��)ias.tokushima-u.ac.jp

������ᥫ��