R2MeCab

RMeCab�δʰ��

�ƥ��ȥޥ��˥󥰤Τ��Υġ��: �ǡ��ϡ��ե��å��Ķ� R ��ܸ��ǲ��ϥ��ե���(MeCab)��ƤӽФ��ƻȤ��󥿡��ե��

��ʸ��
��ȯ��
��ǽ
��󥹥ȡ��
��
R �λ��ͽ�
��䤤��碌

_ ��ʸ��

�ƥ��ȥޥ��˥����RMeCab��Ѥ��ƥ��ȥޥ��˥󥰤ˤĤ��Ƥ� �򻲾Ȥ��й��Ǥ��

↑

_ ��ȯ��

2010ǯ 04��29�� R2MeCab_0.14 (R-2.11.0 �б�): MeCab_0.98 �Ȥ��碌��Х��ʥꡣ��Τۤ��ѹ��ʤ��
2009ǯ 12��17�� R2MeCab_0.13 (R-2.10.1 �б�): MeCab_0.98 �Ȥ��碌��Х��ʥꡣ��Τۤ��ѹ��ʤ��
2009ǯ 8��25�� R2MeCab_0.12 (R-2.10.0 �б�): MeCab_0.98 �Ȥ��碌��Х��ʥꡣ��Τۤ��ѹ��ʤ��
&color(green){2009ǯ 8��25�� R2MeCab_0.11 (R-2.9.2�б�): ;
2009ǯ 8��24�� R2MeCab_0.10: docDF()�ؿ��˥Х��ä��Τǽ��
2009ǯ 4��18�� R2MeCab_0.08: R-2.9.0�ؤ��б�
2009ǯ 3��29�� R2MeCab_0.07: docDF()�ؿ��θ�Ψ��ä��ʲ��Ϥ˰۾�˻��֤��ä��ˤν��
2009ǯ 3��27�� R2MeCab_0.06: NgramDF2()�ؿ��˥Х��ä��Τ��~~�ޤ��ե꡼��ȸ��򤵤�ʤ��褦�� * ��Ϥ��褦�ˤ��~~
2009ǯ 3��23�� docDF()�ؿ��˶�� co ��ɲ�
2009ǯ 3��10�� R2MeCab_0.04:�ǥե��Ȥν��Ϥ��ѹ�
2009ǯ 3��9�� R2MeCab_0.03:��Ĵ��
2009ǯ 3��6�� R2MeCab_0.02:��Ĵ��
2009ǯ 3��6�� R2MeCab_0.01: ��Ū�� docDF()�ؿ��¾�� RMeCabC(), RMeCabText?()��

↑

_ ��ǽ

docDF()�ؿ�

�� 1 ��ǻ��ꤵ�줿�ե�� (�ե��ꤵ�줿��ϡ��ե��)��뤤��1��ǥǡ��ե졼��򡤤ޤ�� 2 ��ֹ椢�뤤��̾��ˤ��ꤷ�ơ�Ngram��󡤤��뤤�ϥ��ࡦʸ��롥��ǽ�ʰ��

target : ��ϥե��̾�ʤ��ե��̾,��뤤�ϥǡ��ե졼��
column : �ϥǡ��ե졼��ꤹ��硤��ֹ椢�뤤��̾��ˤ��ꤹ��
type : 0 ��ʸ��Gram�� ϥ��Gram��ǥե��Ȥ�0
pos : �� pos = c("̾��", "��ƻ�","��") �Τ褦�˻��ꤹ�롥��ꤵ��ʤ��ϵ��ޤᡤ��٤Ƥ��С�
minFreq : ��ʸ��̤��Ƥ��٤��ͤ��ꤹ�롥�ǥե��Ȥ�minFreq = ��Ǥϡ��ɤ줫��Ĥ�ʸ��˰��٤��и��⡤��ϴޤ�ޤ��о�ʸ��ʬ�̤�¿�� 3 �ʤɤ��ꤹ�뤳�Ȥ�Ƥ��
N: �� Ngram �ξ�� N �ο�.�ǥե��Ȥϣ�
Genkei:��Ѹ�򸶷� (0) �ˤ��뤫��ɽ�ط�(1) �ˤ��뤫��ǥե��Ȥ� 0��
weight = "tf*idf*norm" �ʤɤνŤߤ��ǽ��ǥե��ȤϽŤ�̵��
nDF : N�ĤΥ��ऽ�줾��Ω��˼�롥�ǥե��Ȥ� 0��nDF = 1 �Ȥ��ȡ��ऴ�Ȥ��ޤ��
co ��κ��

Ngram

> setwd("C:/data")
> (res <- docDF("doc")) # doc�ե���������ե�������оݤ�
file = doc1.txt
file = doc2.txt
file = doc3.txt
file_name =  doc/doc1.txt opened
file_name =  doc/doc2.txt opened
file_name =  doc/doc3.txt opened
number of extracted terms = 15
now making a data frame. wait a while!
   Ngram doc1.txt doc2.txt doc3.txt
1     ��        1        1        1
2     ��        0        0        1
3     ��        1        1        1
4     ��        1        1        1
5     ��        0        1        0
6     ��        1        1        1
7     ��        0        0        1
8     ��        0        0        1
9     ��        0        0        1
10    ��        0        1        1
11    ��        1        2        2
12    ��        0        1        1
13    ��        0        1        1
14    ��        1        1        0
15    ��        1        0        0

��ࡦʸ�Ϲ��

>  (res <- docDF("doc", type = 1, N=1))
file = doc1.txt
file = doc2.txt
file = doc3.txt
file_name =  doc/doc1.txt opened
file_name =  doc/doc2.txt opened
file_name =  doc/doc3.txt opened
number of extracted terms = 13
now making a data frame. wait a while!
   TERM   POS1     POS2 doc1.txt doc2.txt doc3.txt
1    ��   ����     ����        1        1        1
2  ����   ư��   ��Ω        0        0        1
3    ��   ���� ��³����        0        0        1
4  �Ǥ� ��ư��        *        1        1        0
5    ��   ����   Ϣ�β�        0        1        0
6    ��   ����   ������        1        1        1
7  �ޤ� ��ư��        *        0        0        1
8    ��   ����   �ʽ���        0        0        1
9  �ؤ�   ư��     ��Ω        0        0        1
10 ����   ̾��     ����        1        1        0
11 ���   ̾��   ��̾��        0        1        1
12 ����   ̾��     ����        0        1        1
13   ��   ̾��   ��̾��        1        0        0

̾��ȷ��ƻ��оݤ�Tri-gram�ǹ��

> (res <- docDF("doc", pos = c("̾��","���ƻ�"), type = 1, N=3))
number of extracted terms = 1
           TERM           POS1             POS2

1 ���-����-���� ̾��-̾��-̾�� ��̾��-����-���� 
                      doc1.txt doc2.txt  doc3.txt
                       0        1        0

�ǡ��ե졼��Ϥ��

> (target <- read.csv("photo.csv"))
  ID Sex              Reply
1  1   M   �̿��ȤäƤ����
2  2   F �̿��ȤäƤ�������
3  3   M       �̿��ȤäƤ�
4  4   F �̿��ȤäƤ�������
5  5   M     �̿��ȤäƤä�

# �ǡ��ե졼��3��ܤ��Bi-gram��

> (res <- docDF(target, col = 3, N = 2)) 
       # col �ϥǡ����ե졼���󤢤뤤��̾��
number of extracted terms = 13
   Ngram Row1 Row2 Row3 Row4 Row5
1  ��-��    0    1    0    1    0
2  ��-��    1    0    0    0    0
3  ��-��    0    1    0    1    0
4  ��-��    0    1    0    1    0
5  ��-��    0    0    0    0    1
6  ��-��    1    1    1    1    1
7  ��-��    1    1    0    1    0
8  ��-��    0    0    0    0    1
9  ��-��    0    0    1    0    0
10 ��-��    1    1    1    1    1
11 ��-��    1    0    0    0    0
12 ��-��    1    1    1    1    1
13 ��-��    1    1    1    1    1

��ΥХ��

> (res <- docDF(target, col = 3, type = 1, N = 2))
number of extracted terms = 7
now making a data frame. wait a while!
         TERM        POS1            POS2 Row1 Row2 Row3 Row4 Row5
1   �����-��   ư��-����   ��Ω-������    1    0    0    0    0
2 ��-��������   ����-ư�� ��³����-��Ω    0    1    0    1    0
3   ��-�����   ����-ư�� ��³����-��Ω    1    0    0    0    0
4     ��-�ä� ����-��ư��      ��³����-*    0    0    0    0    1
5       ��-��   ����-���� ��³����-������    0    0    1    0    0
6     �Ȥ�-��   ư��-����   ��Ω-��³����    1    1    1    1    1
7   �̿�-�Ȥ�   ̾��-ư��       ����-��Ω    1    1    1    1    1

��ΥХ��ɽ�ط��

> (res <- docDF(target, col = 3, type = 1, N = 2, Genkei = 1))
number of extracted terms = 7
now making a data frame. wait a while!
         TERM        POS1            POS2 Row1 Row2 Row3 Row4 Row5
1     ����-��   ư��-����   ��Ω-������    1    0    0    0    0
2 ��-��������   ����-ư�� ��³����-��Ω    0    1    0    1    0
3     ��-����   ����-ư�� ��³����-��Ω    1    0    0    0    0
4     ��-�ä� ����-��ư��      ��³����-*    0    0    0    0    1
5       ��-��   ����-���� ��³����-������    0    0    1    0    0
6     �Ȥ�-��   ư��-����   ��Ω-��³����    1    1    1    1    1
7   �̿�-�Ȥ�   ̾��-ư��       ����-��Ω    1    1    1    1    1

�ƥ��Ω��ä�

> (res <- docDF("doc", type=1, N=2,pos = c("̾��","ư��"),
          Genkei = 1, nDF = 1))
...
number of extracted terms = 5
now making a data frame. wait a while!
    N1   N2      POS1        POS2 doc1.txt doc2.txt doc3.txt
1 �ؤ�   �� ư��-ư�� ��Ω-��Ω        0        0        1
2 ��� ���� ̾��-̾�� ��̾��-����        0        1        1
3 ���� �ؤ� ̾��-ư��   ����-��Ω        0        0        1
4 ���� ���� ̾��-̾��   ����-����        0        1        0
5   �� ���� ̾��-̾�� ��̾��-����        1        0        0

��

> (res <- docDF("data/doc", type = 1, co = 1))
file_name =  data/doc/doc1.txt opened
file_name =  data/doc/doc2.txt opened
file_name =  data/doc/doc3.txt opened
number of extracted terms = 13
now making a data frame. wait a while!
   TERM   POS1     POS2 �� ���� �� �Ǥ� �� �� �ޤ� �� �ؤ� ���� ��� ���� ��
1    ��   ����     ����  3    1  1    2  1  3    1  1    1    2    2    2  1
2  ����   ư��   ��Ω  1    1  1    0  0  1    1  1    1    0    1    1  0
3    ��   ���� ��³����  1    1  1    0  0  1    1  1    1    0    1    1  0
4  �Ǥ� ��ư��        *  2    0  0    2  1  2    0  0    0    2    1    1  1
5    ��   ����   Ϣ�β�  1    0  0    1  1  1    0  0    0    1    1    1  0
6    ��   ����   ������  3    1  1    2  1  3    1  1    1    2    2    2  1
7  �ޤ� ��ư��        *  1    1  1    0  0  1    1  1    1    0    1    1  0
8    ��   ����   �ʽ���  1    1  1    0  0  1    1  1    1    0    1    1  0
9  �ؤ�   ư��     ��Ω  1    1  1    0  0  1    1  1    1    0    1    1  0
10 ����   ̾��     ����  2    0  0    2  1  2    0  0    0    2    1    1  1
11 ���   ̾��   ��̾��  2    1  1    1  1  2    1  1    1    1    2    2  0
12 ����   ̾��     ����  2    1  1    1  1  2    1  1    1    1    2    2  0
13   ��   ̾��   ��̾��  1    0  0    1  0  1    0  0    0    1    0    0  1

Ĺʸ�ƥ��Ƚ��

> res <- docDF("writers", type = 1, N=1)
## ���������Ф��碌�� �� �ƥ����ȡ����Ϥ˿�ʬ������ޤ�
> head(res)
      TERM   POS1     POS2 ogai_gan.txt ...
1        '   ̾�� ������³            0  ...
2        ,   ̾�� ������³            0  ...   
3     ����   ̾��     ����            0  ...      
4     ����   ̾��     ����            0  ...     
5 �����뤤 ���ƻ�     ��Ω            0  ...
6 �����䤫   ̾��     ����            0  ...
...

RMeCabC()�ؿ� : ûʸ�ν��

> library(RMeCab)
> kekka <- RMeCabC("�����������Τ���")
> unlist(kekka)

# �� 1 ��ä��ȷ��Ǹ��֤��ޤ��

> kekka <- RMeCabC("���Ӥ򿩤٤�", 1)
> unlist(kekka)
#    ̾��     ����     ư��   ��ư�� 
#  "����"     "��" "���٤�"     "��" 
# ��������ʤ�����
> kekka <- RMeCabC("���Ӥ򿩤٤�")
> unlist(kekka)
#    ̾��     ����     ư��   ��ư�� 
# "����"   "��" "����"   "��" 
# ̾��������Ф��������
unlist(kekka) [names(unlist(kekka)) == "̾��"]
# ����
# R-2.8.0 ��MacOSX��Linux�Ǥ����Ѥξ���
# �ʲ���3�Ԥ�¹Ԥ��ʤ���ư��ʤ����⤷��ޤ���
kekka <- unlist(kekka)
Encoding(kekka) <- "UTF-8"
Encoding(names(kekka)) <- "UTF-8"

RMeCabText?()�ؿ� : �ե��β��Ϸ�̤򤽤Τޤ�ɽ��

# ��¾��ν��Ϥ򤽤Τޤޥꥹ�ȷ��ǽ��Ϥ��ؿ�

>  RMeCabText("data/sakura.txt")

# ����ʷ��
#[[1]]
# [1] "����"     "̾��"     "�����ǽ" "*"        "*"        "*"       
# [7] "*"        "����"     "���Υ�"   "���Ρ�"  
#
#[[2]]
# [1] "��"     "����"   "������" "*"      "*"      "*"      "*"      "��"    
# [9] "��"     "��"

↑

_ ��󥹥ȡ��

��Ū�� RMeCab ��Ѥ��ޤ��Τǡ��ܺ٤Ϥ��򻲹ͤˤ��Ƥ��

Windows ��ϡ��ޤ�MeCab�򥤥󥹥ȡ��뤷�Ƥ�� win32�Х��ʥ�mecab-0.98.exe ��ɤ��ƥ��󥹥ȡ��뤷�ޤ��󥹥ȡ��ɸ��Τޤ� C:\Program Files\MeCab �Ȥ��ޤ��ޤ�ʸ��ɤ� Shit-Jis �ΤޤޤȤ��ޤ��
MeCab?��󥹥ȡ�� Windows�δĶ�� MeCab? �ؤΥѥ��̤��ޤ��ǿ��դ�ʧ�äƺ�Ȥ��Ƥ��. ��ʤ��ȥ��롦�ѥͥ�ΡΥ��ƥ�ϥ��ƥ��ư�� ɽ��Υ��ƥ�Υץ��ѥƥ��ϥ��Ρξܺ��ϥ�� Windows 2000�Ǥϡξܺ١ϥ��֡� �򥯥�å��[��ƥ�Ķ��ѿ�] �� PATH ��Ƭ��
```
C:\Program Files\MeCab\bin;
```
��ɵ��ޤ��Ǹ�Υ��ߥ��˺��ʤ��褦�ˤ��Ƥ��ޤ�,��¸��Ƥ��񤭤��, �ä��ꤷ�ʤ��褦, �ǿ��դ�ʧ�äƺ�Ȥ��Ƥ��.

�� R2MeCab_***.zip ��R�˥��󥹥ȡ��뤷�ޤ��*** ��ʬ�ϥС��ֹ�Ǥ��R�Υ�˥塼��[�ѥå��]��[��ˤ��zip�ե��뤫��Υѥå��Υ��󥹥ȡ��]��ǡ��ɤ�� R2MeCab_***.zip�ե��ǥ��󥹥ȡ��뤷�ޤ��[win-library��ΤǤ��] ��ʹ��Ƥ�� OK �򲡤��Ƥ��ʤ��κݡ�R �ϥ桼��ե��ޤ��ˡ�

↑