トップ
新規
一覧
単語検索
最終更新
ヘルプ
ログイン
アールメカブ
MeCab_Dictionary
をテンプレートにして作成
開始行:
[[RMeCab]]
#contents
* MeCabへの辞書追加 [#q468c95c]
詳細は [[http://taku910.github.io/mecab/dic.html]]を参照...
例えば Ubuntu であれば
基広,-1,-1,1000,名詞,固有名詞,人名,名,*,*,基広,モトヒロ,...
を ishida.csv として作成し,以下を実行. \\ は改行を表しま...
$ /usr/local/libexec/mecab/mecab-dict-index \\
-d/usr/local/lib/mecab/dic/ipadic -u ishida.dic \\
-f utf-8 -t utf-8 ishida.csv
作成された ishida.dic を利用できるか, まずコマンドライン...
$ mecab -u ishida.dic
石田基広
石田 名詞,固有名詞,人名,姓,*,*,石田,イシダ,イシダ
基広 名詞,固有名詞,人名,名,*,*,基広,モトヒロ,モトヒロ
EOS
うまく行っているようだったら,
$ cp /usr/local/etc/mecabrc ~/.mecabrc
として ishida.dic を以下のように追加する
$ vi ~/.mecabrc
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
dicdir = /usr/local/lib/mecab/dic/ipadic
userdic = /home/ishida/git/Document/ishida.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n
//なお RMeCab 上で辞書を指定できる仕様を追加する予定です(...
なお RMeCab 上で辞書を指定するには関数で dic 引数を指定し...
> library(RMeCab)
> x <- docMatrix("/Users/ishida/tmp", dic = "/Users/ishi...
* Mac で辞書を作成し,RMeCab で利用する [#va34eef1]
64Bit R on Snow Leopard で
実行してみました.
MacBook:~ ishida$ mecab
石田基広
石田 名詞,固有名詞,人名,姓,*,*,石田,イシダ,イシダ
基 名詞,固有名詞,人名,名,*,*,基,ハジメ,ハジメ
広 形容詞,自立,*,*,形容詞・アウオ段,ガル接続,広い,...
EOS
^C
MacBook:data ishida$ vi ishida.csv
基広,-1,-1,1000,名詞,固有名詞,人名,名,*,*,基広,モトヒロ,...
MacBook:data ishida$ /usr/local/libexec/mecab/mecab-dict...
-d/usr/local/lib/mecab/dic/ipadic -u ishida2.dic -f utf-...
ishida.csv
reading ishida.csv ... 1
emitting double-array: 100% |###########################...
done!
MacBook:data ishida$ mecab -u ishida2.dic
石田基広
石田 名詞,固有名詞,人名,姓,*,*,石田,イシダ,イシダ
基広 名詞,固有名詞,人名,名,*,*,基広,モトヒロ,モトヒロ
EOS
MacBook:~ ishida$ R
R version 2.13.0 (2011-04-13)
Copyright (C) 2011 The R Foundation for Statistical Com...
ISBN 3-900051-07-0
Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)
> library(RMeCab)
> x <- docMatrix("/Users/ishida/tmp", dic = "/Users/ish...
file = /Users/ishida/tmp/test.txt
file = /Users/ishida/tmp/test2.txt
Term Document Matrix includes 2 information rows!
whose names are [[LESS-THAN-1]] and [[TOTAL-TOKENS]]
if you remove these rows, run
result[ row.names(result) != "[[LESS-THAN-1]]" , ]
result[ row.names(result) != "[[TOTAL-TOKENS]]" , ]
> x
docs
terms test.txt test2.txt
[[LESS-THAN-1]] 0 0
[[TOTAL-TOKENS]] 7 6
基広 1 1
石田 1 1
大学 1 0
出張 0 1
明日 0 1
終了行:
[[RMeCab]]
#contents
* MeCabへの辞書追加 [#q468c95c]
詳細は [[http://taku910.github.io/mecab/dic.html]]を参照...
例えば Ubuntu であれば
基広,-1,-1,1000,名詞,固有名詞,人名,名,*,*,基広,モトヒロ,...
を ishida.csv として作成し,以下を実行. \\ は改行を表しま...
$ /usr/local/libexec/mecab/mecab-dict-index \\
-d/usr/local/lib/mecab/dic/ipadic -u ishida.dic \\
-f utf-8 -t utf-8 ishida.csv
作成された ishida.dic を利用できるか, まずコマンドライン...
$ mecab -u ishida.dic
石田基広
石田 名詞,固有名詞,人名,姓,*,*,石田,イシダ,イシダ
基広 名詞,固有名詞,人名,名,*,*,基広,モトヒロ,モトヒロ
EOS
うまく行っているようだったら,
$ cp /usr/local/etc/mecabrc ~/.mecabrc
として ishida.dic を以下のように追加する
$ vi ~/.mecabrc
;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
;
dicdir = /usr/local/lib/mecab/dic/ipadic
userdic = /home/ishida/git/Document/ishida.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m\n
; bos-format = %S\n
; eos-format = EOS\n
//なお RMeCab 上で辞書を指定できる仕様を追加する予定です(...
なお RMeCab 上で辞書を指定するには関数で dic 引数を指定し...
> library(RMeCab)
> x <- docMatrix("/Users/ishida/tmp", dic = "/Users/ishi...
* Mac で辞書を作成し,RMeCab で利用する [#va34eef1]
64Bit R on Snow Leopard で
実行してみました.
MacBook:~ ishida$ mecab
石田基広
石田 名詞,固有名詞,人名,姓,*,*,石田,イシダ,イシダ
基 名詞,固有名詞,人名,名,*,*,基,ハジメ,ハジメ
広 形容詞,自立,*,*,形容詞・アウオ段,ガル接続,広い,...
EOS
^C
MacBook:data ishida$ vi ishida.csv
基広,-1,-1,1000,名詞,固有名詞,人名,名,*,*,基広,モトヒロ,...
MacBook:data ishida$ /usr/local/libexec/mecab/mecab-dict...
-d/usr/local/lib/mecab/dic/ipadic -u ishida2.dic -f utf-...
ishida.csv
reading ishida.csv ... 1
emitting double-array: 100% |###########################...
done!
MacBook:data ishida$ mecab -u ishida2.dic
石田基広
石田 名詞,固有名詞,人名,姓,*,*,石田,イシダ,イシダ
基広 名詞,固有名詞,人名,名,*,*,基広,モトヒロ,モトヒロ
EOS
MacBook:~ ishida$ R
R version 2.13.0 (2011-04-13)
Copyright (C) 2011 The R Foundation for Statistical Com...
ISBN 3-900051-07-0
Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)
> library(RMeCab)
> x <- docMatrix("/Users/ishida/tmp", dic = "/Users/ish...
file = /Users/ishida/tmp/test.txt
file = /Users/ishida/tmp/test2.txt
Term Document Matrix includes 2 information rows!
whose names are [[LESS-THAN-1]] and [[TOTAL-TOKENS]]
if you remove these rows, run
result[ row.names(result) != "[[LESS-THAN-1]]" , ]
result[ row.names(result) != "[[TOTAL-TOKENS]]" , ]
> x
docs
terms test.txt test2.txt
[[LESS-THAN-1]] 0 0
[[TOTAL-TOKENS]] 7 6
基広 1 1
石田 1 1
大学 1 0
出張 0 1
明日 0 1
ページ名: