- このトピックには2件の返信、2人の参加者があり、最後にApepirmにより3年、 6ヶ月前に更新されました。
-
投稿者投稿
-
2018年6月26日 5:31 PM #940Kasashimaゲスト
初めまして。「Rによるテキストマイニング入門(第2版)」を読ませていただいております。
windows10です。
mecab-0.996.exeをダウンロードしたのち
install.packages(“RMeCab”, repos = “http://rmecab.jp/R”)によってRMeCabをインストールしました。本題です。
RstudioでRMeCabText(“data/hon.txt”)を実行すると以下のように出力されます。> RMeCabText(“data/hon.txt”)
file = data/hon.txt
[[1]]
[1] “譛” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”[[2]]
[1] “ャ” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”[[3]]
[1] “繧定” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”[[4]]
[1] “イキ” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”[[5]]
[1] “縺” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”[[6]]
[1] “」” “名詞” “サ変接続” “*” “*” “*”
[7] “*” “*” “” “”[[7]]
[1] “縺” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”[[8]]
[1] “<9f>\n” “記号” “一般” “*” “*” “*” “*”
[8] “*” “” “”以上です。ぜひ解決法についてご教授いただければと存じます。
また、以下にsessionInfo()の実行結果を添付します。> sessionInfo()
R version 3.5.0 (2018-04-23)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)Matrix products: default
locale:
[1] LC_COLLATE=Japanese_Japan.932
[2] LC_CTYPE=Japanese_Japan.932
[3] LC_MONETARY=Japanese_Japan.932
[4] LC_NUMERIC=C
[5] LC_TIME=Japanese_Japan.932attached base packages:
[1] stats graphics grDevices utils datasets
[6] methods baseother attached packages:
[1] dplyr_0.7.5 RMeCab_1.00loaded via a namespace (and not attached):
[1] tidyselect_0.2.4 compiler_3.5.0 magrittr_1.5
[4] assertthat_0.2.0 R6_2.2.2 tools_3.5.0
[7] pillar_1.2.2 bindrcpp_0.2.2 glue_1.2.0
[10] tibble_1.4.2 Rcpp_0.12.16 pkgconfig_2.0.1
[13] rlang_0.2.0 purrr_0.2.5 bindr_0.1.1
>2018年6月27日 10:47 AM #941ishidaキーマスターfile = data/hon.txt
がUTF-8だということはないでしょうか?
以下のようにして表示されるか確認してみてください。readLines("data/inu.txt") ## readLines("data/inu.txt", encoding = "UTF-8")
もしも文字化けする場合は、CP932(ShiftJIS)以外で作成されているファイルなので、CP932に変換する必要があります。TeraPad などのエディタで一度開いてメニューで変換するのが簡単かもしれません。
2018年6月28日 4:14 PM #944kasashimaゲストお早い返信ありがとうございます。
おっしゃる通りUTF-8になっており、TeraPadで変換すると文字化けせず表示できました。
ありがとうございました。 -
投稿者投稿
- フォーラム「RMeCab」には新規投稿および返信を追加できません。