RMeCabTextの文字化けについて

アールメカブ フォーラム RMeCab RMeCabTextの文字化けについて

  • このトピックには2件の返信、2人の参加者があり、最後にApepirmにより2年、 11ヶ月前に更新されました。
3件の投稿を表示中 - 1 - 3件目 (全3件中)
  • 投稿者
    投稿
  • #940
    Kasashima
    ゲスト

    初めまして。「Rによるテキストマイニング入門(第2版)」を読ませていただいております。
    windows10です。
    mecab-0.996.exeをダウンロードしたのち
    install.packages(“RMeCab”, repos = “http://rmecab.jp/R”)によってRMeCabをインストールしました。

    本題です。
    RstudioでRMeCabText(“data/hon.txt”)を実行すると以下のように出力されます。

    > RMeCabText(“data/hon.txt”)
    file = data/hon.txt
    [[1]]
    [1] “譛” “名詞” “一般” “*” “*” “*” “*” “*” “”
    [10] “”

    [[2]]
    [1] “ャ” “名詞” “一般” “*” “*” “*” “*” “*” “”
    [10] “”

    [[3]]
    [1] “繧定” “名詞” “一般” “*” “*” “*” “*” “*” “”
    [10] “”

    [[4]]
    [1] “イキ” “名詞” “一般” “*” “*” “*” “*” “*” “”
    [10] “”

    [[5]]
    [1] “縺” “名詞” “一般” “*” “*” “*” “*” “*” “”
    [10] “”

    [[6]]
    [1] “」” “名詞” “サ変接続” “*” “*” “*”
    [7] “*” “*” “” “”

    [[7]]
    [1] “縺” “名詞” “一般” “*” “*” “*” “*” “*” “”
    [10] “”

    [[8]]
    [1] “<9f>\n” “記号” “一般” “*” “*” “*” “*”
    [8] “*” “” “”

    以上です。ぜひ解決法についてご教授いただければと存じます。
    また、以下にsessionInfo()の実行結果を添付します。

    > sessionInfo()
    R version 3.5.0 (2018-04-23)
    Platform: x86_64-w64-mingw32/x64 (64-bit)
    Running under: Windows >= 8 x64 (build 9200)

    Matrix products: default

    locale:
    [1] LC_COLLATE=Japanese_Japan.932
    [2] LC_CTYPE=Japanese_Japan.932
    [3] LC_MONETARY=Japanese_Japan.932
    [4] LC_NUMERIC=C
    [5] LC_TIME=Japanese_Japan.932

    attached base packages:
    [1] stats graphics grDevices utils datasets
    [6] methods base

    other attached packages:
    [1] dplyr_0.7.5 RMeCab_1.00

    loaded via a namespace (and not attached):
    [1] tidyselect_0.2.4 compiler_3.5.0 magrittr_1.5
    [4] assertthat_0.2.0 R6_2.2.2 tools_3.5.0
    [7] pillar_1.2.2 bindrcpp_0.2.2 glue_1.2.0
    [10] tibble_1.4.2 Rcpp_0.12.16 pkgconfig_2.0.1
    [13] rlang_0.2.0 purrr_0.2.5 bindr_0.1.1
    >

    #941
    ishida
    キーマスター

    file = data/hon.txt
    がUTF-8だということはないでしょうか?
    以下のようにして表示されるか確認してみてください。

    
    readLines("data/inu.txt")
     ## readLines("data/inu.txt", encoding = "UTF-8")
    

    もしも文字化けする場合は、CP932(ShiftJIS)以外で作成されているファイルなので、CP932に変換する必要があります。TeraPad などのエディタで一度開いてメニューで変換するのが簡単かもしれません。

    #944
    kasashima
    ゲスト

    お早い返信ありがとうございます。
    おっしゃる通りUTF-8になっており、TeraPadで変換すると文字化けせず表示できました。
    ありがとうございました。

3件の投稿を表示中 - 1 - 3件目 (全3件中)
  • フォーラム「RMeCab」には新規投稿および返信を追加できません。