RMeCabの出力の文字化けについて

アールメカブ フォーラム RMeCab RMeCabの出力の文字化けについて

  • このトピックには2件の返信、1人の参加者があり、最後にApepirmにより3年、 6ヶ月前に更新されました。
3件の投稿を表示中 - 1 - 3件目 (全3件中)
  • 投稿者
    投稿
  • #874
    tetsuo
    ゲスト

    初めて質問させて頂きます。
    https://qiita.com/hujuu/items/314a64a50875cdabf755
    において紹介されている手順でRMeCabをインストールしたのですが、
    RMeCabの関数を実行すると、例えば

    res <- RMeCabC("すもももももももものうち")
    > unlist (res)
                  \345\220\215\350\251\236 
    "\343\201\231\343\202\202\343\202\202" 
                  \345\212\251\350\251\236 
                            "\343\202\202" 
                  \345\220\215\350\251\236 
                "\343\202\202\343\202\202" 
                  \345\212\251\350\251\236 
                            "\343\202\202" 
                  \345\220\215\350\251\236 
                "\343\202\202\343\202\202" 
                  \345\212\251\350\251\236 
                            "\343\201\256" 
                  \345\220\215\350\251\236 
                "\343\201\206\343\201\241" 

    というように、日本語の部分が、数字の羅列になってしまいます。
    以前、同じパソコンでRMeCabを使っていたときには
    (一度、R、Rstudioをアンインストールしており、
    本日再度RMeCabをインストールしました)、
    問題なく使えていたので、原因がわからず、うまく対処できずにおります。

    大変お手数をおかけしますが、対処策について
    ご教示頂けると幸いです。
    何卒、宜しくお願い致します。

    >  sessionInfo() 
    R version 3.4.2 (2017-09-28)
    Platform: x86_64-apple-darwin15.6.0 (64-bit)
    Running under: macOS Sierra 10.12.6
    
    Matrix products: default
    BLAS: /System/Library/Frameworks/Accelerate.framework/Versions/A/Frameworks/vecLib.framework/Versions/A/libBLAS.dylib
    LAPACK: /Library/Frameworks/R.framework/Versions/3.4/Resources/lib/libRlapack.dylib
    
    locale:
    [1] C
    
    attached base packages:
    [1] stats     graphics  grDevices utils     datasets  methods   base     
    
    other attached packages:
    [1] dplyr_0.7.3    RMeCab_0.99999
    
    loaded via a namespace (and not attached):
     [1] compiler_3.4.2   magrittr_1.5     assertthat_0.2.0 R6_2.2.2        
     [5] rsconnect_0.8    tools_3.4.2      bindrcpp_0.2     glue_1.1.1      
     [9] tibble_1.3.3     yaml_2.1.14      Rcpp_0.12.11     pkgconfig_2.0.1 
    [13] rlang_0.1.2      bindr_0.1       
    #875
    石田基広
    ゲスト

    お返事が遅れて恐縮です。
    これは多分、コンソールの表示上の問題なのだと思います。
    理由はわかりませんが、お使いのRStudioの言語設定がおかしいため、形態素解析そのものは正常に実行されているのですが、コンソールでは正しく表示されていないのだと思います。
    応急策は以下に示すようにSys.setlocale()を明示的に実行することなのですが、そもそも、なぜ日本語が表示できるようデフォルトで設定されていないのか、少し調べまして、わかりました、このサイトで紹介いたします。

    
    R version 3.4.2 (2017-09-28) -- "Short Summer"
    Copyright (C) 2017 The R Foundation for Statistical Computing
    Platform: x86_64-pc-linux-gnu (64-bit)
    
    R は、自由なソフトウェアであり、「完全に無保証」です。 
    一定の条件に従えば、自由にこれを再配布することができます。 
    配布条件の詳細に関しては、'license()' あるいは 'licence()' と入力してください。 
    
    R は多くの貢献者による共同プロジェクトです。 
    詳しくは 'contributors()' と入力してください。 
    また、R や R のパッケージを出版物で引用する際の形式については 
    'citation()' と入力してください。 
    
    'demo()' と入力すればデモをみることができます。 
    'help()' とすればオンラインヘルプが出ます。 
    'help.start()' で HTML ブラウザによるヘルプがみられます。 
    'q()' と入力すれば R を終了します。 
    
    > library(RMeCab)
    > unlist(RMeCabC("すもももももももものうち"))
        名詞     助詞     名詞     助詞     名詞     助詞     名詞 
    "すもも"     "も"   "もも"     "も"   "もも"     "の"   "うち" 
    > Sys.setlocale("LC_CTYPE", "C")
    [1] "C"
    > unlist(RMeCabC("すもももももももものうち"))CTYPE", "C")
                  \345\220\215\350\251\236               \345\212\251\350\251\236 
    "\343\201\231\343\202\202\343\202\202"                         "\343\202\202" 
                  \345\220\215\350\251\236               \345\212\251\350\251\236 
                "\343\202\202\343\202\202"                         "\343\202\202" 
                  \345\220\215\350\251\236               \345\212\251\350\251\236 
                "\343\202\202\343\202\202"                         "\343\201\256" 
                  \345\220\215\350\251\236 
                "\343\201\206\343\201\241" 
    > Sys.setlocale("LC_CTYPE", "ja_JP.UTF-8")
    [1] "ja_JP.UTF-8"
    > unlist(RMeCabC("すもももももももものうち"))
        名詞     助詞     名詞     助詞     名詞     助詞     名詞 
    "すもも"     "も"   "もも"     "も"   "もも"     "の"   "うち" 
    > 
    
    • この返信は7年前にishidaが編集しました。
    #877
    tetsuo
    ゲスト

    お忙しい中、ご返答頂きありがとうございます。
    ご指摘頂いたことを踏まえ、Rstudio、Rの言語設定を確認したところ、
    どうやらRの方で、ロケールの設定がうまく出来ていなかったために、
    上記の問題が発生していることが分かりました。

    https://maku77.github.io/r/basic/locale.html
    を参照し、Macのterminalへ以下のように、入力したところ、
    文字化けの問題が解決しました。
    defaults write org.R-project.R force.LANG ja_JP.UTF-8

    今回は、お忙しい中ご対応頂きありがとうございました。

3件の投稿を表示中 - 1 - 3件目 (全3件中)
  • フォーラム「RMeCab」には新規投稿および返信を追加できません。