invalid multibyte character in parser at line 2 の対処

アールメカブ フォーラム RMeCab invalid multibyte character in parser at line 2 の対処

  • このトピックには4件の返信、2人の参加者があり、最後に武藤隆真により4年、 11ヶ月前に更新されました。
5件の投稿を表示中 - 1 - 5件目 (全5件中)
  • 投稿者
    投稿
  • #1919
    武藤隆真
    ゲスト

    お忙しいところ、失礼いたします。

    RMeCabCで白書の一部をテキストファイル化したものをRstudio内で読み込もうとしたところ、
    invalid multibyte character in parser at line 2と表示され、エラーになってしまいました。
    文字化け等は、今のところ発生しておらず、原因がわかりません。

    方策を教えていただけると大変、助かります。

    #1921
    石田
    ゲスト

    ご利用のOSはWindowsでしょうか?
    また、読み込んでいるファイルの文字コードは何でしょうか?

    #1924
    武藤隆真
    ゲスト

    ご返信ありがとうございます。
    OSはWindowsで、読み込んでいるファイルの文字コードは、ANSIです。
    また、白書のPDFをテキストファイルにコピペして貼り付けています。

    #1928
    ishida
    キーマスター

    エラーメッセージにあるとおり、Windowsでは解釈できない文字がファイル内に混入しているのだと思います。
    ファイルの中に、そのOSでは読めない文字があれば、特定する関数がRにあったと思うのですが、残念ながら、いま、思い出せません。
    多少手間ですが、ファイルを部分に分けて読み込むなどして、問題になっている文字を特定し、削除して構わないものであれば削除するなどの対処が必要かと思います。
    あるいは、Rのiconv() で文字コードを CP932に変換する処理を行えば、その種の文字は?に置き換わってしまいます。また、Macが使えるのであれば、Macで実行してみるのも方法かと思います。

    #1931
    武藤隆真
    ゲスト

    石田先生
    iconv()関数を使用したところ無事、エラー無くRMeCabCで読み込むことが、叶いました。
    どうもありがとうございました。

5件の投稿を表示中 - 1 - 5件目 (全5件中)
  • フォーラム「RMeCab」には新規投稿および返信を追加できません。