トピック: RMeCabTextの文字化けについて

このトピックには2件の返信、2人の参加者があり、最後にApepirmにより4年、 9ヶ月前に更新されました。

3件の投稿を表示中 - 1 - 3件目 (全3件中)

投稿者

投稿
2018年6月26日 5:31 PM #940

Kasashima
ゲスト

初めまして。「Rによるテキストマイニング入門（第２版）」を読ませていただいております。
windows10です。
mecab-0.996.exeをダウンロードしたのち
install.packages(“RMeCab”, repos = “http://rmecab.jp/R”)によってRMeCabをインストールしました。

本題です。
RstudioでRMeCabText(“data/hon.txt”)を実行すると以下のように出力されます。

> RMeCabText(“data/hon.txt”)
file = data/hon.txt
[[1]]
[1] “譛” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”

[[2]]
[1] “ｬ” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”

[[3]]
[1] “繧定” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”

[[4]]
[1] “ｲｷ” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”

[[5]]
[1] “縺” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”

[[6]]
[1] “｣” “名詞” “サ変接続” “*” “*” “*”
[7] “*” “*” “” “”

[[7]]
[1] “縺” “名詞” “一般” “*” “*” “*” “*” “*” “”
[10] “”

[[8]]
[1] “<9f>\n” “記号” “一般” “*” “*” “*” “*”
[8] “*” “” “”

以上です。ぜひ解決法についてご教授いただければと存じます。
また、以下にsessionInfo()の実行結果を添付します。

> sessionInfo()
R version 3.5.0 (2018-04-23)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

Matrix products: default

locale:
[1] LC_COLLATE=Japanese_Japan.932
[2] LC_CTYPE=Japanese_Japan.932
[3] LC_MONETARY=Japanese_Japan.932
[4] LC_NUMERIC=C
[5] LC_TIME=Japanese_Japan.932

attached base packages:
[1] stats graphics grDevices utils datasets
[6] methods base

other attached packages:
[1] dplyr_0.7.5 RMeCab_1.00

loaded via a namespace (and not attached):
[1] tidyselect_0.2.4 compiler_3.5.0 magrittr_1.5
[4] assertthat_0.2.0 R6_2.2.2 tools_3.5.0
[7] pillar_1.2.2 bindrcpp_0.2.2 glue_1.2.0
[10] tibble_1.4.2 Rcpp_0.12.16 pkgconfig_2.0.1
[13] rlang_0.2.0 purrr_0.2.5 bindr_0.1.1
>

2018年6月27日 10:47 AM #941
ishida
キーマスター
file = data/hon.txt
がUTF-8だということはないでしょうか？
以下のようにして表示されるか確認してみてください。
```
readLines("data/inu.txt")
 ## readLines("data/inu.txt", encoding = "UTF-8")
```
もしも文字化けする場合は、CP932(ShiftJIS)以外で作成されているファイルなので、CP932に変換する必要があります。TeraPad などのエディタで一度開いてメニューで変換するのが簡単かもしれません。
2018年6月28日 4:14 PM #944

kasashima
ゲスト

お早い返信ありがとうございます。
おっしゃる通りUTF-8になっており、TeraPadで変換すると文字化けせず表示できました。
ありがとうございました。
投稿者

投稿

3件の投稿を表示中 - 1 - 3件目 (全3件中)

フォーラム「RMeCab」には新規投稿および返信を追加できません。

RMeCabTextの文字化けについて

RMeCab掲示版

フォーラムを検索

最近の投稿

最近のコメント

メタ情報

アーカイブ

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

RMeCabTextの文字化けについて

RMeCab掲示版

フォーラムを検索

タグ

最近の投稿

最近のコメント