ishida

フォーラムへの返信

15件の投稿を表示中 - 16 - 30件目 (全47件中)
  • 投稿者
    投稿
  • ishida
    キーマスター

    お返事が遅くなりました。

    RMeCabが英文に対応しているということではなく、
    MeCabの方で、英語のテキストを正しく単語に分割
    できれば、それをRのデータとして保存できるという
    ことです。MeCabには、英文のレンマ化などの機能は
    なく(動詞などの活用形はすべて別の語として扱われる)、
    かつ品詞も推定できませんので、その点は制約になり
    ます。
    が、表層語がカウントできれば良いということであれば、
    問題ないと思います。

    返信先: RMeCabでの形態素解析 #1951
    ishida
    キーマスター

    Windows版MeCabはインストールされていますか?

    http://taku910.github.io/mecab/

    返信先: RMeCab1.04のリポジトリ #1940
    ishida
    キーマスター

    ご指摘の通りで、修正されていませんでした。
    当初、投稿しているファイルを間違えたものと
    思っておりましたが、そうではなく、サイトに
    登録しているファイルを列記した PACKAGES と
    いう設定ファイルの内容が更新されていないの
    が原因でした。

    とても助かりました。ありがとうございます。

    返信先: RMeCab1.04のリポジトリ #1937
    ishida
    キーマスター

    ありがとうございます。
    ファイルを間違えていたようです。アップし直しました。
    ご存知かも知れませんが、ソースはGitHubにもあげていますので、
    Mac/Linuxであれば、以下でインストールできると思います。

    https://github.com/IshidaMotohiro/RMeCab

    
    install.packages("devtools")
    devtools::install_github("IshidaMotohiro/RMeCab")
    
    • この返信は4年、 5ヶ月前にishidaが編集しました。
    ishida
    キーマスター

    エラーメッセージにあるとおり、Windowsでは解釈できない文字がファイル内に混入しているのだと思います。
    ファイルの中に、そのOSでは読めない文字があれば、特定する関数がRにあったと思うのですが、残念ながら、いま、思い出せません。
    多少手間ですが、ファイルを部分に分けて読み込むなどして、問題になっている文字を特定し、削除して構わないものであれば削除するなどの対処が必要かと思います。
    あるいは、Rのiconv() で文字コードを CP932に変換する処理を行えば、その種の文字は?に置き換わってしまいます。また、Macが使えるのであれば、Macで実行してみるのも方法かと思います。

    返信先: RMeCabUni #1922
    ishida
    キーマスター

    it seems that RMeCabUni’s binary files must be rebuilt for R 3.*.
    Please wait for a moment

    • この返信は4年、 5ヶ月前にishidaが編集しました。
    返信先: docMatrix2()の出力 #1735
    ishida
    キーマスター

    解析時に「品詞細分類」を指定する機能は付けていないです。
    また、出力をデータフレームにするのであれば、docDF() を使ってください。
    http://rmecab.jp/wiki/index.php?RMeCabFunctions#icae4377
    試される場合は、最新版1.04で利用メモリを拡張しているので、RMeCabを再インストールしてください。

    なお、以下のようにして、ファイルごとに対象の品詞だけを抽出して、データフレームとして結合していくことも可能かなとは思います。

    
    files <- list.files("~/data/doc", full.names = TRUE, pattern = "txt")
    library(tidyverse)
    Z <- files %>% map_df(~{
      file_n <- .
      x <-RMeCabText(file_n)
      map2_df(x, file_n,  {
        ~ if(.x[2] %in% c( "名詞", "動詞")  & !(.x[3] %in% c("固有名詞",  "サ変動詞"))) tibble(F = file_n, X = .x[1], Y = .x[2])
    })})
    

    ここからファイルごとに出現単語の頻度を(品詞の区別を無視して)数える場合は以下のようにします。

    
    Z %>% count(F, X)
    
    • この返信は4年、 11ヶ月前にishidaが編集しました。
    • この返信は4年、 11ヶ月前にishidaが編集しました。
    • この返信は4年、 11ヶ月前にishidaが編集しました。
    返信先: RMeCabUni #1683
    ishida
    キーマスター

    応急処置をしておいたので、インストールはできると思います

    返信先: RMeCabUni #1682
    ishida
    キーマスター

    たびたびお手数おかけして恐縮です。

    ソースの位置指定のミスが残っていました。修正しましたが、
    手もとのMac/Linuxで実行すると、コンパイルエラーが起こります。
    原因は特定できていますので、早めに修正したいと思います。
    修正できたら、ここに報告させていただきます。

    返信先: RMeCabUni #1678
    ishida
    キーマスター

    RMeCabUni ですが、R-3.6.0> ではソースをダウンロードできない状態でした。
    修正しましたので、今はインストールできると思います。

    ただ、RMeCabUni については、コードを見直しと修正を行いたいと考えている
    のですが、なかなか時間を見つけることができないでいます。現状、ベータ版
    と考えていただければと思います。

    返信先: wordcloud 文字化け #1572
    ishida
    キーマスター

    以下のコードをWindowsのRで実行してプロットに日本語が表示されますか?

    
    source("http://rmecab.jp/R/Aozora.R")
    x <- Aozora("http://www.aozora.gr.jp/cards/000081/files/43754_ruby_17594.zip")
    library(RMeCab)
    z <- docDF(x, type = 1)
    library(wordcloud)
    wordcloud(z$TERM, z$chumonno_oi_ryoriten2.txt)
    
    • この返信は5年、 3ヶ月前にishidaが編集しました。
    返信先: wordcloud 文字化け #1569
    ishida
    キーマスター

    石田です。

    まず質問1ですが、対象テキストの中身の詳細がわからないのでなんと言えませんが、
    「本」という文字が問題なのではなく、その前後におそらくは絵文字の類がはいっているのではないかと思います。windows-1252と判定されるのは、detectEndoding()が正しく判定できていないからです。

    一番簡単なのは、Windows上のエディタで開いて、明示的にShift-Jisを指定して保存し直すことです。ここ場合、特殊文字は?に置換されます。
    もしも、絵文字も分析上、重要となると、ファイルをUTF-8で保存し、Rで読み込んだ際、特殊文字をUnicodeあるいはバイナリ表示に変えて利用することです。
    Windowsでは以下のようにすれば、特殊文字だけ16進コードに置き換えられます。

    
    x <- readLines("file")
    for( s in x) { 
      iconv(s, from = "UTF-8", to = "CP932", sub = "byte")
      write(s, file = "converted", append = TRUE)
    }
    

    質問2についても、こちらもWindows上では特に設定なくひらがな感じが表示されるはずなのですが、
    一応、ユーザーホームに .Rprofileを作成することを試してください。

    ちなみに以下を実行すると、自動的に作成してくれます。

    
    source("http://rmecab.jp/R/Rprofile.R")
    
    返信先: docMatrixDFにおける重み付け処理について #1564
    ishida
    キーマスター

    返信が遅れまして申し訳ないです。

    RMeCabの次のバージョンで修正したいと思いますが、
    とりあえずは実行時に以下のようにして、関数定義を修正していただければと思います、

    
    trace(docMatrixDF, edit = TRUE)
    

    実行すると別ウィンドウが開きますので、修正すべき箇所を書き直して、ウィンドウを閉じますと、以降、修正された処理が実行されます。

    • この返信は5年、 4ヶ月前にishidaが編集しました。
    返信先: RMeCabのインストールエラー #948
    ishida
    キーマスター

    日本語ユーザー名でログインしておられませんか?

    その場合、C:\User\石田\Documents\R\win-library にパッケージをインストールしようとして、
    日本語のフォルダ名を解釈できずエラーになっているのだと思います
    (まだ、こういうエラーが生じることにちょっと驚きました)。

    別の場所にインストールするように設定するか、あるいはユーザ名を変更するしかないと思われます。
    ライブラリのインストール先を変更する手順は、例えば以下のサイトなどの情報を参考にしてください。

    返信先: RMeCabのインストールエラー #946
    ishida
    キーマスター

    お尋ねの件ですが、他のパッケージもインストールできないということはありませんか?
    試しに以下を実行してみてください。

    
    install.packages("ggplot2")
    
15件の投稿を表示中 - 16 - 30件目 (全47件中)