docMatrix2()の出力

アールメカブ フォーラム RMeCab docMatrix2()の出力

  • このトピックには2件の返信、2人の参加者があり、最後に縄田直治により5年、 5ヶ月前に更新されました。
3件の投稿を表示中 - 1 - 3件目 (全3件中)
  • 投稿者
    投稿
  • #1732
    縄田直治
    ゲスト

    有価証券報告書の分析をしています。
    4千件程度のファイルがあるので、一回の分析で得られる出力をなるべく活用したく、以下の点を悩んでいます。

    1.docMatrix2()のパラメタpos=c(“名詞”,”動詞”)などの指定の際に、固有名詞を除くとか、サ変動詞のみを選ぶという方法はありますか。

    2.出力をMatrixではなくデータフレームでとって、形態素の属性も一緒に出力することはできませんか。

    #1735
    ishida
    キーマスター

    解析時に「品詞細分類」を指定する機能は付けていないです。
    また、出力をデータフレームにするのであれば、docDF() を使ってください。
    http://rmecab.jp/wiki/index.php?RMeCabFunctions#icae4377
    試される場合は、最新版1.04で利用メモリを拡張しているので、RMeCabを再インストールしてください。

    なお、以下のようにして、ファイルごとに対象の品詞だけを抽出して、データフレームとして結合していくことも可能かなとは思います。

    
    files <- list.files("~/data/doc", full.names = TRUE, pattern = "txt")
    library(tidyverse)
    Z <- files %>% map_df(~{
      file_n <- .
      x <-RMeCabText(file_n)
      map2_df(x, file_n,  {
        ~ if(.x[2] %in% c( "名詞", "動詞")  & !(.x[3] %in% c("固有名詞",  "サ変動詞"))) tibble(F = file_n, X = .x[1], Y = .x[2])
    })})
    

    ここからファイルごとに出現単語の頻度を(品詞の区別を無視して)数える場合は以下のようにします。

    
    Z %>% count(F, X)
    
    • この返信は5年、 5ヶ月前にishidaが編集しました。
    • この返信は5年、 5ヶ月前にishidaが編集しました。
    • この返信は5年、 5ヶ月前にishidaが編集しました。
    #1738
    縄田直治
    ゲスト

    石田先生 早速のご回答ありがとうございます。
    教えていただいた方法でトライしていきます。

3件の投稿を表示中 - 1 - 3件目 (全3件中)
  • フォーラム「RMeCab」には新規投稿および返信を追加できません。