トピック: docMatrix2()の出力

このトピックには2件の返信、2人の参加者があり、最後に縄田直治により6年、 9ヶ月前に更新されました。

3件の投稿を表示中 - 1 - 3件目 (全3件中)

投稿者

投稿
2019年6月15日 5:09 PM #1732

縄田直治
ゲスト

有価証券報告書の分析をしています。
４千件程度のファイルがあるので、一回の分析で得られる出力をなるべく活用したく、以下の点を悩んでいます。

１．docMatrix2()のパラメタpos=c(“名詞”,”動詞”)などの指定の際に、固有名詞を除くとか、サ変動詞のみを選ぶという方法はありますか。

２．出力をMatrixではなくデータフレームでとって、形態素の属性も一緒に出力することはできませんか。

2019年6月17日 9:37 AM #1735
ishida
キーマスター
解析時に「品詞細分類」を指定する機能は付けていないです。
また、出力をデータフレームにするのであれば、docDF() を使ってください。
http://rmecab.jp/wiki/index.php?RMeCabFunctions#icae4377
試される場合は、最新版1.04で利用メモリを拡張しているので、RMeCabを再インストールしてください。

なお、以下のようにして、ファイルごとに対象の品詞だけを抽出して、データフレームとして結合していくことも可能かなとは思います。
```
files <- list.files("~/data/doc", full.names = TRUE, pattern = "txt")
library(tidyverse)
Z <- files %>% map_df(~{
  file_n <- .
  x <-RMeCabText(file_n)
  map2_df(x, file_n,  {
    ~ if(.x[2] %in% c( "名詞", "動詞")  & !(.x[3] %in% c("固有名詞",  "サ変動詞"))) tibble(F = file_n, X = .x[1], Y = .x[2])
})})
```
ここからファイルごとに出現単語の頻度を（品詞の区別を無視して）数える場合は以下のようにします。
```
Z %>% count(F, X)
```
- この返信は6年、 9ヶ月前にishidaが編集しました。
- この返信は6年、 9ヶ月前にishidaが編集しました。
- この返信は6年、 9ヶ月前にishidaが編集しました。
2019年6月17日 11:52 AM #1738

縄田直治
ゲスト

石田先生　早速のご回答ありがとうございます。
教えていただいた方法でトライしていきます。
投稿者

投稿

3件の投稿を表示中 - 1 - 3件目 (全3件中)

フォーラム「RMeCab」には新規投稿および返信を追加できません。

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

docMatrix2()の出力

RMeCab掲示版

フォーラムを検索

最近の投稿

最近のコメント

メタ情報

アーカイブ

docMatrix2()の出力

RMeCab掲示版

フォーラムを検索

タグ

最近の投稿

最近のコメント