日録2007_10月 のバックアップ(No.5) - アールメカブ

アールメカブ


日録2007_10月 のバックアップ(No.5)


日録2007_9月 過去の日録

_ 2007 10月

_ 10月01日 (月) 晴

  • 06:00 起床
  • 07:30 研究室(整理)
  • 午前
    • TreeTagger? だが,改めて研究室の Fedora にインストールしてみると,なんの問題もなく動く.全く同じ手順を行ったのだが,Debian系のUbuntu ではパスの設定が違うのかな?
      • 帰宅後、もう一度調べた。まず Ubuntu には gawk がデフォルトでは入っていない。さらに/filter-chunker-output-german.perl の上のパスが /usr/local/bin/perl となっていた。しかし,これはインストーラーが自動設定するようになっているのではないか?Fedora でインストールした場合は /usr/bin/perlと設定されている。ところが install.sh には、perl パス設定の記述はない。う〜ん、なぜか分からないが、とりあえずこのファイルのパスを修正することで、うまく作動するようになった。
    • 新しい日録ページを用意した.カウンタは表示ページごとに設定されるみたいで,リセットした数値が表示されている.別にいいけど.
    • BaayenAnalyzing Linguistic Data
      • GLM 一般化線形モデルの説明に入る.始めにロジスティック回帰分析.欧米の社会科学や言語学では WikiPedia:VARBRUL というソフトが使われているらしいが,私は良く知らない.無論,Baayen の本では R が使われる.
      • p.214には,例によって実験言語学からのデータ.30人の被験者に文字列を示して,それが正しい単語だと認識できればボタンを押すという実験らしい.割合を説明変数賭する場合の問題として,"proportions have the property that the variance increases with the mean"と付記されている.それは良いのだが,glm()関数による分析例で,13ページも前に作成したオブジェクトが再利用されている.そこを読んだ時,面倒だったので,実際の操作は省いちゃったよ.
      • p.215 に deviance residuals の説明登場."...,they need not follow a normal distribution..."
      • 高齢の被験者の方が正当率が高い(若い被験者のロジットの係数がマイナス)という結果出ていて,「そうなの」と思ったら,反応時間がずっと遅いということらしい.
      • Design パッケージの lrm() 関数によるロジスティック回帰分析の例がある.
      • p.218 にも anova() の出力と lm() の出力の違いが説明されている.ここでモデル式に変数を投入する順番が重要なことが説明されている.p.183 の説明を参照(他に p.192)."Each succesive row in a sequential ANOVA table evalues whether adding a new predicter is justifiled given the other predictors in the preceding rows. By contrasts, the summary() function evalutes whether the coefficients are signficantly diferrent from zero in a model containing all other predictors."
      • さて,p.219の説明はとても重要だと思うのだが,原書は舌足らずなので,ちょっと補足して引用する."The second function of anova() is to allow us to evalute the overall significance of factors. When a factor has only two levels, the test for the (single) coefficient based on the Z-score in summary() is very similar to the test in the anova() function when relevant factor is entered last into the model equatation. But when a factor has more than two levels, the table of coefficients in summary() lists a t-values or a Z-score for each coefficients. In order to assess whether the factor as a whole is explanatory, the anova() table is essential"
  • 午後
    • 12:00 会議(将来構想)
    • 13:10 会議終了.昼ご飯に工学部へ.特定420.メンチカツと鳥のフリッター,目玉焼き.
    • 14:30 まで雑用.
    • Baayen.
      • データセットから標準化された残差が -5:5 を越える観測を除外する方法.なんだ,これでいいのか.
        data[abs(rstandard(data.glm )) < 5, ]
    • 15:00 来客.本日の会議について善後策.
    • 15:30 別研究室を訪問.学務に関してご相談.
    • 16:20 戻る.
    • Baayen 再開.
      • Design パッケージによる解析の引数 x = T, y = T の意味を調べようと,本を探したが,p.205 で説明もなく使われていただけ.結局,ヘルプを引いた.
    • 16:40 来客,履修関係.17:00 にも来客.こちらは本日の会議について.
    • 18:00 T 大 M 先生よりメール.共同研究の書類について.
    • 18:40 帰宅
    • 22:00 断酒就寝