GLM 一般化線形モデルの説明に入る.始めにロジスティック回帰分析.欧米の社会科学や言語学では WikiPedia:VARBRUL というソフトが使われているらしいが,私は良く知らない.無論,Baayen の本では R が使われる.
p.214には,例によって実験言語学からのデータ.30人の被験者に文字列を示して,それが正しい単語だと認識できればボタンを押すという実験らしい.割合を説明変数賭する場合の問題として,"proportions have the property that the variance increases with the mean"と付記されている.それは良いのだが,glm()関数による分析例で,13ページも前に作成したオブジェクトが再利用されている.そこを読んだ時,面倒だったので,実際の操作は省いちゃったよ.
p.215 に deviance residuals の説明登場."...,they need not follow a normal distribution..."
p.218 にも anova() の出力と lm() の出力の違いが説明されている.ここでモデル式に変数を投入する順番が重要なことが説明されている.p.183 の説明を参照(他に p.192)."Each succesive row in a sequential ANOVA table evalues whether adding a new predicter is justifiled given the other predictors in the preceding rows. By contrasts, the summary() function evalutes whether the coefficients are signficantly diferrent from zero in a model containing all other predictors." .
さて,p.219の説明はとても重要だと思うのだが,原書は舌足らずなので,ちょっと補足して引用する."The second function of anova() is to allow us to evalute the overall significance of factors. When a factor has only two levels, the test for the (single) coefficient based on the Z-score in summary() is very similar to the test in the anova() function when relevant factor is entered last into the model equatation. But when a factor has more than two levels, the table of coefficients in summary() lists a t-values or a Z-score for each coefficients. In order to assess whether the factor as a whole is explanatory, the anova() table is essential"
午後
12:00 会議(将来構想)
13:10 会議終了.昼ご飯に工学部へ.特定420.メンチカツと鳥のフリッター,目玉焼き.
14:30 まで雑用.
Baayen.
データセットから標準化された残差が -5:5 を越える観測を除外する方法.なんだ,これでいいのか.
data[abs(rstandard(data.glm )) < 5, ]
15:00 来客.本日の会議について善後策.
15:30 別研究室を訪問.学務に関してご相談.
16:20 戻る.
Baayen 再開.
Design パッケージによる解析の引数 x = T, y = T の意味を調べようと,本を探したが,p.205 で説明もなく使われていただけ.結局,ヘルプを引いた.