_ 2007年
_ 9月21日
- 06:00 起床
- 07:25 研究室 着
- 午前
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
- 統数研の中野先生からメールを頂く.徳島ご出身とのことで,ちょっと恐縮
- Baayen にとりかかる
- p.102 のオブジェクト animals は cluster パッケージのデータ名とぶつかっている.それはともかく,確かに計量言語学の入門書ではあるのだけど,単語のカテゴリごとの分布の差はこれほどはっきりしているのかと感心.wikiでの画像挿入の練習をかねて,表示してみる.
- 回帰分析に 2 次の項を含める意味が丁寧に書いてある
- Best の Satzlaenge im Deutschen を参照する.テキスト数が 20 でそれぞれの n が 28 - 89 というのはいかにも少ない.例によって解析ソフトは Altmann-Fitter.途中で,Hyper-pascal 分布へ当てはめるには区間幅を相当大きくする(従って自由度を減らす)必要があると指摘しているが,これは当方の日本語での解析結果と一致する.例によって係数 C < 0.01 が登場する.カイ二乗値を N で割った値. ドイツ系の統計学者が持ち出すこの Diskrepanzkoeffizient C と Jacob Cohen の Statistical Power Analysis for the Behavioral Sciences, p.222 の contingency C の「関係」がいまいち分からない.Peter Grzybek / Emmerich Kelih / Gabriel Altmann
の Graphemhaeufigkeiten.In: Anzeiger feur Slavische Philologie
(XXXIII) 2005 の註 8 に
Die Guete der Anpassung wird ueblicherweise mit dem Chi^2-Anpassungstest geprueft;
in der Linguistik wird bei grossen Stichproben statt des Chi^2-Werts in der Regel
der relativierte Diskrepanzkoeffizient C = c
chi^2/N verwendet, wobei ein Wert von C <
0.02 als Indiz einer guten, von C < 0.01 einer sehr guten Anpassung angesehen wird.
Es muss aber bemerkt werden, dass bei extrem grossen Stichproben auch C seine
Schwaechen hat.
とあるが,私は根拠を知りたい.Grzybek は別の論文で Grotjahn & Altmann:Modelling the Distribution of Word Length: Some Methodological Problems を典拠としているが,後者の論文では(正当なのだが) カイ二乗値に変わる判断としてCohen のオメガ係数を引用しているに過ぎない
- 18:15 帰宅.途中寄り道
- 晩酌:シャンパン(Mumm Cordon Rouge Brut)、麦焼酎、月桂冠
_ 9月20日
- 06:10起床
- 07:30 研究室 着 (そして整理)
- 10:00 会議 (将来構想) と思ったら 10:30 からだった
- 12:30 会議終了
- 昼食はとらず,tDiary などをいじる
- 19:00 帰宅
- 22:00 酒飲まず就寝
_ 9月19日
- 06:10 起床
- 07:25 研究室 着(そして整理)
- 午前
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
- 例によって Baayen
- 単語リストを作成し,リストの各語について二つのテキストから頻度を求め,それぞれのベクトルを比較するのは「対応のある検定」だと.t 検定の説明としては分かるのだが.t.test で信頼区間の確率幅を調整できるのだった.引数 conf.level = 0.99 .すっかり忘れていた
- 全部のコードを実行しているわけではないが,p.84のコードと掲載されたプロットとが一致しないことに気がついた.対数化するコードが抜けている模様
- おやつ:カンパン5かけ.手が汚れないので楽
- 14: 44:Dell のパソコンが到着.Inspiron, Core 2 Duo, 320GB, 2GB, WinVista?, 19inch Monitor, これで105,240円.別注の内蔵 SATA も到着.Vistaを使う気はないけど,せっかく入っているので,Ubuntu との Dualbooting を構築する予定.これを機会に Fedora から乗り換える.またUbuntu 上では WinXP をヴァーチャルにインストールする.Ubuntu は10月末に 7.10 Gutsy Gibbon が出て,Ghostscripit も 8.60 にアップされているらしいのだが,一月以上先なので,とりあえず 7.04 を構築しようか
- 思い立って pukiwikiをサーバーに構築.CMSにしようかとも思い,xoops を検討したが,このサーバーのMySQL は文字コードが latin-1 なので,文字化けに対処せねばならない.面倒なので pukiwikiに.といってもファイルを展開しただけ.サーバーに chasen と kakasi をインストールしておいた.これまで蓄積してきた R, Linux, TeX, Programming の極私的メモをすべてここに移行しようと思う
- 引き続き Baayen
- ks.test (p.79) や cor.test (p.98) の説明で,データに tie がある際の warning を消すためにデータに jitter すれば良いというのは.何というべきか...
_ 9月18日
- 6:10 起床
- 8:00 前:研究室着(そして整理)
- 午前
- Best の論文の複写を手配しようとしたが,本人からファイルが送られていたのに気がつく
- Haufigkeitsverteilungen in Texten を何とか入手したい
- 足立 著 多変量解析入門を眺める(講義準備)
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
- Baayen のAnalyzing Linguistic Data の続きを眺める
- Bayesian Computation with R もそうなのだが,代入記号に = が使われている.ちょっと気に入らない.
- Best の論考 Wie viele Woerter enthalten Saetze im Deutschen を読む.やはり Hyper-pascal 分布では無く,負の二項分布,より好ましいのは Hyper-poisson 分布であるとしてる.さらに区間は 5 間隔でまとめても,調整しなくとも結果に影響しないともある.もっとも Best の使っている解析ソフト Altmann-Fitter は,期待度数が 1 未満のセルは,単純に切捨てている.開発者の Altmann 自身から,そう聞いた).したがって自由度は単純に n - パラメータ数 - 1 ではない
- 例によってHyperな離散分布が出てきた.RSitehelp でも見当たらない.とりあえず文献を調べて,自分で実装し,実験してみねば.そう思って,Google 調べていたら S 氏来訪(17:00).学務について雑談.途中 T 氏加わる.
- 19:00 帰宅
- 22:00 過ぎ: 酒も飲まずに就寝