日録2007_9月のバックアップ(No.9)

_ 2007年

_ 9月21日

06:00 起床
07:25 研究室着
午前
- 東工大の間瀬先生から統計数理研究所での講演依頼のメール．予定は12月7日が日本人ゲストで，8日が海外ゲストとのこと．海外ゲストは Luke Tierney と Friedrich Leisch の二人. お引き受けすることにした
- 昨日の会議の資料を関係者に送付
- 例によって足立の本を眺める．平方和分解と直交行列との関係を丁寧に説明しているところは使えそう．pp.147
- 井関さん．中澤先生がブログで紹介されていた数学ガールが届く
- シュプリンガー・ジャパン編集部より和書メジャーリーグの数理科学〈上〉〈下〉の献本が届く．原著者は最近 Bayesian Computation with R を出版した Jim Albert
昼食:砂糖まぶしヨーグルト，砂糖ミルク入りコーヒー
午後
- 統数研の中野先生からメールを頂く．徳島ご出身とのことで，ちょっと恐縮
- Baayen にとりかかる
  - p.102 のオブジェクト animals は cluster パッケージのデータ名とぶつかっている．それはともかく，確かに計量言語学の入門書ではあるのだけど，単語のカテゴリごとの分布の差はこれほどはっきりしているのかと感心．wikiでの画像挿入の練習をかねて，表示してみる．
  - 回帰分析に 2 次の項を含める意味が丁寧に書いてある
- Best の Satzlaenge im Deutschen を参照する．テキスト数が 20 でそれぞれの n が 28 - 89 というのはいかにも少ない．例によって解析ソフトは Altmann-Fitter．途中で，Hyper-pascal 分布へ当てはめるには区間幅を相当大きくする（従って自由度を減らす）必要があると指摘しているが，これは当方の日本語での解析結果と一致する．例によって係数 C < 0.01 が登場する．カイ二乗値を N で割った値．ドイツ系の統計学者が持ち出すこの Diskrepanzkoeffizient C と Jacob Cohen の Statistical Power Analysis for the Behavioral Sciences, p.222 の contingency C の「関係」がいまいち分からない．Peter Grzybek / Emmerich Kelih / Gabriel Altmann の Graphemhaeufigkeiten.In: Anzeiger feur Slavische Philologie (XXXIII) 2005 の註 8 に

Die Guete der Anpassung wird ueblicherweise mit dem Chi^2-Anpassungstest geprueft; in der Linguistik wird bei grossen Stichproben statt des Chi^2-Werts in der Regel der relativierte Diskrepanzkoeffizient C = c chi^2/N verwendet, wobei ein Wert von C < 0.02 als Indiz einer guten, von C < 0.01 einer sehr guten Anpassung angesehen wird. Es muss aber bemerkt werden, dass bei extrem grossen Stichproben auch C seine Schwaechen hat.

とあるが，私は根拠を知りたい．Grzybek は別の論文で Grotjahn & Altmann:Modelling the Distribution of Word Length: Some Methodological Problems を典拠としているが，後者の論文では(正当なのだが) カイ二乗値に変わる判断としてCohen のオメガ係数を引用しているに過ぎない

18:15 帰宅．途中寄り道
晩酌：シャンパン(Mumm Cordon Rouge Brut)、麦焼酎、月桂冠

↑

_ 9月20日

06:10起床
07:30 研究室着（そして整理）
- WordPress をいじってみる
10:00 会議（将来構想）と思ったら 10:30 からだった
12:30 会議終了
昼食はとらず，tDiary などをいじる
- 15:00 S 氏来訪．雑談
- 17:00 pukiwiki詳細設定など続き
- 18:00 T 氏来訪．今朝の会議について雑談
19:00 帰宅
22:00 酒飲まず就寝

↑

_ 9月19日

06:10 起床
07:25 研究室着（そして整理）
午前

George E. Bardwell, Edwin L. Crow 論文名 A Two-Parameter Family of Hyper-Poisson Distributions資料名Journal of the American Statistical Associationの複写を図書館に依頼
10:00 足立の本を眺める

昼食：砂糖まぶしヨーグルト，砂糖ミルク入りコーヒー
午後
- 例によって Baayen
  - 単語リストを作成し，リストの各語について二つのテキストから頻度を求め，それぞれのベクトルを比較するのは「対応のある検定」だと．t 検定の説明としては分かるのだが．t.test で信頼区間の確率幅を調整できるのだった．引数 conf.level = 0.99 ．すっかり忘れていた
  - 全部のコードを実行しているわけではないが，p.84のコードと掲載されたプロットとが一致しないことに気がついた．対数化するコードが抜けている模様

おやつ：カンパン5かけ．手が汚れないので楽
14: 44：Dell のパソコンが到着．Inspiron, Core 2 Duo, 320GB, 2GB, WinVista?, 19inch Monitor, これで105,240円．別注の内蔵 SATA も到着．Vistaを使う気はないけど，せっかく入っているので，Ubuntu との Dualbooting を構築する予定．これを機会に Fedora から乗り換える．またUbuntu 上では WinXP をヴァーチャルにインストールする．Ubuntu は10月末に 7.10 Gutsy Gibbon が出て，Ghostscripit も 8.60 にアップされているらしいのだが，一月以上先なので，とりあえず 7.04 を構築しようか
思い立って pukiwikiをサーバーに構築．CMSにしようかとも思い，xoops を検討したが，このサーバーのMySQL は文字コードが latin-1 なので，文字化けに対処せねばならない．面倒なので pukiwikiに．といってもファイルを展開しただけ．サーバーに chasen と kakasi をインストールしておいた．これまで蓄積してきた R, Linux, TeX, Programming の極私的メモをすべてここに移行しようと思う
引き続き Baayen

ks.test (p.79) や cor.test (p.98) の説明で，データに tie がある際の warning を消すためにデータに jitter すれば良いというのは．何というべきか．．．

18:30 帰宅

23:00 過ぎ：飲むだけ飲んで就寝

↑

_ 9月18日

6:10 起床
8:00 前：研究室着(そして整理)
午前
- Best の論文の複写を手配しようとしたが，本人からファイルが送られていたのに気がつく
- Haufigkeitsverteilungen in Texten を何とか入手したい
- 足立著多変量解析入門を眺める(講義準備)
- 昼食：砂糖まぶしヨーグルト，砂糖ミルク入りコーヒー
午後
- Baayen のAnalyzing Linguistic Data の続きを眺める
- Bayesian Computation with R もそうなのだが，代入記号に = が使われている．ちょっと気に入らない．
- Best の論考 Wie viele Woerter enthalten Saetze im Deutschen を読む．やはり Hyper-pascal 分布では無く，負の二項分布，より好ましいのは Hyper-poisson 分布であるとしてる．さらに区間は 5 間隔でまとめても，調整しなくとも結果に影響しないともある．もっとも Best の使っている解析ソフト Altmann-Fitter は，期待度数が 1 未満のセルは，単純に切捨てている．開発者の Altmann 自身から，そう聞いた）．したがって自由度は単純に n - パラメータ数 - 1 ではない
- 例によってHyperな離散分布が出てきた．RSitehelp でも見当たらない．とりあえず文献を調べて，自分で実装し，実験してみねば．そう思って，Google 調べていたら S 氏来訪(17:00)．学務について雑談．途中 T 氏加わる．
19:00 帰宅
22:00 過ぎ：酒も飲まずに就寝

アールメカブ

日録2007_9月 のバックアップ(No.9)

_ 2007年

_ 9月21日

_ 9月20日

_ 9月19日

_ 9月18日

日録2007_9月のバックアップ(No.9)