日録2007_9月 のバックアップソース(No.11) - アールメカブ

アールメカブ


日録2007_9月 のバックアップソース(No.11)

*2007年 [#g734ffe6]

** 9月22日 [#zfcbe344]
- 06:10 起床
- 07:30 研究室 (整理)
- 午前
-- R,Tex,Linux に関して,これまで html ファイルとして書き留めていた私的なメモを wiki に移行する作業を始めた.とりあえずメモのhtmlファイルからタグを削除し,テキストファイルに変更
-- 例によって足立の本を参考にする.自由度に関連して,&mathml(\sum x_{i}^2); が correction factor と n - 1 個の射影ベクトルに分解されるという説明は使えそう
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
-- Best の続き
--- Kant の平均文長(語数)は 26.1 だそうな
--- 言語変化のモデルとして Piotrowski-law があり,モデル式&mathml(P_t = \frac{C}{1 + ae^{-bt}}); が立てられ,実証的な研究が行われている.このモデル式のパラメータの意味を知りたいが(多分 Menzerath-Altmann-law と同じ発想なのだろうが),原論文はスラブ系言語らしい...
--- 上記のモデル式の適合の指標として Determinationskoeffizient D が使われている.何だろうと一瞬思ったが,字面からするに決定係数 &mathml(r^2); だと思われる.
- おやつ:カンパン5かけ
-- Baayen に移る

** 9月21日 [#z178e653]
- 06:00 起床
- 07:25 研究室
- 午前
-- 東工大の [[間瀬先生:http://www.is.titech.ac.jp/%7Emase/index-j.html]] から [[統計数理研究所:http://www.ism.ac.jp/]] での講演依頼のメール.予定は12月7日が日本人ゲストで,8日が海外ゲストとのこと.海外ゲストは Luke Tierney と  Friedrich Leisch の二人. お引き受けすることにした
-- 昨日の会議の資料を関係者に送付
-- 例によって足立の本を眺める.平方和分解と直交行列との関係を丁寧に説明しているところは使えそう.pp.147
-- 井関さん.[[中澤先生:http://phi.med.gunma-u.ac.jp/index.html]] がブログで紹介されていた
[[数学ガール:http://www.amazon.co.jp/%E6%95%B0%E5%AD%A6%E3%82%AC%E3%83%BC%E3%83%AB-%E7%B5%90%E5%9F%8E-%E6%B5%A9/dp/4797341378/]]
が届く
-- [[シュプリンガー・ジャパン:http://www.springer.jp/]] 編集部より和書 [[メジャーリーグの数理科学〈上〉〈下〉:http://www.amazon.co.jp/%E3%83%A1%E3%82%B8%E3%83%A3%E3%83%BC%E3%83%AA%E3%83%BC%E3%82%B0%E3%81%AE%E6%95%B0%E7%90%86%E7%A7%91%E5%AD%A6%E3%80%88%E4%B8%8A%E3%80%89-%E3%82%B7%E3%83%A5%E3%83%97%E3%83%AA%E3%83%B3%E3%82%AC%E3%83%BC%E6%95%B0%E5%AD%A6%E3%83%AA%E3%83%BC%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0%E3%82%B9-J-%E3%82%A2%E3%83%AB%E3%83%90%E3%83%BC%E3%83%88/dp/4431710167/]] の献本が届く.原著者は
最近 [[Bayesian Computation with R:http://www.amazon.co.jp/Bayesian-Computation-R-Use/dp/0387713840/]]   を出版した Jim Albert
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
-- 統数研の中野先生からメールを頂く.徳島ご出身とのことで,ちょっと恐縮
-- Baayen にとりかかる
--- p.102  のオブジェクト animals は ''cluster'' パッケージのデータ名とぶつかっている.それはともかく,確かに計量言語学の入門書ではあるのだけど,単語のカテゴリごとの分布の差はこれほどはっきりしているのかと感心.wikiでの画像挿入の練習をかねて,表示してみる.
#ref(baayen101.png,center,nowrap,80%, lmreg による画像)
--- 回帰分析に 2 次の項を含める意味が丁寧に書いてある
-- Best の Satzlaenge im Deutschen を参照する.テキスト数が 20 でそれぞれの n が 28 - 89 というのはいかにも少ない.例によって解析ソフトは Altmann-Fitter.途中で,Hyper-pascal 分布へ当てはめるには区間幅を相当大きくする(従って自由度を減らす)必要があると指摘しているが,これは当方の日本語での解析結果と一致する.例によって係数 C < 0.01 が登場する.カイ二乗値を N で割った値. ドイツ系の計量言語学者が持ち出すこの Diskrepanzkoeffizient C  と Jacob Cohen の Statistical Power Analysis for the Behavioral Sciences, p.222 の contingency C の「関係」がいまいち分からない.Peter Grzybek / Emmerich Kelih / Gabriel Altmann
の Graphemhaeufigkeiten.In: Anzeiger feur Slavische Philologie
(XXXIII) 2005 の註 8 に

>Die Guete der Anpassung wird ueblicherweise mit dem Chi^2-Anpassungstest geprueft;
in der Linguistik wird bei grossen Stichproben statt des Chi^2-Werts in der Regel
der relativierte Diskrepanzkoeffizient C = c
chi^2/N verwendet, wobei ein Wert von C <
0.02 als Indiz einer guten, von C < 0.01 einer sehr guten Anpassung angesehen wird.
Es muss aber bemerkt werden, dass bei extrem grossen Stichproben auch C seine
Schwaechen hat.

とあるが,私は形式的な根拠を知りたい.Grzybek は別の論文で Grotjahn & Altmann:Modelling the Distribution of Word Length: Some Methodological Problems を典拠としているが,後者の論文では(正当なのだが) カイ二乗値に変わる判断としてCohen のオメガ係数を引用しているに過ぎない
- 18:15 帰宅.途中寄り道.シュプリンガーから事務連絡がきていた.
- 23:00 シャンパン(Mumm Cordon Rouge Brut)、麦焼酎、月桂冠などを飲み散らして就寝

** 9月20日 [#uf913699]
- 06:10 起床
- 07:30 研究室 (そして整理)
-- [[WordPress:http://wordpress.xwd.jp/]]  をいじってみる
- 10:00 会議 (将来構想) と思ったら 10:30 からだった
- 12:30 会議終了
- 昼食はとらず,[[tDiary:http://www.tdiary.org/]] などをいじる
-- 15:00 来客.雑談
-- 17:00  [[pukiwiki詳細設定など:http://www.wikihouse.com/typhoon/index.php?%CA%D4%BD%B8%A4%CE%BC%EA%B0%FA%A4%AD#w664754d]]続き
-- 18:00 来客.今朝の会議について雑談 
- 19:00 帰宅
- 22:00 酒飲まず就寝

**9月19日 [#c5846c27]
- 06:10 起床
- 07:25 研究室(そして整理)
- 午前

-- George E. Bardwell, Edwin L. Crow 論文名 [[A Two-Parameter Family of Hyper-Poisson Distributions:http://links.jstor.org/sici?sici=0162-1459(196403)59%3A305%3C133%3AATFOHD%3E2.0.CO%3B2-D]]資料名Journal of the American Statistical Associationの複写を図書館に依頼
-- 10:00 足立の本を眺める

- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
-- 例によって Baayen
--- 単語リストを作成し,リストの各語について二つのテキストから頻度を求め,それぞれのベクトルを比較するのは「対応のある検定」だと.t 検定の説明としては分かるのだが.t.test で信頼区間の確率幅を調整できるのだった.引数 conf.level = 0.99 .すっかり忘れていた
--- 全部のコードを実行しているわけではないが,p.84のコードと掲載されたプロットとが一致しないことに気がついた.対数化するコードが抜けている模様

- おやつ:カンパン5かけ.手が汚れないので楽
- 14: 44:Dell のパソコンが到着.Inspiron, Core 2 Duo, 320GB, 2GB, WinVista, 19inch Monitor, これで105,240円.別注の内蔵 SATA も到着.Vistaを使う気はないけど,せっかく入っているので,Ubuntu との Dualbooting を構築する予定.これを機会に Fedora から乗り換える.またUbuntu 上では WinXP をヴァーチャルにインストールする.Ubuntu は10月末に 7.10 Gutsy Gibbon が出て,Ghostscripit も 8.60 にアップされているらしいのだが,一月以上先なので,とりあえず 7.04 を構築しようか
- 思い立って pukiwikiをサーバーに構築.CMSにしようかとも思い,[[xoops:http://jp.xoops.org/modules/news/]] を検討したが,このサーバーのMySQL は文字コードが latin-1 なので,文字化けに対処せねばならない.面倒なので pukiwikiに.といってもファイルを展開しただけ.サーバーに chasen と kakasi をインストールしておいた.これまで蓄積してきた R, Linux, TeX, Programming の極私的メモをすべてここに移行しようと思う
- 引き続き Baayen
-- ks.test (p.79) や cor.test (p.98) の説明で,データに tie がある際の warning を消すためにデータに jitter すれば良いというのは.何というべきか...
-18:30 帰宅 
- 23:00 過ぎ:飲むだけ飲んで就寝


**9月18日 [#k1b71e16]
-    6:10 起床
-    8:00 前:研究室 (そして整理)
-    午前
--        Best の論文の複写を手配しようとしたが,本人からファイルが送られていたのに気がつく
--        [[Haufigkeitsverteilungen in Texten:http://www.amazon.de/H%C3%A4ufigkeitsverteilungen-Texten-Karl-H-Best/dp/3933043085/]] と[[The Distribution of Word and Sentence Length:http://www.amazon.de/Distribution-Word-Sentence-Length/dp/3884762761/]]を何とか入手したい
--        足立 著 [[多変量解析入門:http://www.amazon.co.jp/%E5%A4%9A%E5%A4%89%E9%87%8F%E8%A7%A3%E6%9E%90%E5%85%A5%E9%96%80%E2%80%95%E7%B7%9A%E5%BD%A2%E4%BB%A3%E6%95%B0%E3%81%8B%E3%82%89%E5%A4%9A%E5%A4%89%E9%87%8F%E8%A7%A3%E6%9E%90%E3%81%B8-%E8%B6%B3%E7%AB%8B-%E5%A0%85%E4%B8%80/dp/4884122801/]]を眺める(講義準備)
--    昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
-    午後
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] の続きを眺める
-- [[Bayesian Computation with R:http://www.amazon.co.jp/Bayesian-Computation-R-Use/dp/0387713840/]] もそうなのだが,代入記号に = が使われている.ちょっと気に入らない.
--  Best の論考 Wie viele Woerter enthalten Saetze im Deutschen を読む.やはり Hyper-pascal 分布では無く,負の二項分布,より好ましいのは Hyper-poisson 分布であるとしてる.さらに区間は 5 間隔でまとめても,調整しなくとも結果に影響しないともある.もっとも Best の使っている解析ソフト Altmann-Fitter は,期待度数が 1 未満のセルは,単純に切捨てている.開発者の Altmann 自身から,そう聞いた).したがって自由度は単純に n - パラメータ数 - 1 ではない
--  例によってHyperな離散分布が出てきた.RSitehelp でも見当たらない.とりあえず文献を調べて,自分で実装し,実験してみねば.そう思って,Google 調べていたら来客(17:00).学務について雑談.途中 X 氏加わる.
-    19:00 帰宅
-    22:00 過ぎ: 酒も飲まずに就寝