日録2007_9月のバックアップソース(No.19)

*2007年 [#t594d519]
** 9月25日(火) 曇 朝方 雨 [#k386549f]
- 06:00 起床
- 07:30 研究室
- 午前
-- 何だか RDT178V ディスプレイの調子が悪いな．早くこの間届いたDELLのセッティングをしよう．
-- W-Zero3[es] の設定．runner, tcpmp+flv.plugin などをインストール．
-- Amazon.jp に「Rの基礎とプログラミング技法」3 刷りがようやく入荷したよう．2,3週間在庫なしの状態でした．
-- 足立本を参照．もうすぐ講義も始まるし．結構数式に間違いが残っている．今更なんだけど，固有値・固有ベクトルの幾何学的意味の説明は，改めて参考になる．
-- [[統計学会:http://www.jss.gr.jp/]]へ送る手紙を投函するため外に出た．そのまま工学部食堂へ．
- 昼食：スペシャル400円．写真撮ればよかった．うまくもまずくもなく，でもお腹いっぱいに．
-- さて，Baayen, Baayen. 他にすることあるんだけどな．．．
--- サンプル数と回帰分析の係数のp値，決定係数についての解釈をBaayen はあたえている．特に言語実験の結果として得られるデータに対する回帰分析とその係数の p 値，また決定係数については，仮に統計的に有意な数値と認めがたい場合でも（そして実際に認めがたい値なのだが），繰り返し同じ結果が得られるのであれば，実質科学的に意味ある係数が得られたと解釈すべきと述べている．

** 9月24日(月) 曇 朝方 雨[#v0560259]
- 06:30 起床
- 08:00 研究室(整理)
- 午前
-- Wiki ページの整理
- 昼食:砂糖まぶしヨーグルト，砂糖ミルク入りコーヒー
- 午後
-- 足立の本の固有値の幾何学ベクトル的説明を参考にする．
-- Best の続き
--- いきなり「Teilsaetze と clauses は似ているが，若干違う」と出てきた．ん？と思って見返すと，表紙のレジュメに Teilsatz &mathml(\asymp); clause ともある．しかし正確な定義には触れられていない．余談だがここで「近似」を意味する記号を &mathml(\approx) としたらエラーになった．ので \asymp を使った．
--- Menzereth-Altmann-law の考え方からすると，文長，語長 etc の言語統計量の Interaction を検討に入れる必要がある．つまりこれらの統計量は独立でない．さらにこれらの統計量はそれぞれ時系列にそった変動を見せている可能性がある．つまり自己相関がある．これらを検討する必要性は分かるが，適当なサンプルを用意するのは至難だな．
-- Baayen
--- Multiple Comparrisons の注意として，p.114に
 1 - pbinom(0, 3, 0.05)
すなわち確率 0.05 で起こる試行を3回実施し，一回も起こらない確率の計算．はい，使わせていただきます．
--- TukeyHSD の使い方の説明があるのだが，ふっと 9月2日に担当させていただいた[[行動計量学会のRチュートリアル:http://150.59.18.68]]で，TukeyHSD の出力から，ペア比較の有意確率が表示されないと質問があった．え，そうなの？と思ってその場で出力する方法を試したが，分からなかった．今，改めて見ると，普通に実行してちゃんと有意確率も表示されているではないか．
--- 統計学で検定の結果について ''conservative''と言うことがあるが，表現が分かりにくい．Baayen の pp.115-116 に，レベル数が三つの分散分析で，単純に lm を使った場合の p 値と，TukeyHSD を使った場合の adjuested p の出力が左右のページに並んで掲載されている．はい，これも使わせて頂きます．
- 18:45 帰路
- 22:00 断酒就寝


** 9月23日(日) 快晴 [#q444007b]
- 05:00 起床
- 午後
-- Amazon.de と Abebooks.de で[[下記二冊>#books]]を発注した．どちらも古書店が出品しているようなのだが、本当に日本まで届くのか？Abebooks.de の方は，サーバー（jsp仕様）がうまくいってないようなので不安．注文状況を確認すると通ってはいるようなのだが，なにせヨーロッパ人の事務処理は信用できないからなぁ．
-- この春だったか 100 円ショップで寂しそうに放置されていたサボテンを買い取った．なんとか烏帽子とか言う種類らしいが，これが両横から，さらに上からも子吹きしている．
#ref(saboten20070923.jpg,left,nowrap,around,緑烏帽子)
もとは真ん中のくすんだ3葉（葉で良いのかな）しかなく，自宅に持ち帰った当初は今にも枯れそうだった．プラスティックのやたらと小さな鉢に刺されていたのだが，さすがにこれはないだろうと，植え変えてやった．しかし子吹きして，何だか頭の部分が重そうなので，上部の子吹きを切り離すことに．切る前にグーグってみると，指でひねって切り取れば良いとあって，あまりの手軽さに意外な気が．さらに切り口はアルコールで消毒して，２週間ほど日陰で乾燥させよともあって，ますます意外．エチルアルコールはあるのだが，[[マキロン:http://ja.wikipedia.org/wiki/%E3%83%9E%E3%82%AD%E3%83%AD%E3%83%B3]]でも良いのだろうか？ともかく，ひねって切り取る．ついつい五つともひねり取ってしまった．．．この五つの子吹きは，来週，別の鉢に植えよう．
- 22:00 ビール2缶飲んで就寝．

** 9月22日 [#zfcbe344]
- 06:10 起床
- 07:30 研究室 (整理)
- 午前
-- R,Tex,Linux に関して，これまで html ファイルとして書き留めていた私的なメモを wiki に移行する作業を始めた．とりあえずメモのhtmlファイルからタグを削除し，テキストファイルに変更
-- 例によって足立の本を参考にする．自由度に関連して，&mathml(\sum x_{i}^2); が correction factor と n - 1 個の射影ベクトルに分解されるという説明部分がそのまま使えそう
- 昼食:砂糖まぶしヨーグルト，砂糖ミルク入りコーヒー
- 午後
-- Best の続き
--- Kant の平均文長（語数）は 26.1 だそうな
--- 言語変化のモデルとして Piotrowski-law があり，モデル式&mathml(P_t = \frac{C}{1 + ae^{-bt}}); が立てられ，実証的な研究が行われている．このモデル式のパラメータの意味を知りたいが（多分 Menzerath-Altmann-law と同じ発想なのだろうが），原論文はスラブ系言語らしい．．．
--- 上記のモデル式の適合の指標として Determinationskoeffizient D が使われている．何だろうと一瞬思ったが，決定係数 &mathml(r^2); だと思われる．でも D &gt; 0.8 と言う根拠は何だ？ただ，各種の分析で19世紀前半の50年が文長減少に対する反動期として位置付けられ，この期間を除くと適合度が改善するというのは面白い
- おやつ：カンパン5かけ
-- Baayen に移る
--- 単語のペアの分布について bivariate lognormal-Poisson 分布が当てはまる場合についての記述あり(p.109)
- 18:30 帰宅
- 23:00 ロゼ・シャンパン(Yves Louvet),月桂冠などかまわず飲んで就寝

** 9月21日 [#z178e653]
- 06:00 起床
- 07:25 研究室
- 午前
-- 東工大の [[間瀬先生:http://www.is.titech.ac.jp/%7Emase/index-j.html]] から [[統計数理研究所:http://www.ism.ac.jp/]] での講演依頼のメール．予定は12月7日が日本人ゲストで，8日が海外ゲストとのこと．海外ゲストは Luke Tierney と  Friedrich Leisch の二人. お引き受けすることにした
-- 昨日の会議の資料を関係者に送付
-- 例によって足立の本を眺める．平方和分解と直交行列との関係を丁寧に説明しているところは使えそう．pp.147
-- 井関さん．[[中澤先生:http://phi.med.gunma-u.ac.jp/index.html]] がブログで紹介されていた
[[数学ガール:http://www.amazon.co.jp/%E6%95%B0%E5%AD%A6%E3%82%AC%E3%83%BC%E3%83%AB-%E7%B5%90%E5%9F%8E-%E6%B5%A9/dp/4797341378/]]
が届く
-- [[シュプリンガー・ジャパン:http://www.springer.jp/]] 編集部より和書 [[メジャーリーグの数理科学〈上〉〈下〉:http://www.amazon.co.jp/%E3%83%A1%E3%82%B8%E3%83%A3%E3%83%BC%E3%83%AA%E3%83%BC%E3%82%B0%E3%81%AE%E6%95%B0%E7%90%86%E7%A7%91%E5%AD%A6%E3%80%88%E4%B8%8A%E3%80%89-%E3%82%B7%E3%83%A5%E3%83%97%E3%83%AA%E3%83%B3%E3%82%AC%E3%83%BC%E6%95%B0%E5%AD%A6%E3%83%AA%E3%83%BC%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0%E3%82%B9-J-%E3%82%A2%E3%83%AB%E3%83%90%E3%83%BC%E3%83%88/dp/4431710167/]] の献本が届く．原著者は
最近 [[Bayesian Computation with R:http://www.amazon.co.jp/Bayesian-Computation-R-Use/dp/0387713840/]]   を出版した Jim Albert
- 昼食:砂糖まぶしヨーグルト，砂糖ミルク入りコーヒー
- 午後
-- 統数研の中野先生からメールを頂く．徳島ご出身とのことで，ちょっと恐縮
-- Baayen にとりかかる
--- p.102  のオブジェクト animals は ''cluster'' パッケージのデータ名とぶつかっている．それはともかく，確かに計量言語学の入門書ではあるのだけど，単語のカテゴリごとの分布の差はこれほどはっきりしているのかと感心．wikiでの画像挿入の練習をかねて，表示してみる．
#ref(baayen101.png,center,nowrap,80%, lmreg による画像)
--- 回帰分析に 2 次の項を含める意味が丁寧に書いてある
-- Best の Satzlaenge im Deutschen を参照する．テキスト数が 20 でそれぞれの n が 28 - 89 というのはいかにも少ない．例によって解析ソフトは Altmann-Fitter．途中で，Hyper-pascal 分布へ当てはめるには区間幅を相当大きくする（従って自由度を減らす）必要があると指摘しているが，これは当方の日本語での解析結果と一致する．例によって係数 C < 0.01 が登場する．カイ二乗値を N で割った値． ドイツ系の計量言語学者が持ち出すこの Diskrepanzkoeffizient C  と Jacob Cohen の Statistical Power Analysis for the Behavioral Sciences, p.222 の contingency C の「関係」がいまいち分からない．Peter Grzybek / Emmerich Kelih / Gabriel Altmann
の Graphemhaeufigkeiten.In: Anzeiger feur Slavische Philologie
(XXXIII) 2005 の註 8 に

>Die Guete der Anpassung wird ueblicherweise mit dem Chi^2-Anpassungstest geprueft;
in der Linguistik wird bei grossen Stichproben statt des Chi^2-Werts in der Regel
der relativierte Diskrepanzkoeffizient C = c
chi^2/N verwendet, wobei ein Wert von C <
0.02 als Indiz einer guten, von C < 0.01 einer sehr guten Anpassung angesehen wird.
Es muss aber bemerkt werden, dass bei extrem grossen Stichproben auch C seine
Schwaechen hat.

とあるが，私は形式的な根拠を知りたい．Grzybek は別の論文で Grotjahn & Altmann:Modelling the Distribution of Word Length: Some Methodological Problems を典拠としているが，後者の論文では(正当なのだが) カイ二乗値に変わる判断としてCohen のオメガ係数を引用しているに過ぎない
- 18:15 帰宅．途中寄り道．シュプリンガーから事務連絡がきていた．
- 23:00 シャンパン(Mumm Cordon Rouge Brut)、麦焼酎、月桂冠などを飲み散らして就寝

** 9月20日 [#uf913699]
- 06:10 起床
- 07:30 研究室 （そして整理）
-- [[WordPress:http://wordpress.xwd.jp/]]  をいじってみる
- 10:00 会議 （将来構想） と思ったら 10:30 からだった
- 12:30 会議終了
- 昼食はとらず，[[tDiary:http://www.tdiary.org/]] などをいじる
-- 15:00 来客．雑談
-- 17:00  [[pukiwiki詳細設定など:http://www.wikihouse.com/typhoon/index.php?%CA%D4%BD%B8%A4%CE%BC%EA%B0%FA%A4%AD#w664754d]]続き
-- 18:00 来客．今朝の会議について雑談 
- 19:00 帰宅
- 22:00 酒飲まず就寝

**9月19日 [#c5846c27]
- 06:10 起床
- 07:25 研究室（そして整理）
- 午前

-- George E. Bardwell, Edwin L. Crow 論文名 [[A Two-Parameter Family of Hyper-Poisson Distributions:http://links.jstor.org/sici?sici=0162-1459(196403)59%3A305%3C133%3AATFOHD%3E2.0.CO%3B2-D]]資料名Journal of the American Statistical Associationの複写を図書館に依頼
-- 10:00 足立の本を眺める

- 昼食：砂糖まぶしヨーグルト，砂糖ミルク入りコーヒー
- 午後
-- 例によって Baayen
--- 単語リストを作成し，リストの各語について二つのテキストから頻度を求め，それぞれのベクトルを比較するのは「対応のある検定」だと．t 検定の説明としては分かるのだが．t.test で信頼区間の確率幅を調整できるのだった．引数 conf.level = 0.99 ．すっかり忘れていた
--- 全部のコードを実行しているわけではないが，p.84のコードと掲載されたプロットとが一致しないことに気がついた．対数化するコードが抜けている模様

- おやつ：カンパン5かけ．手が汚れないので楽
- 14: 44：Dell のパソコンが到着．Inspiron, Core 2 Duo, 320GB, 2GB, WinVista, 19inch Monitor, これで105,240円．別注の内蔵 SATA も到着．Vistaを使う気はないけど，せっかく入っているので，Ubuntu との Dualbooting を構築する予定．これを機会に Fedora から乗り換える．またUbuntu 上では WinXP をヴァーチャルにインストールする．Ubuntu は10月末に 7.10 Gutsy Gibbon が出て，Ghostscripit も 8.60 にアップされているらしいのだが，一月以上先なので，とりあえず 7.04 を構築しようか
- 思い立って pukiwikiをサーバーに構築．CMSにしようかとも思い，[[xoops:http://jp.xoops.org/modules/news/]] を検討したが，このサーバーのMySQL は文字コードが latin-1 なので，文字化けに対処せねばならない．面倒なので pukiwikiに．といってもファイルを展開しただけ．サーバーに chasen と kakasi をインストールしておいた．これまで蓄積してきた R, Linux, TeX, Programming の極私的メモをすべてここに移行しようと思う
- 引き続き Baayen
-- ks.test (p.79) や cor.test (p.98) の説明で，データに tie がある際の warning を消すためにデータに jitter すれば良いというのは．何というべきか．．．
-18:30 帰宅 
- 23:00 過ぎ：飲むだけ飲んで就寝


**9月18日 [#k1b71e16]
-    6:10 起床
-    8:00 前：研究室 (そして整理)
-    午前
--        Best の論文の複写を手配しようとしたが，本人からファイルが送られていたのに気がつく
-- &aname(books);       [[Haufigkeitsverteilungen in Texten:http://www.amazon.de/H%C3%A4ufigkeitsverteilungen-Texten-Karl-H-Best/dp/3933043085/]] と[[The Distribution of Word and Sentence Length:http://www.amazon.de/Distribution-Word-Sentence-Length/dp/3884762761/]]を何とか入手したい
--        足立 著 [[多変量解析入門:http://www.amazon.co.jp/%E5%A4%9A%E5%A4%89%E9%87%8F%E8%A7%A3%E6%9E%90%E5%85%A5%E9%96%80%E2%80%95%E7%B7%9A%E5%BD%A2%E4%BB%A3%E6%95%B0%E3%81%8B%E3%82%89%E5%A4%9A%E5%A4%89%E9%87%8F%E8%A7%A3%E6%9E%90%E3%81%B8-%E8%B6%B3%E7%AB%8B-%E5%A0%85%E4%B8%80/dp/4884122801/]]を眺める(講義準備)
--    昼食：砂糖まぶしヨーグルト，砂糖ミルク入りコーヒー
-    午後
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] の続きを眺める
-- [[Bayesian Computation with R:http://www.amazon.co.jp/Bayesian-Computation-R-Use/dp/0387713840/]] もそうなのだが，代入記号に = が使われている．ちょっと気に入らない．
--  Best の論考 Wie viele Woerter enthalten Saetze im Deutschen を読む．やはり Hyper-pascal 分布では無く，負の二項分布，より好ましいのは Hyper-poisson 分布であるとしてる．さらに区間は 5 間隔でまとめても，調整しなくとも結果に影響しないともある．もっとも Best の使っている解析ソフト Altmann-Fitter は，期待度数が 1 未満のセルは，単純に切捨てている．開発者の Altmann 自身から，そう聞いた）．したがって自由度は単純に n - パラメータ数 - 1 ではない
--  例によってHyperな離散分布が出てきた．RSitehelp でも見当たらない．とりあえず文献を調べて，自分で実装し，実験してみねば．そう思って，Google 調べていたら来客(17:00)．学務について雑談．途中 X 氏加わる．
-    19:00 帰宅
-    22:00 過ぎ： 酒も飲まずに就寝
アールメカブ

日録2007_9月 のバックアップソース(No.19)

日録2007_9月のバックアップソース(No.19)