日録2007_10月 のバックアップ(No.19) - アールメカブ

アールメカブ


日録2007_10月 のバックアップ(No.19)


日録2007_9月 過去の日録

_ 2007 10月

_ 10月05日 (金) 晴

  • 05:30 起床
  • 07:30 研究室(整頓)
  • 午前
    • Firefox 上で日録を書いているのだが,ついつい Emacs 風のキー操作を行ってしまう.Text欄に書き込んだ文字を cut するつもりで crtl + x をすると,入力を更新しないまま Firefox が終了してしまう.不便なのでキーバインドを変更した.もっとも方法は簡単で
      echo 'gtk-key-theme-name = "Emacs"' >> .gtkrc
      と追加するだけ.
  • 昨日のプログラム,つまり青空文庫のテキストからコメント類をのぞくプログラムの続き.いちおう完成したので,元ファイルからルビや解説をのぞき,cabocha にかけ,その出力から各文の句数を取り出すという一連の処理を行う bash スクリプトを書いた.
  • お昼.来客で弁当.
  • 午後.
    • Micro Soft Visual Studio 2005 のセットアップを試みる.
      • Vista用のSerive Pack の適用に手間取る.例によって Micro Soft のサイトの説明は分かりにくい.インストールの途中でアップデートを試みたが,「他のプログラムがインストール中だ」と文句をいわれ,やむなく600MB近くもあるファイルをダウンロードしておいた.で,VSのインストールを続行し,MSDNドキュメントをインストールしたら,最後に,「Service Releaseのチェックをしますか」と来た.なら途中では,アップデートが必要だと警告だけでにして,後でインストールできますよとか言ってくれよな...
      • アカデミック・アライアンス版なので他の学内教育用マシンにインストールしても問題ない.それで fedoraにインストールしたVMplayer 上のXPにもインストールした.
      • ついでなので Micro Soft の Developer CD/DVD の整理をした.
    • インストールやらアップデートやらで時間がかかる.この間BaayenAnalyzing Linguistic Data を参照.
      • 1993 年度のドイツのフランクフルト紙内の記事で言及された「年代」のカウントというデータがある.言及された年代は対数で約 4,真数に直すと約 60 を遡るようになると急激に言及される回数が減っている.これは人間の人生スパンに等しい,あるいは,ほぼこの変曲点は第二次世界大戦終結の年にあたるので,この時代が現代と過去をわける指標と考えられているという仮説は面白いではないか.
      • p.234下のコードにはグラフに垂直線を加えるコードが欠けている.
      • 変曲点を考慮して主効果のない,交互作用だけのモデルを構築している.このようなモデルは初めて見た.
    • ゼミ。
  • 18:40 帰路。
    ギガル
  • 23:00 wine (Cotes du Rhone, 2001)と月桂冠で就寝

_ 10月04日 (木) 曇

  • 06:00 起床
  • 07:30 研究室(整頓)
  • 午前
    • Vista のセッティング続き.学務関連の雑務.
    • 大学院.
    • 来客.
  • 午後.
    • 演習
  • お昼に工学部.特定420.豚カツとハンバーグ.
  • 19:30 鍋に誘って頂いたのだが,自宅のパソコンで作業を完成せねばならない.慌てて帰路.
  • 22:30 作業を慌ただしく進め,酒飲む間もなく就寝.

_ 10月03日 (水) 曇

  • 06:00 起床
  • 07:30 研究室
  • 午前
    • M 先生から,統数研での研究集会の概要についてのメールを頂く.一人あたり 1 時間の発表.講演題目を今月中旬までにご連絡しなければいけない.
    • 演習.
    • 昨日作りかけのプログラムの修正に着手.TreeTagger? の chunker の出力をもう少し確認しないといけない.
  • 昼食.今日は長丁場なので食事へ.時間もないので例によって工学部のspecialランチ420. 鶏の梅肉フリッター,豚カツ(もどき),キャベツ(もどきではない).
  • 午後
    • 二コマ続けて授業.
    • 合間にDELLをようやく梱包からだし,セッティングする.19インチ SE197FPフラットパネルモニタなのだが,解像度は最大で1280 x 1024.もっと高解像度だろうと思っていた.Vista 標準のディスク管理でCドライブをパーティションを半分に切る.デフォルトでは半分にしか切れないらしい。初期化CDを繰り替えし使えば,さらに切れるらしいが、面倒。残りの未割り当て領域は,Linuxをインストールし、購入したSATAドライブはバックアップHDとして使おうか.ところでVistaを初めて使うが,勝手が分からない.日本語入力用のショートカットキーが違うようだ。さらにシャットダウンしようとして,どこにメニューがあるかも分からなかった有様.
    • 合間に学務がいろいろ。
  • 18:00 演習。
  • 18:40 帰路。
  • 22:30 月桂冠で就寝。

_ 10月02日 (火) 曇

  • 06:00 起床
  • 07:30 研究室
  • 午前
    • M 先生に統数研での共同研究関係の書類を送信.
    • BaayenAnalyzing Linguistic Data  p.222 から再開.
      • Designパッケージのロジスティク解析用関数 lrm() この出力に anova() を適用した場合も,sequential な Anova 表ではなく,partial effects of the predictors が表示される.それは良いが,出力には Cという指標がある.Cohen のCと関係はなさそうなのだが(確認すべし),0.5 < C < 1.0 の範囲であれば,モデルのpredictionは信頼できるということらしい. 例によってモデルはブートストラップ法により診断.

        validate(regularity.lrm,bw=T,B=200)

  • p.225 Shrinkage を発見するための Penalized Maximum Likelihood Estimationを Design パッケージの関数 pentrace() で実行する方法の説明あり.
  • 統計学とは関係ないのだが,面白い仮説がある.

    Irregular verbs also tends to be more frequent than regular verbs, and it is reasonable to assume that this high frequnecy protects irregular verbs through time against regularization.

  • Ordinal(ordered) logisitic regression が取り上げられているが,summary() の出力は分かりにくい.また説明の文章もやや不適切な気がする.が,p.232 には Proportinal Odds Model の説明と,その仮説検定の方法の紹介があり参考になる.
  • 事務から専門分野を尋ねられた.科研とは違う分類表で,良く確認しなかったが,なんちゃら情報学が含まれる「その他」 9993 を指定.
  • お昼.ヨーグルトとお菓子,コーヒー.
  • 午後
    • 独文の chunking に TreeTagger? の tagger-chunker-german を試してみるが,遅い.全く実用的ではない.と思ったら,どうも日本語環境で実行しているため,一部の記号を解釈できずにフリーズしているらしい. 手っ取り早くはコンソールで
      export LC_ALL=C
      export LANG=de_DE.iso8859
      を実行しておくことだが.問題となるのは iso-8859-1の 2進法で1011 1011と 1010 1011,16進法では 0xBB と 0xABにあたる « と » である.文字実体参照 HTML3.2で言うと &laquo; あるいは &#171; と &raquo; あるいは &#187;である.これを処理するPerlのプログラム,前に作ったな.どこに保存してあるっけ.とりあえず/\xBB/ や /\xAB/ を使えば補足はできることはできるが.
    • 14:35 講義
    • 15:30 遅ればせながら日本統計学会の年会費を納める.
    • 17:00 九天社から,武田製薬統計解析部舟尾先生の「Rで学ぶデータマイニング II --シミュレーションの視点から」の献本が送られてきた.ご本人にお礼のメールをお送りする.
  • 18:30 帰路.
  • 20:00 断酒就寝.

_ 10月01日 (月) 晴

  • 06:00 起床
  • 07:30 研究室(整理)
  • 午前
    • TreeTagger? だが,改めて研究室の Fedora にインストールしてみると,なんの問題もなく動く.全く同じ手順を行ったのだが,Debian系のUbuntu ではパスの設定が違うのかな?
      • 帰宅後、もう一度調べた。まず Ubuntu には gawk がデフォルトでは入っていない。さらにfilter-chunker-output-german.perl の上のパスが /usr/local/bin/perl となっていた。しかし,これはインストーラーが自動設定するようになっているのではないか? Fedora でインストールした場合は /usr/bin/perlと設定されている。 ところが install-tagger.sh を開いてみても,perlのパス設定の記述はない。う〜ん、なぜか分からないが、 (誤解であった.fedora にインストールしたファイルでも /usr/local/bin/perl となっていた.) とりあえずこのファイルのパスを修正することで、うまく作動するようになった。
    • 新しい日録ページを用意した.カウンタは表示ページごとに設定されるみたいで,リセットした数値が表示されている.別にいいけど.
    • BaayenAnalyzing Linguistic Data
      • GLM 一般化線形モデルの説明に入る.始めにロジスティック回帰分析.欧米の社会科学や言語学では WikiPedia:VARBRUL というソフトが使われているらしいが,私は良く知らない.無論,Baayen の本では R が使われる.
      • p.214には,例によって実験言語学からのデータ.30人の被験者に文字列を示して,それが正しい単語だと認識できればボタンを押すという実験らしい.割合を説明変数賭する場合の問題として,"proportions have the property that the variance increases with the mean"と付記されている.それは良いのだが,glm()関数による分析例で,13ページも前に作成したオブジェクトが再利用されている.そこを読んだ時,面倒だったので,実際の操作は省いちゃったよ.
      • p.215 に deviance residuals の説明登場."...,they need not follow a normal distribution..."
      • 高齢の被験者の方が正当率が高い(若い被験者のロジットの係数がマイナス)という結果出ていて,「そうなの」と思ったら,反応時間がずっと遅いということらしい.
      • Design パッケージの lrm() 関数によるロジスティック回帰分析の例がある.
      • p.218 にも anova() の出力と lm() の出力の違いが説明されている.ここでモデル式に変数を投入する順番が重要なことが説明されている.p.183 の説明を参照(他に p.192).

        "Each succesive row in a sequential ANOVA table evalues whether adding a new predicter is justifiled given the other predictors in the preceding rows. By contrasts, the summary() function evalutes whether the coefficients are signficantly diferrent from zero in a model containing all other predictors."

  • さて,p.219の説明はとても重要だと思うのだが,原書は舌足らずなので,ちょっと補足して引用する.

    "The second function of anova() is to allow us to evalute the overall significance of factors. When a factor has only two levels, the test for the (single) coefficient based on the Z-score in summary() is very similar to the test in the anova() function when relevant factor is entered last into the model equatation. But when a factor has more than two levels, the table of coefficients in summary() lists a t-values or a Z-score for each coefficients. In order to assess whether the factor as a whole is explanatory, the anova() table is essential"

  • 午後
    • 12:00 会議(将来構想)
    • 13:10 会議終了.昼ご飯に工学部へ.特定420.メンチカツと鳥のフリッター,目玉焼き.
    • 14:30 まで雑用.
    • Baayen.
      • データセットから標準化された残差が -5:5 を越える観測を除外する方法.なんだ,これでいいのか.
        data[abs(rstandard(data.glm )) < 5, ]
    • 15:00 来客.本日の会議について善後策.
    • 15:30 別研究室を訪問.学務に関してご相談.
    • 16:20 戻る.
    • Baayen 再開.
      • Design パッケージによる解析の引数 x = T, y = T の意味を調べようと,本を探したが,p.205 で説明もなく使われていただけ.結局,ヘルプを引いた.
    • 16:40 来客,履修関係.17:00 にも来客.こちらは本日の会議について.
    • 18:00 T 大 M 先生よりメール.共同研究の書類について.
    • 18:40 帰宅
    • 22:00 断酒就寝