日録2007_10月 のバックアップ差分(No.14) - アールメカブ

アールメカブ


日録2007_10月 のバックアップ差分(No.14)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
''[[日録2007_9月]]'' 
[[過去の日録]]
* 2007 10月 [#lcad553b]

** 10月04日 (木) 曇 [#j510d8d9]
- 06:00 起床
- 07:30 研究室(整頓)
- 午前
-- Vista のセッティング続き.学務関連の雑務.


** 10月03日 (水) 曇 [#ked7cb88]
- 06:00 起床
- 07:30 研究室
- 午前
-- M 先生から,[[統数研:http://www.ism.ac.jp/]]での研究集会の概要についてのメールを頂く.一人あたり 1 時間の発表.講演題目を今月中旬までにご連絡しなければいけない.
-- 演習.
-- 昨日作りかけのプログラムの修正に着手.TreeTagger の chunker の出力をもう少し確認しないといけない.
- 昼食.今日は長丁場なので食事へ.時間もないので例によって工学部のspecialランチ420. 鶏の梅肉フリッター,豚カツ(もどき),キャベツ(もどきではない).
- 午後
-- 二コマ続けて授業.
-- 合間にDELLをようやく梱包からだし,セッティングする.19インチ SE197FPフラットパネルモニタなのだが,解像度は最大で1280 x 1024.もっと高解像度だろうと思っていた.Vista 標準のディスク管理でCドライブをパーティションを半分に切る.デフォルトでは半分にしか切れないらしい。初期化CDを繰り替え使えばさらに切れるらしいが、不要。残りの未割り当て領域は,Linuxをインストールし、購入したSATAドライブはバックアップHDとして使おうか.ところでVistaを初めて使うが,勝手が分からない.日本語入力用のショートカットキーが違うようだ。さらにシャットダウンしようとして,どこにメニューがあるかも分からなかった有様.
-- 合間にDELLをようやく梱包からだし,セッティングする.19インチ SE197FPフラットパネルモニタなのだが,解像度は最大で1280 x 1024.もっと高解像度だろうと思っていた.Vista 標準のディスク管理でCドライブをパーティションを半分に切る.デフォルトでは半分にしか切れないらしい。初期化CDを繰り替えし使えば,さらに切れるらしいが、面倒。残りの未割り当て領域は,Linuxをインストールし、購入したSATAドライブはバックアップHDとして使おうか.ところでVistaを初めて使うが,勝手が分からない.日本語入力用のショートカットキーが違うようだ。さらにシャットダウンしようとして,どこにメニューがあるかも分からなかった有様.
//-- 17:30 他研究室をお訪ねし、もろもろご相談。
-- 合間に学務がいろいろ。
- 18:00 演習。
- 18:40 帰路。
- 22:30 月桂冠で就寝。

** 10月02日 (火) 曇 [#o5f0575e]
- 06:00 起床
- 07:30 研究室
- 午前
-- M 先生に[[統数研:http://www.ism.ac.jp/]]での共同研究関係の書類を送信.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
 p.222 から再開.
--- Designパッケージのロジスティク解析用関数 lrm() この出力に anova() を適用した場合も,sequential な Anova 表ではなく,partial effects of the predictors が表示される.それは良いが,出力には ''C''という指標がある.Cohen のCと関係はなさそうなのだが(確認すべし),0.5 < C < 1.0 の範囲であれば,モデルのpredictionは信頼できるということらしい. 例によってモデルは&color(red){ブートストラップ法};により診断.
> validate(regularity.lrm,bw=T,B=200)

--- p.225 &color(red){Shrinkage}; を発見するための  &color(red){Penalized Maximum Likelihood Estimation};を Design パッケージの関数 pentrace() で実行する方法の説明あり.
--- 統計学とは関係ないのだが,面白い仮説がある.
> Irregular verbs also tends to be more frequent than regular verbs, and it is reasonable to assume that this high frequnecy protects irregular verbs through time against regularization. 

--- &color(red){Ordinal(ordered) logisitic regression};
が取り上げられているが,summary() の出力は分かりにくい.また説明の文章もやや不適切な気がする.が,p.232 には &color(red){Proportinal Odds Model}; の説明と,その仮説検定の方法の紹介があり参考になる.

-- 事務から専門分野を尋ねられた.科研とは違う分類表で,良く確認しなかったが,なんちゃら情報学が含まれる「その他」 9993 を指定. 
- お昼.ヨーグルトとお菓子,コーヒー.
- 午後
-- 独文の chunking に TreeTagger の tagger-chunker-german を試してみるが,遅い.全く実用的ではない.と思ったら,どうも日本語環境で実行しているため,一部の記号を解釈できずにフリーズしているらしい.
手っ取り早くはコンソールで
 export LC_ALL=C
 export LANG=de_DE.iso8859
を実行しておくことだが.問題となるのは iso-8859-1の 2進法で1011 1011と 1010 1011,16進法では 0xBB と 0xABにあたる &laquo;  と &#187; である.文字実体参照 HTML3.2で言うと &amp;laquo; あるいは &amp;#171; と &amp;raquo; あるいは &amp;#187;である.これを処理するPerlのプログラム,前に作ったな.どこに保存してあるっけ.とりあえず/\xBB/ や /\xAB/ を使えば補足はできることはできるが.
-- 14:35 講義
-- 15:30 遅ればせながら[[日本統計学会:http://www.jss.gr.jp/]]の年会費を納める.
-- 17:00 九天社から,武田製薬統計解析部舟尾先生の「Rで学ぶデータマイニング II --シミュレーションの視点から」の献本が送られてきた.ご本人にお礼のメールをお送りする.
- 18:30 帰路.
- 20:00 断酒就寝.

** 10月01日 (月) 晴 [#s8e2f763]
- 06:00 起床
- 07:30 研究室(整理)
- 午前
-- &color(red){TreeTagger}; だが,改めて研究室の Fedora にインストールしてみると,なんの問題もなく動く.全く同じ手順を行ったのだが,Debian系のUbuntu ではパスの設定が違うのかな?
--- 帰宅後、もう一度調べた。まず Ubuntu には gawk がデフォルトでは入っていない。さらにfilter-chunker-output-german.perl の上のパスが /usr/local/bin/perl となっていた。しかし,これはインストーラーが自動設定するようになっているのではないか? %%Fedora でインストールした場合は /usr/bin/perlと設定されている。 ところが install-tagger.sh を開いてみても,perlのパス設定の記述はない。う〜ん、なぜか分からないが、%% (誤解であった.fedora にインストールしたファイルでも /usr/local/bin/perl となっていた.) とりあえずこのファイルのパスを修正することで、うまく作動するようになった。
-- 新しい日録ページを用意した.カウンタは表示ページごとに設定されるみたいで,リセットした数値が表示されている.別にいいけど.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- &color(red){GLM}; 一般化線形モデルの説明に入る.始めに&color(red){ロジスティック回帰分析};.欧米の社会科学や言語学では [[WikiPedia:VARBRUL]] というソフトが使われているらしいが,私は良く知らない.無論,Baayen の本では R が使われる.
--- p.214には,例によって実験言語学からのデータ.30人の被験者に文字列を示して,それが正しい単語だと認識できればボタンを押すという実験らしい.割合を説明変数賭する場合の問題として,''"proportions have the property that the variance increases with the mean"''と付記されている.それは良いのだが,glm()関数による分析例で,13ページも前に作成したオブジェクトが再利用されている.そこを読んだ時,面倒だったので,実際の操作は省いちゃったよ.
--- p.215 に &color(red){''deviance residuals''}; の説明登場.''"...,they need not follow a normal distribution..."''
--- 高齢の被験者の方が正当率が高い(若い被験者のロジットの係数がマイナス)という結果出ていて,「そうなの」と思ったら,反応時間がずっと遅いということらしい.
--- Design パッケージの lrm() 関数によるロジスティック回帰分析の例がある.
--- p.218 にも anova() の出力と lm() の出力の違いが説明されている.ここでモデル式に変数を投入する順番が重要なことが説明されている.p.183 の説明を参照(他に p.192).
> ''"Each succesive row in a sequential ANOVA table evalues whether adding a new predicter is justifiled given the other predictors in the preceding rows. By contrasts, the summary() function evalutes whether the coefficients are signficantly diferrent from zero in a model containing all other predictors."'' .

--- さて,p.219の説明はとても重要だと思うのだが,原書は舌足らずなので,ちょっと補足して引用する.
> ''"The second function of anova() is to allow us to evalute the overall significance of factors. When a factor has only two levels, the test for the (single) coefficient based on the Z-score &color(red){in summary()}; is very similar to the test in the anova() function when relevant factor is entered last into the model equatation. But when a factor has more than two levels, the table of coefficients &color(red){in summary()}; lists a t-values or a Z-score for each coefficients. In order to assess whether the factor as a whole is explanatory, the anova() table is essential"''

-午後
-- 12:00 会議(将来構想)
-- 13:10 会議終了.昼ご飯に工学部へ.特定420.メンチカツと鳥のフリッター,目玉焼き.
-- 14:30 まで雑用.
-- Baayen.
--- データセットから標準化された残差が -5:5  を越える観測を除外する方法.なんだ,これでいいのか.
 data[abs(rstandard(data.glm )) < 5, ]
-- 15:00 来客.本日の会議について善後策.
-- 15:30 別研究室を訪問.学務に関してご相談.
-- 16:20 戻る.
-- Baayen 再開.
--- Design パッケージによる解析の引数 x = T, y = T の意味を調べようと,本を探したが,p.205 で説明もなく使われていただけ.結局,ヘルプを引いた.
-- 16:40 来客,履修関係.17:00 にも来客.こちらは本日の会議について.
-- 18:00 T 大 M 先生よりメール.共同研究の書類について.
-- 18:40 帰宅
-- 22:00 断酒就寝