日録2007_10月 のバックアップ差分(No.25) - アールメカブ

アールメカブ


日録2007_10月 のバックアップ差分(No.25)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
''[[日録2007_9月]]'' 
[[過去の日録]]
* 2007 10月 [#lcad553b]

* 2007 10月08日 (月) 雨/曇/晴 [#lcad553b]
- 06:10 起床
- 07:40 研究室着(整頓)
- 午前
-- Vistaの右隅に表示されているガジェットとは何だ.東京の天気と温度が表示されている.東京生まれではあるが,現在の東京の天気なぞ関係ない.もっともメインで使っているマシンではないので,メモリを喰おうか何だろうが別にどうでもいいので,そのまま表示させておく.
-- ところで VS 2005 の J# 開発プロジェクトで Windows 用アプリとして作成したソフトは,VS や .NET Framework が入っていないパソコン環境でも動くのだろうか?無理かな.
-- M君に教わった Emacs プラグインを研究室のfedoraにも入れた.便利だが,通常の画面で検索するのに ctrl + F が使えなくなった.検索語の入力欄が出てこない.ctrl + S でもないようだし,何に置き換わったのだろうか?
-- 充電
-- [[Baayen>R_Baayen]] に取りかかる.
--- テキストの語彙増加率や各種パラメータを計算し,グラフィックスにするのに,むかし苦労して自作のプログラムを作成した.
p.245 に Baayen の作成したパッケージが紹介されているが,二行で全て済む.以下は&color(blue){不思議な国のアリス};.
#ref(baayen246.png,center,nowrap,不思議な国のアリスの語彙成長率と各種パラメータ)
Anthy で「ありす」と入力したら,最初の候補は「アリす」だった.「アリをする」って意図なのか?
- 昼食.乾麺.

* 2007 10月07日 (日) 晴 [#lcad553b]
- 06:00 起床
- 午前
-- 自宅の core2duo, 1GBメモリにVS2005を導入.インストールとService Pack1 の適用含めて1時間強で終了.研究室のcore2duo, 2GBメモリPCでの作業時間と比べて3分の1だった.なぜだか分からんが,このマシンにはウィルス対策ソフトを導入していないことと関係あるのだろか.ちなみに,起動するたびにWindowsXPから「ウィルス対策ソフトが入っていません!」と警告が出る.セキュリティー対策を自らはせず,他メーカーに譲るところなど,MicroSoft はとても寛容というか奥ゆかしいというか.
- 午後
-- 少し過去ファイルを整理し、こちらへ移行。しかしまだまだ、残っているなぁ。
- ワイン (Vosne Romanee Controlee, 2004)と月桂冠。
#ref(wine20071007.JPG,right,nowrap,Vosne)


#ref(wine20071007.JPG,right,nowrap,around,80%,Vosne)
- 22:00 ワイン (Vosne Romanee Controlee, 2004)と月桂冠を飲むだけ飲んで就寝。
-- ワインボトルの写真撮る際,2年前に買ったデジカメの説明書を初めて眺めた.「夜間の室内の撮影」という頁があったので開いてみると,そこに「ISOは大きめの数値を選び,フラッシュはoffで撮影しましょう!」とか書いてあった.それで,その通りに撮影してみた.確かに明るく撮れたが,これが前よりいいのかどうかは判断つきかねる.いずれにせよ,マニュアルは読まなきゃいかんものらしい...

** 10月06日 (土) 晴 [#q275bf35]
- 06:10 起床
- 08:00 研究室(整頓)
- [[統計数理研究所:http://www.ism.ac.jp/]]での講演題目はとりあえず「Rと自然言語研究」としておこう.
- [[統数研:http://www.ism.ac.jp/]]での講演題目はとりあえず「Rと自然言語研究」としておこう.
- 午前
-- 別マシンの Visual Studio 関係のセッティングの続き.Service Pack1 の適用にやたらと時間がかかる.信じられないほど時間がかかる.しかも進捗グラフが全く動かない.一昨日 core2duo,2GB メモリのマシンで実行したときには 1 時間以上うんともすんとも言わず,何度か中止しようと思った.ただハードディスクへは頻繁にアクセスしている模様(当たり前だが).何が行われているか知らないが,さすが MicroSoft.
--- 3時間経過後,「Service Pack1 の適用に失敗しました」のメッセージ・・・.さすが MicroSoft.感動のあまり声もでない...
-- Linux の VMplayer 上の XP ではシャットダウン時に実行されるアップデートにやたらと時間がかかる.MicroSoft にしても遅すぎる.VM上の問題かなと想像する.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- breakpoints をずらしながら回帰モデルを構築し,それぞれの deviance を比較する作業の続き.
--- &color(red){ロジスティック回帰モデル};でのパラメーター数について,p.243 にHarrell 2001  から以下のような判断を紹介している.
> for logistic model, the number of coefficients should be smaller than the total number of observations with the minority outcome, divided by 20
<
- 昼食.麺.
- 昼食.乾麺
- 午後
-- Baayen続き.p.243 からは[[語彙成長率の話:http://www.amazon.co.jp/Frequency-Distributions-Speech-Language-Technology/dp/0792370171/]].
-- 自分の仕事に戻る.とりあえず cabocha の出力から各文の句数を計測するプログラムはできた.これを全テキストにかけて,すべてについてcsvを作成し,さらに R にかける.去年作成した R プログラムを引っ張り出さねばならん.これはバックディスクのfedora5/ishida/daigaku/GakubuKeihiOct06/以下にだろうと思うが,今見たら大量に R のスクリプトがあるな...
--- bun.auto.R というのが,main ファイルで,ここから各種の R スクリプトを呼び出しているらしい.自分で作成したのだが,うろ覚えである.
--- とりあえずメインとなりそうなファイルを phrase.main.R 解析ファイルを  phrase.R とする.
- 18:30 帰路.
- 22:00 就寝

** 10月05日 (金) 晴 [#b41064f9]
- 05:30 起床
- 07:30 研究室(整頓)
- 午前
-- Firefox 上で日録を書いているのだが,ついつい Emacs 風のキー操作を行ってしまう.Text欄に書き込んだ文字を cut するつもりで crtl + w をすると,入力を更新しないまま Firefox が終了してしまう.不便なのでキーバインドを変更した.もっとも方法は
 echo 'gtk-key-theme-name = "Emacs"' >> .gtkrc-2.0
とするだけ.
--- 10/07にM君より以下のアドインの情報をもらった。
https://addons.mozilla.org/ja/firefox/addon/4141
こっちの方がはるかに便利。感謝。

-- 昨日のプログラム,つまり青空文庫のテキストからコメント類をのぞくプログラムの続き.いちおう完成したので,元ファイルからルビや解説をのぞき,cabocha にかけ,その出力から各文の句数を取り出すという[[一連の処理>hidden_Perl_青空文庫からルビを取る]]を行う [[bash スクリプト>Bash_shift]]を書いた.
- お昼.来客で弁当.
- 午後.
-- Micro Soft Visual Studio 2005 のセットアップを試みる.
--- Vista用のSerive Pack の適用に手間取る.例によって Micro Soft のサイトの説明は分かりにくい.インストールの途中でアップデートを試みたが,「他のプログラムがインストール中だ」と文句をいわれ,やむなく600MB近くもあるファイルをダウンロードしておいた.で,VSのインストールを続行し,MSDNドキュメントをインストールしたら,最後に,「Service Releaseのチェックをしますか」と来た.なら途中では,アップデートが必要だと警告だけでにして,後でインストールできますよとか言ってくれよな...
--- アカデミック・アライアンス版なので他の学内教育用マシンにインストールしても問題ない.それで fedoraにインストールしたVMplayer 上のXPにもインストールした.
--- ついでなので Micro Soft の Developer CD/DVD の整理をした.
-- インストールやらアップデートやらで時間がかかる.終わるのを待つ間[[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
を参照.
--- 1993 年度のドイツのフランクフルト紙内の記事で言及された「年代」のカウントというデータがある.言及された年代は対数で約 4,真数に直すと約 60 を遡るようになると急激に言及される回数が減っている.これは人間の人生スパンに等しい,あるいは,ほぼこの変曲点は第二次世界大戦開始の年にあたるので,この時代が現代と過去をわける指標と考えられているという仮説は面白いではないか.興味深いので[[ここ>R_回帰分析とbreakpoint]]にグラフを添えておく.
--- p.234下のコードにはグラフに垂直線を加えるコードが欠けている.
--- 変曲点を考慮して主効果のない,交互作用だけのモデルを構築している.このようなモデルは初めて見た.
-- ゼミ。課題は個々人でソフトを設計する.全体でサイトを構築する.
- 18:40 帰路。
#ref(wine20071005.JPG,right,nowrap,around,80%,ギガル)
- 23:00 wine (Cotes du Rhone, 2001)と月桂冠で就寝


** 10月04日 (木) 曇 [#j510d8d9]
- 06:00 起床
- 07:30 研究室(整頓)
- 午前
-- Vista のセッティング続き.学務関連の雑務.
-- 大学院.
-- 来客.
- 午後.
-- 演習
- お昼に工学部.特定420.豚カツとハンバーグ.
-- プログラムの見直しに着手.詳細は[[青空文庫からルビを取る>hidden_Perl_青空文庫からルビを取る]]
-- 16:00 来客.
-- 17:00 今日はいろいろ忙しい...
- 19:30 鍋に誘って頂いたのだが,自宅のパソコンで作業を完成せねばならない.慌てて帰路.
- 22:30 作業を慌ただしく進め,酒飲む間もなく就寝.

** 10月03日 (水) 曇 [#ked7cb88]
- 06:00 起床
- 07:30 研究室
- 午前
-- M 先生から,[[統数研:http://www.ism.ac.jp/]]での研究集会の概要についてのメールを頂く.一人あたり 1 時間の発表.講演題目を今月中旬までにご連絡しなければいけない.
-- 演習.
-- 昨日作りかけのプログラムの修正に着手.TreeTagger の chunker の出力をもう少し確認しないといけない.
- 昼食.今日は長丁場なので食事へ.時間もないので例によって工学部のspecialランチ420. 鶏の梅肉フリッター,豚カツ(もどき),キャベツ(もどきではない).
- 午後
-- 二コマ続けて授業.
-- 合間にDELLをようやく梱包からだし,セッティングする.19インチ SE197FPフラットパネルモニタなのだが,解像度は最大で1280 x 1024.もっと高解像度だろうと思っていた.Vista 標準のディスク管理でCドライブをパーティションを半分に切る.デフォルトでは半分にしか切れないらしい。初期化CDを繰り替えし使えば,さらに切れるらしいが、面倒。残りの未割り当て領域は,Linuxをインストールし、購入したSATAドライブはバックアップHDとして使おうか.ところでVistaを初めて使うが,勝手が分からない.日本語入力用のショートカットキーが違うようだ。さらにシャットダウンしようとして,どこにメニューがあるかも分からなかった有様.
//-- 17:30 他研究室をお訪ねし、もろもろご相談。
-- 合間に学務がいろいろ。
- 18:00 演習。
- 18:40 帰路。
- 22:30 月桂冠で就寝。

** 10月02日 (火) 曇 [#o5f0575e]
- 06:00 起床
- 07:30 研究室
- 午前
-- M 先生に[[統数研:http://www.ism.ac.jp/]]での共同研究関係の書類を送信.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
 p.222 から再開.
--- Designパッケージのロジスティク解析用関数 lrm() この出力に anova() を適用した場合も,sequential な Anova 表ではなく,partial effects of the predictors が表示される.それは良いが,出力には ''C''という指標がある.Cohen のCと関係はなさそうなのだが(確認すべし),0.5 < C < 1.0 の範囲であれば,モデルのpredictionは信頼できるということらしい. 例によってモデルは&color(red){ブートストラップ法};により診断.
> validate(regularity.lrm,bw=T,B=200)

--- p.225 &color(red){Shrinkage}; を発見するための  &color(red){Penalized Maximum Likelihood Estimation};を Design パッケージの関数 pentrace() で実行する方法の説明あり.
--- 統計学とは関係ないのだが,面白い仮説がある.
> Irregular verbs also tends to be more frequent than regular verbs, and it is reasonable to assume that this high frequnecy protects irregular verbs through time against regularization. 

--- &color(red){Ordinal(ordered) logisitic regression};
が取り上げられているが,summary() の出力は分かりにくい.また説明の文章もやや不適切な気がする.が,p.232 には &color(red){Proportinal Odds Model}; の説明と,その仮説検定の方法の紹介があり参考になる.

-- 事務から専門分野を尋ねられた.科研とは違う分類表で,良く確認しなかったが,なんちゃら情報学が含まれる「その他」 9993 を指定. 
- お昼.ヨーグルトとお菓子,コーヒー.
- 午後
-- 独文の chunking に TreeTagger の tagger-chunker-german を試してみるが,遅い.全く実用的ではない.と思ったら,どうも日本語環境で実行しているため,一部の記号を解釈できずにフリーズしているらしい.
手っ取り早くはコンソールで
 export LC_ALL=C
 export LANG=de_DE.iso8859
を実行しておくことだが.問題となるのは iso-8859-1の 2進法で1011 1011と 1010 1011,16進法では 0xBB と 0xABにあたる &laquo;  と &#187; である.文字実体参照 HTML3.2で言うと &amp;laquo; あるいは &amp;#171; と &amp;raquo; あるいは &amp;#187;である.これを処理するPerlのプログラム,前に作ったな.どこに保存してあるっけ.とりあえず/\xBB/ や /\xAB/ を使えば補足はできることはできるが.
-- 14:35 講義
-- 15:30 遅ればせながら[[日本統計学会:http://www.jss.gr.jp/]]の年会費を納める.
-- 17:00 九天社から,武田製薬統計解析部舟尾先生の「Rで学ぶデータマイニング II --シミュレーションの視点から」の献本が送られてきた.ご本人にお礼のメールをお送りする.
- 18:30 帰路.
- 20:00 断酒就寝.

** 10月01日 (月) 晴 [#s8e2f763]
- 06:00 起床
- 07:30 研究室(整理)
- 午前
-- &color(red){TreeTagger}; だが,改めて研究室の Fedora にインストールしてみると,なんの問題もなく動く.全く同じ手順を行ったのだが,Debian系のUbuntu ではパスの設定が違うのかな?
--- 帰宅後、もう一度調べた。まず Ubuntu には gawk がデフォルトでは入っていない。さらにfilter-chunker-output-german.perl の上のパスが /usr/local/bin/perl となっていた。しかし,これはインストーラーが自動設定するようになっているのではないか? %%Fedora でインストールした場合は /usr/bin/perlと設定されている。 ところが install-tagger.sh を開いてみても,perlのパス設定の記述はない。う〜ん、なぜか分からないが、%% (誤解であった.fedora にインストールしたファイルでも /usr/local/bin/perl となっていた.) とりあえずこのファイルのパスを修正することで、うまく作動するようになった。
-- 新しい日録ページを用意した.カウンタは表示ページごとに設定されるみたいで,リセットした数値が表示されている.別にいいけど.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- &color(red){GLM}; 一般化線形モデルの説明に入る.始めに&color(red){ロジスティック回帰分析};.欧米の社会科学や言語学では [[WikiPedia:VARBRUL]] というソフトが使われているらしいが,私は良く知らない.無論,Baayen の本では R が使われる.
--- p.214には,例によって実験言語学からのデータ.30人の被験者に文字列を示して,それが正しい単語だと認識できればボタンを押すという実験らしい.割合を説明変数賭する場合の問題として,''"proportions have the property that the variance increases with the mean"''と付記されている.それは良いのだが,glm()関数による分析例で,13ページも前に作成したオブジェクトが再利用されている.そこを読んだ時,面倒だったので,実際の操作は省いちゃったよ.
--- p.215 に &color(red){''deviance residuals''}; の説明登場.''"...,they need not follow a normal distribution..."''
--- 高齢の被験者の方が正当率が高い(若い被験者のロジットの係数がマイナス)という結果出ていて,「そうなの」と思ったら,反応時間がずっと遅いということらしい.
--- Design パッケージの lrm() 関数によるロジスティック回帰分析の例がある.
--- p.218 にも anova() の出力と lm() の出力の違いが説明されている.ここでモデル式に変数を投入する順番が重要なことが説明されている.p.183 の説明を参照(他に p.192).
> ''"Each succesive row in a sequential ANOVA table evalues whether adding a new predicter is justifiled given the other predictors in the preceding rows. By contrasts, the summary() function evalutes whether the coefficients are signficantly diferrent from zero in a model containing all other predictors."'' .

--- さて,p.219の説明はとても重要だと思うのだが,原書は舌足らずなので,ちょっと補足して引用する.
> ''"The second function of anova() is to allow us to evalute the overall significance of factors. When a factor has only two levels, the test for the (single) coefficient based on the Z-score &color(red){in summary()}; is very similar to the test in the anova() function when relevant factor is entered last into the model equatation. But when a factor has more than two levels, the table of coefficients &color(red){in summary()}; lists a t-values or a Z-score for each coefficients. In order to assess whether the factor as a whole is explanatory, the anova() table is essential"''

-午後
-- 12:00 会議(将来構想)
-- 13:10 会議終了.昼ご飯に工学部へ.特定420.メンチカツと鳥のフリッター,目玉焼き.
-- 14:30 まで雑用.
-- Baayen.
--- データセットから標準化された残差が -5:5  を越える観測を除外する方法.なんだ,これでいいのか.
 data[abs(rstandard(data.glm )) < 5, ]
-- 15:00 来客.本日の会議について善後策.
-- 15:30 別研究室を訪問.学務に関してご相談.
-- 16:20 戻る.
-- Baayen 再開.
--- Design パッケージによる解析の引数 x = T, y = T の意味を調べようと,本を探したが,p.205 で説明もなく使われていただけ.結局,ヘルプを引いた.
-- 16:40 来客,履修関係.17:00 にも来客.こちらは本日の会議について.
-- 18:00 T 大 M 先生よりメール.共同研究の書類について.
-- 18:40 帰宅
-- 22:00 断酒就寝