''[[日録2007_9月]]'' [[過去の日録]] * 2007 10月11日 (木) 曇/晴 [#d5501f4f] - 05:30 起床.肌寒い. - 07:20 研究室着 - 午前 -- 大学院の演習前に科研の書類を書いてしまおうと思う. -- Linux 上で試作した pdf ファイルを,念のため Windows の Acrobat Reader8で読んでみようと思って Windows を起動し,ウィルスバスターが起動し,そして,ようやくAcrobatを起動し,と,それぞれの過程がそれぞれに時間がかかってくれて,眠くなる. -- 大学院演習.開始直後,前期出席していた留学生が遊びに来る. -- お昼.ヨーグルト,お菓子,コーヒー. - 午後 -- Vista に KompoZer を導入.他の操作をしている最中だというのに,突然 Vista が「システム更新のためのパッケージを適用するため再起動してください」とかウィンドウが出てくる.黙ってその窓を閉じた. * 2007 10月10日 (水) 晴 [#laa27595] - 06:00 起床 - 07:30 研究室着 - 午前 -- pukiwiki-mode.el を使ってみた.便利ではないか.ただ,さすがに数式は表示されない.ディレクティブに間違いがあった場合,firefox だと数式部分だけでなく,頁全体が表示されないので,ちょっと不便ではある.emacs.el の pukiwiki 設定部分を修正する.別に euc-jp-dos でも良いのだろうか? pukiwiki-site-list '(("users" "http://150.59.60.47/" nil euc-jp-unix))) -- たまに Windows を起動するとウィルスバスターが、パターンファイルのダウンロードだの、インストールだの、再起動するかだの、いろいろ邪魔くさいことをしてくれる.世間の皆様はよく我慢して使っているものだと感心する. -- 10:25 演習,その後続けて学務 - お昼.ヨーグルトとコーヒー. - 午後 -- 来客. -- 12:50 - 16:05 授業二コマ -- Vista に Adobe Acrobat 6 Professional をインストールしたが,起動しない.OSと適合してないらしい.もっとも Acrobat を使うのは,他所様が作成した Office 系の文書を pdf 化する時だけなので,OpenOffice を入れて,OpenOffice のpdf 化機能を使うことにする. -- Visual Studio 2005 で MFC プロジェクトを作り,アプリケーションの種類として「ダイアログ」を設定する.そして Button 等を貼り付けて,これにコードを書くためにダブルクリックすると,Dlg クラスの設定画面が出てきた.以前の .NET 2003 等では勝手に ***Dlg.cpp, ***Dlog.h 等を自動的に作成してくれたのだが,仕様が変わったのか? --- と思ってもう一度別プロジェクトをダイアログベースで作成し,やはりボタンを貼り付けダブルクリックしたら,今度は聞いてこない.どうも最初の起動時にデフォルトの名前で良いかどうかを確認し,次回以降は,勝手にデフォルトの名前を付けてくれるらしい. -- 科研書類に取りかかる.二つ書かねばならない.書き出すと,いろいろ都合良く文章は出てくるものである.もっとも,読みやすいとかわかりやすいとかとは別問題であるが. - 18:30 帰路 - 22:00 就寝 * 2007 10月09日 (火) 雨/曇/晴 [#z45b4d06] - 06:00 起床 - 07:30 研究室着 - 午前 -- Firemacs で検索するのに,何気なく C-g としたらウィンドウ下に検索窓が出現した. -- [[書籍検索:Rの基礎とプログラミング技法]]が Amazon ではまた新品の方が品切れしているようで,定価の2倍近くもする used が売れている模様.この間,再刷したばかりなのだが. //[[書籍検索:RとS-PLUSによる多変量解析]]の方は,徐々に出ている模様. -- 一般化ポアソン分布のパッケージがCRANにあった.Zero-Inflated Generalized Poisson (ZIGP) Models.中身を調べてみることに. -- ZIGP だが,ちょっと今の目的には使えそうもない.地道に[[A Two-Parameter Family of Hyper-Poisson Distributions>日録2007_9月#hyper]]を読む. -- 超幾何,ポアソン,負の二項分布,パスカル分布の名称と実態の関係は分かりにくい.正確には,これらは本質的には同質のものなのだろうが.少し整理する.ドイツの統計学者は,これらをerweiterte Katz-Familie と呼び,また負の二項分布は Hyper-Pascal の m = 1 の場合の特殊なケースであり,いっぽう Hyper-Pascal はkを無限にし,q -> 0, kq -> b の場合にはHyperpoisson に収束するとも述べている(Wimmer/Altmann;2000, p.279, p.449ff). > The family of discrete distributions defined by (6) will ... be called the "two-parameter family of hyper-Poisson distributions"... This name reflects the two facts that the family is a subclass of the three-parameter family of confluent hypergeometircs series distributions and that it in turn contains the Poisson distributions as a one-parameter subclass. (6) &mathml(\frac{\Gamma(\lambda)\theta^x_2}{(_1F_1[1;\lambda;\theta_2])\Gamma (\lambda+x)}); --- ここで同 pdf には説明が欠けているが,[[A Two-Parameter Family of Hyper-Poisson Distributions>日録2007_9月#hyper]]p.134 より > &mathml({}_1F_1[1;\lambda;\theta_2] = 1 + \frac{\theta_2}{\lambda} + \frac{\theta^2_2}{\lambda(\lambda+1)} + \frac{\theta^3_2}{\lambda(\lambda+1)(\lambda+2)}); ... これは confluent hypergeometirc funciton. -- 論文によってパラメータを表す記号が異なるのでやりにくい.特に計量言語学では,二つの区間の差を Altmann 以来 &mathml(D=\frac{P_x - P_{x-1}}{P_{x-1}}); &mathml(D=\frac{b-ax}{cx+d}); とおいてパラメータ a,b,c,d の言語学的意味付けを行っているので厄介である. > E.Kelih & P.Grzybek,2004,p.28 > >(8) &mathml(P_x=\frac{b}{x+d} P_{x-1}); >(9) &mathml(P_x=\frac{b^x}{d^x (_1F_1(1;d;b))}); -- [[蓑谷 千凰彦 統計学のはなし:http://www.amazon.co.jp/%E7%B5%B1%E8%A8%88%E5%AD%A6%E3%81%AE%E3%81%AF%E3%81%AA%E3%81%97-%E8%93%91%E8%B0%B7-%E5%8D%83%E5%87%B0%E5%BD%A6/dp/4489001851/]] を参考にする.p.151からポアソン(ポアッソンと表記されているけど),幾何分布,パスカルについてやや詳しい説明がある.ちなみに著者は「みのたに ちおひこ」と読む.本の内容より漢字の方が難しい. --- &color(red){パスカル分布};すなわち&color(red){負の二項分布};は以下の式で表され,r=1 の場合,&color(red){幾何分布};に一致する. > &mathml({}_{x-1}C_{r-1} p^{r-1} q^{x-r}); , x = r, r+1, r+2, ... > &mathml(\mu = \frac{r}{p});, &mathml(\sigma^2 = \frac{rq}{p^2}); > Y = X - r として,r 回目の成功が得られるまでの失敗数とおくとYは0,1,2,3... を取るから, > &mathml(f(y) = {}_{y+r-1}C_{r-1} p^r q^y); > 係数は以下で表しても展開すれば同じ > &mathml(f(y) = {}_{y+r-1}C_{y} p^r q^y); > &mathml(\mu = \frac{rq}{p}); , &mathml(\sigma^2 = \frac{rq}{p^2}); --- 読んで正解であった.&color(red){混合ポアソン分布};についての説明をp.186以下に見つけた.前にも英語の論文で読んだことはあるが,日本語での記述は初めてなような気がする.とても簡潔に整理されていて使える.要するに &mathml(\lambda); を定数ではなく,これ自体がある確率分布に従うとするモデルである.そしてこの &mathml(\lambda); が尺度パラメータ c の r-1 次のガンマ分布に従う確率変数だとした時,以下のパスカル分布が,混合ポアソン分布として得られる. > &mathml(f(x)= {}_{x+r-1}C_{x} p^r q^x); ここで未知パラメータ r,p,q だが q = 1 - p である.またパスカル分布の平均と分散の式から,単純には > &mathml(p = \frac{\mu}{\sigma^2}); > &mathml(r = \mu \frac{p}{q}); と推定される. --- 面白い事例がp.192に紹介されているので一部改編の上引用する. > ある和文タイプストの半日を単位としたタイプ・ミスの度数分布表があるとする.45回の実験において,タイプ・ミス0回の日(半日)は15,1回の日は11...となっている.日によって平均失敗回数は変動する(休み明けの月曜日はミスをしやすく,金曜日は疲労が出てくるなど)とみなした方がよいため,ポアッソン分布よりパスカル分布の方が高い適合度を示します...パラメータmを1個しかもたないポアッソン分布より,2個のパラメータp,rをもつパスカル分布の方が,観測事実を説明しようとするとき伸縮性が大きいということです. - 12:00 - 13:00 会議(将来構想) - 昼食.ヨーグルトとコーヒーで. - 午後 -- [[A Two-Parameter Family of Hyper-Poisson Distributions>日録2007_9月#hyper]]を続けて読む. -- 演習 -- 本屋さん.6冊を処理. -- auto.pl スクリプトの確認.実際に動かして,100 冊強のテキストを一気に処理してみる. --- 見事にこけた.引数からディレクトリ,拡張子を処理するロジックに問題があった.とりあえず[[手抜き,ad hocな処理>Perl_ディレクトリや拡張子の処理]]を施した. --- さすがに時間がかかる.しかし,会議に出席して過ごす時間を考えると別に困りもしない. -- [ishida@amd64 ]$ time ./auto.pl euc.list real 5m9.759s user 4m56.664s sys 0m9.890s [ishida@amd64 ]$ -- またキャンパス内のネットワークがこけている模様.プロではなく,大学の先生たちが研究と遊びをかねて管理しているので仕方ない. -- 18:20 帰路 -- 帰宅してみたら[[先月頼んだ>日録2007_9月#books]] Haufigkeitsverteilungen in Texten がドイツから届いていた.何せ,ヨーロッパ人である.日本人の事務的感覚が通用するとは思ってはいけない.届くまで,2,3度の交渉は覚悟していたが,杞憂であった. -- 22:00 就寝 * 2007 10月08日 (月) 雨/曇/晴 [#s8f243aa] - 06:10 起床 - 07:40 研究室着(整頓) - 午前 -- Vistaの右隅に表示されているガジェットだが,東京の天気と温度が表示されている.東京生まれではあるが,現在の東京の天気なぞ関係ない.98の頃からか,Windowsはデフォルトではこんなものが表示される.メモリの無駄のような気がするが,もっともメインで使っているマシンではないので,メモリを喰おうが何だろうが別にどうでもいいので,そのまま表示させておく. -- ところで VS 2005 の J# 開発プロジェクトで Windows 用アプリとして作成したソフトは,VS や .NET Framework が入っていないパソコン環境でも動くのだろうか?無理かな. -- M君に教わった Emacs プラグインを研究室のfedoraにも入れた.便利だが,通常の画面で検索するのに ctrl + F が使えなくなった.検索語の入力欄が出てこない.ctrl + S でもないようだし,何に置き換わったのだろうか? -- 充電 -- [[Baayen>R_Baayen]] に取りかかる. --- テキストの語彙増加率や各種パラメータを計算し,グラフィックスにするのに,むかし苦労して自作のプログラムを作成した. p.245 に Baayen の作成したパッケージが紹介されているが,二行で全て済む.以下は&color(blue){不思議な国のアリス};. #ref(baayen246.png,center,nowrap,不思議な国のアリスの語彙成長率と各種パラメータ) Anthy で「ありす」と入力したら,最初の候補は「アリす」だった.「アリをする」って意図なのか? - 昼食.乾麺. - 午後. -- Baayen --- 調整済み &mathml(R^2); が大きくとも,[[残差からモデルが適切ではないとみなされる事例>R_Adj.r.squared]]. -- R でグラフ上に数式を描くのに使われるexpression()関数の使い方忘れた.expression()関数内でオブジェクトを評価させるのは可能だったかな? --- すぐ思い出した.こういう場合は substitute() 関数を使うのだった. x<- 1:10 plot(x) mtext(substitute(x[1] == x.swap, list(x.swap = x[1]) )) --- 数式については demo(plotmath) も参考になる -- Pukiwiki 形式で表を作成するツールを探す.Excel ならhttp://www.ideamans.com/tool/wikisupportaddin.php があるのだが,Calc 用のがないかなと思っていたら,あった.http://hermione.s41.xrea.com/pukiwiki/pukiwiki.php?Calc2PukiWiki しかしインストールはうまくいかない.モジュールをチェックする必要がある.自分で作るかな.ついでに Emacs 用に [[pukiwiki-mode.el>Wiki_pukiwiki-modeを導入]] を導入した.表を作成する機能もたぶんあるのだろうと思うのだが. -- 解析の準備 --- Hyperpoisson 分布を推定するプログラム作成を始める.とりあえず Hyperpoisson と一般化ポアソン分布の関連を調べる.以下のような pdfが http://www.stat.tugraz.at/stadl/papers/stangrkeschposter04.pdf にあった.一部引用する. > Im konkreten Beispiel stellt die (1-verschobene) Poisson- Verteilung (1) ein gutes Modell dar; f ¨ur weitere Texte und Textsorten sind jedoch (in den genannten Sprachen) Verallgemeinerungen notwendig wie etwa die Verallgemeinerte Poisson-Verteilung nach Consul-Jain (2) oder die Hyperpoisson-Verteilung (3): > (1) &mathml(P_x=\frac{a^{x-1}}{(x - 1)!} e^{-a}); > (2) &mathml(P_1=e^{-a}); , &mathml(P_x =\frac{a(a+(x-1)b)^{x-2}}{(x - 1)!}e^{-(a+(x-1)b)}); > (3) &mathml(P_1=({}_1 F_1(1;a;b))^{-1});,&mathml(P_x = \frac{a^{x-1}}{( _1 F_1(1;a;b))b^{x-1}}); - 18:40 帰路 - 22:00 就寝 * 2007 10月07日 (日) 晴 [#n17c630a] - 06:00 起床 - 午前 -- 自宅の core2duo, 1GBメモリにVS2005を導入.インストールとService Pack1 の適用含めて1時間強で終了.研究室のcore2duo, 2GBメモリPCでの作業時間と比べて3分の1だった.なぜだか分からんが,自宅のマシンにはウィルス対策ソフトを導入していないことと関係あるのだろか.ちなみに,起動するたびにWindowsXPから「ウィルス対策ソフトが入っていません!」と警告が出る.セキュリティー対策を自らはせず,他メーカーに譲るところなど,MicroSoft はとても寛容というか奥ゆかしいというか.でも対策ソフトは入れません. - 午後 -- 少し過去ファイルを整理し、こちらへ移行。しかしまだまだ、残っているなぁ。 #ref(wine20071007.JPG,right,nowrap,around,80%,Vosne) - 22:00 ワイン (Vosne Romanee Controlee, 2004)と月桂冠を飲むだけ飲んで就寝。 -- ワインボトルの写真撮る際,2年前に買ったデジカメの説明書を初めて眺めた.「夜間の室内の撮影」という頁があったので開いてみると,そこに「ISOは大きめの数値を選び,フラッシュはoffで撮影しましょう!」とか書いてあった.それで,その通りに撮影してみた.確かに明るく撮れたが,これが前よりいいのかどうかは判断つきかねる.いずれにせよ,マニュアルは読まなきゃいかんものらしい... ** 10月06日 (土) 晴 [#q3a441e7] - 06:10 起床 - 08:00 研究室(整頓) - [[統数研:http://www.ism.ac.jp/]]での講演題目はとりあえず「Rと自然言語研究」としておこう. - 午前 -- 別マシンの Visual Studio 関係のセッティングの続き.Service Pack1 の適用にやたらと時間がかかる.信じられないほど時間がかかる.しかも進捗グラフが全く動かない.一昨日 core2duo,2GB メモリのマシンで実行したときには 1 時間以上うんともすんとも言わず,何度か中止しようと思った.ただハードディスクへは頻繁にアクセスしている模様(当たり前だが).何が行われているか知らないが,さすが MicroSoft. --- 3時間経過後,「Service Pack1 の適用に失敗しました」のメッセージ・・・.さすが MicroSoft.感動のあまり声もでない... -- Linux の VMplayer 上の XP ではシャットダウン時に実行されるアップデートにやたらと時間がかかる.MicroSoft にしても遅すぎる.VM上の問題かなと想像する. -- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] --- breakpoints をずらしながら回帰モデルを構築し,それぞれの deviance を比較する作業の続き. --- &color(red){ロジスティック回帰モデル};でのパラメーター数について,p.243 にHarrell 2001 から以下のような判断を紹介している. > for logistic model, the number of coefficients should be smaller than the total number of observations with the minority outcome, divided by 20 < - 昼食.乾麺 - 午後 -- Baayen続き.p.243 からは[[語彙成長率の話:http://www.amazon.co.jp/Frequency-Distributions-Speech-Language-Technology/dp/0792370171/]]. -- 自分の仕事に戻る.とりあえず cabocha の出力から各文の句数を計測するプログラムはできた.これを全テキストにかけて,すべてについてcsvを作成し,さらに R にかける.去年作成した R プログラムを引っ張り出さねばならん.これはバックディスクのfedora5/ishida/daigaku/GakubuKeihiOct06/以下にだろうと思うが,今見たら大量に R のスクリプトがあるな... --- bun.auto.R というのが,main ファイルで,ここから各種の R スクリプトを呼び出しているらしい.自分で作成したのだが,うろ覚えである. --- とりあえずメインとなりそうなファイルを phrase.main.R 解析ファイルを phrase.R とする. - 18:30 帰路. - 22:00 就寝 ** 10月05日 (金) 晴 [#c037fc27] - 05:30 起床 - 07:30 研究室(整頓) - 午前 -- Firefox 上で日録を書いているのだが,ついつい Emacs 風のキー操作を行ってしまう.Text欄に書き込んだ文字を cut するつもりで crtl + w をすると,入力を更新しないまま Firefox が終了してしまう.不便なのでキーバインドを変更した.もっとも方法は echo 'gtk-key-theme-name = "Emacs"' >> .gtkrc-2.0 とするだけ. --- 10/07にM君より以下のアドインの情報をもらった。 https://addons.mozilla.org/ja/firefox/addon/4141 こっちの方がはるかに便利。感謝。 -- 昨日のプログラム,つまり青空文庫のテキストからコメント類をのぞくプログラムの続き.いちおう完成したので,元ファイルからルビや解説をのぞき,cabocha にかけ,その出力から各文の句数を取り出すという[[一連の処理>hidden_Perl_青空文庫からルビを取る]]を行う [[bash スクリプト>Bash_shift]]を書いた. - お昼.来客で弁当. - 午後. -- Micro Soft Visual Studio 2005 のセットアップを試みる. --- Vista用のSerive Pack の適用に手間取る.例によって Micro Soft のサイトの説明は分かりにくい.インストールの途中でアップデートを試みたが,「他のプログラムがインストール中だ」と文句をいわれ,やむなく600MB近くもあるファイルをダウンロードしておいた.で,VSのインストールを続行し,MSDNドキュメントをインストールしたら,最後に,「Service Releaseのチェックをしますか」と来た.なら途中では,アップデートが必要だと警告だけでにして,後でインストールできますよとか言ってくれよな... --- アカデミック・アライアンス版なので他の学内教育用マシンにインストールしても問題ない.それで fedoraにインストールしたVMplayer 上のXPにもインストールした. --- ついでなので Micro Soft の Developer CD/DVD の整理をした. -- インストールやらアップデートやらで時間がかかる.終わるのを待つ間[[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] を参照. --- 1993 年度のドイツのフランクフルト紙内の記事で言及された「年代」のカウントというデータがある.言及された年代は対数で約 4,真数に直すと約 60 を遡るようになると急激に言及される回数が減っている.これは人間の人生スパンに等しい,あるいは,ほぼこの変曲点は第二次世界大戦開始の年にあたるので,この時代が現代と過去をわける指標と考えられているという仮説は面白いではないか.興味深いので[[ここ>R_回帰分析とbreakpoint]]にグラフを添えておく. --- p.234下のコードにはグラフに垂直線を加えるコードが欠けている. --- 変曲点を考慮して主効果のない,交互作用だけのモデルを構築している.このようなモデルは初めて見た. -- ゼミ。課題は個々人でソフトを設計する.全体でサイトを構築する. - 18:40 帰路。 #ref(wine20071005.JPG,right,nowrap,around,80%,ギガル) - 23:00 wine (Cotes du Rhone, 2001)と月桂冠で就寝 ** 10月04日 (木) 曇 [#d0f30a43] - 06:00 起床 - 07:30 研究室(整頓) - 午前 -- Vista のセッティング続き.学務関連の雑務. -- 大学院. -- 来客. - 午後. -- 演習 - お昼に工学部.特定420.豚カツとハンバーグ. -- プログラムの見直しに着手.詳細は[[青空文庫からルビを取る>hidden_Perl_青空文庫からルビを取る]] -- 16:00 来客. -- 17:00 今日はいろいろ忙しい... - 19:30 鍋に誘って頂いたのだが,自宅のパソコンのこともあるので帰路. - 22:30 酒飲む間もなく就寝 ** 10月03日 (水) 曇 [#s98ecdb2] - 06:00 起床 - 07:30 研究室 - 午前 -- M 先生から,[[統数研:http://www.ism.ac.jp/]]での研究集会の概要についてのメールを頂く.一人あたり 1 時間の発表.講演題目を今月中旬までにご連絡しなければいけない. -- 演習. -- 昨日作りかけのプログラムの修正に着手.TreeTagger の chunker の出力をもう少し確認しないといけない. - 昼食.今日は長丁場なので食事へ.時間もないので例によって工学部のspecialランチ420. 鶏の梅肉フリッター,豚カツ(もどき),キャベツ(もどきではない). - 午後 -- 二コマ続けて授業. -- 合間にDELLをようやく梱包からだし,セッティングする.19インチ SE197FPフラットパネルモニタなのだが,解像度は最大で1280 x 1024.もっと高解像度だろうと思っていた.Vista 標準のディスク管理でCドライブをパーティションを半分に切る.デフォルトでは半分にしか切れないらしい。初期化CDを繰り替えし使えば,さらに切れるらしいが、面倒。残りの未割り当て領域は,Linuxをインストールし、購入したSATAドライブはバックアップHDとして使おうか.ところでVistaを初めて使うが,勝手が分からない.日本語入力用のショートカットキーが違うようだ。さらにシャットダウンしようとして,どこにメニューがあるかも分からなかった有様. //-- 17:30 他研究室をお訪ねし、もろもろご相談。 -- 合間に学務がいろいろ。 - 18:00 演習。 - 18:40 帰路。 - 22:30 月桂冠で就寝。 ** 10月02日 (火) 曇 [#ob23dff4] - 06:00 起床 - 07:30 研究室 - 午前 -- M 先生に[[統数研:http://www.ism.ac.jp/]]での共同研究関係の書類を送信. -- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] p.222 から再開. --- Designパッケージのロジスティク解析用関数 lrm() この出力に anova() を適用した場合も,sequential な Anova 表ではなく,partial effects of the predictors が表示される.それは良いが,出力には ''C''という指標がある.Cohen のCと関係はなさそうなのだが(確認すべし),0.5 < C < 1.0 の範囲であれば,モデルのpredictionは信頼できるということらしい. 例によってモデルは&color(red){ブートストラップ法};により診断. > validate(regularity.lrm,bw=T,B=200) --- p.225 &color(red){Shrinkage}; を発見するための &color(red){Penalized Maximum Likelihood Estimation};を Design パッケージの関数 pentrace() で実行する方法の説明あり. --- 統計学とは関係ないのだが,面白い仮説がある. > Irregular verbs also tends to be more frequent than regular verbs, and it is reasonable to assume that this high frequnecy protects irregular verbs through time against regularization. --- &color(red){Ordinal(ordered) logisitic regression}; が取り上げられているが,summary() の出力は分かりにくい.また説明の文章もやや不適切な気がする.が,p.232 には &color(red){Proportinal Odds Model}; の説明と,その仮説検定の方法の紹介があり参考になる. -- 事務から専門分野を尋ねられた.科研とは違う分類表で,良く確認しなかったが,なんちゃら情報学が含まれる「その他」 9993 を指定. - お昼.ヨーグルトとお菓子,コーヒー. - 午後 -- 独文の chunking に TreeTagger の tagger-chunker-german を試してみるが,遅い.全く実用的ではない.と思ったら,どうも日本語環境で実行しているため,一部の記号を解釈できずにフリーズしているらしい. 手っ取り早くはコンソールで export LC_ALL=C export LANG=de_DE.iso8859 を実行しておくことだが.問題となるのは iso-8859-1の 2進法で1011 1011と 1010 1011,16進法では 0xBB と 0xABにあたる « と » である.文字実体参照 HTML3.2で言うと &laquo; あるいは &#171; と &raquo; あるいは &#187;である.これを処理するPerlのプログラム,前に作ったな.どこに保存してあるっけ.とりあえず/\xBB/ や /\xAB/ を使えば補足はできることはできるが. -- 14:35 講義 -- 15:30 遅ればせながら[[日本統計学会:http://www.jss.gr.jp/]]の年会費を納める. -- 17:00 九天社から,武田製薬統計解析部舟尾先生の「Rで学ぶデータマイニング II --シミュレーションの視点から」の献本が送られてきた.ご本人にお礼のメールをお送りする. - 18:30 帰路. - 20:00 断酒就寝. ** 10月01日 (月) 晴 [#fc8a605f] - 06:00 起床 - 07:30 研究室(整理) - 午前 -- &color(red){TreeTagger}; だが,改めて研究室の Fedora にインストールしてみると,なんの問題もなく動く.全く同じ手順を行ったのだが,Debian系のUbuntu ではパスの設定が違うのかな? --- 帰宅後、もう一度調べた。まず Ubuntu には gawk がデフォルトでは入っていない。さらにfilter-chunker-output-german.perl の上のパスが /usr/local/bin/perl となっていた。しかし,これはインストーラーが自動設定するようになっているのではないか? %%Fedora でインストールした場合は /usr/bin/perlと設定されている。 ところが install-tagger.sh を開いてみても,perlのパス設定の記述はない。う〜ん、なぜか分からないが、%% (誤解であった.fedora にインストールしたファイルでも /usr/local/bin/perl となっていた.) とりあえずこのファイルのパスを修正することで、うまく作動するようになった。 -- 新しい日録ページを用意した.カウンタは表示ページごとに設定されるみたいで,リセットした数値が表示されている.別にいいけど. -- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] --- &color(red){GLM}; 一般化線形モデルの説明に入る.始めに&color(red){ロジスティック回帰分析};.欧米の社会科学や言語学では [[WikiPedia:VARBRUL]] というソフトが使われているらしいが,私は良く知らない.無論,Baayen の本では R が使われる. --- p.214には,例によって実験言語学からのデータ.30人の被験者に文字列を示して,それが正しい単語だと認識できればボタンを押すという実験らしい.割合を説明変数賭する場合の問題として,''"proportions have the property that the variance increases with the mean"''と付記されている.それは良いのだが,glm()関数による分析例で,13ページも前に作成したオブジェクトが再利用されている.そこを読んだ時,面倒だったので,実際の操作は省いちゃったよ. --- p.215 に &color(red){''deviance residuals''}; の説明登場.''"...,they need not follow a normal distribution..."'' --- 高齢の被験者の方が正当率が高い(若い被験者のロジットの係数がマイナス)という結果出ていて,「そうなの」と思ったら,反応時間がずっと遅いということらしい. --- Design パッケージの lrm() 関数によるロジスティック回帰分析の例がある. --- p.218 にも anova() の出力と lm() の出力の違いが説明されている.ここでモデル式に変数を投入する順番が重要なことが説明されている.p.183 の説明を参照(他に p.192). > ''"Each succesive row in a sequential ANOVA table evalues whether adding a new predicter is justifiled given the other predictors in the preceding rows. By contrasts, the summary() function evalutes whether the coefficients are signficantly diferrent from zero in a model containing all other predictors."'' . --- さて,p.219の説明はとても重要だと思うのだが,原書は舌足らずなので,ちょっと補足して引用する. > ''"The second function of anova() is to allow us to evalute the overall significance of factors. When a factor has only two levels, the test for the (single) coefficient based on the Z-score &color(red){in summary()}; is very similar to the test in the anova() function when relevant factor is entered last into the model equatation. But when a factor has more than two levels, the table of coefficients &color(red){in summary()}; lists a t-values or a Z-score for each coefficients. In order to assess whether the factor as a whole is explanatory, the anova() table is essential"'' -午後 -- 12:00 会議(将来構想) -- 13:10 会議終了.昼ご飯に工学部へ.特定420.メンチカツと鳥のフリッター,目玉焼き. -- 14:30 まで雑用. -- Baayen. --- データセットから標準化された残差が -5:5 を越える観測を除外する方法.なんだ,これでいいのか. data[abs(rstandard(data.glm )) < 5, ] -- 15:00 来客.本日の会議について善後策. -- 15:30 別研究室を訪問.学務に関してご相談. -- 16:20 戻る. -- Baayen 再開. --- Design パッケージによる解析の引数 x = T, y = T の意味を調べようと,本を探したが,p.205 で説明もなく使われていただけ.結局,ヘルプを引いた. -- 16:40 来客,履修関係.17:00 にも来客.こちらは本日の会議について. -- 18:00 T 大 M 先生よりメール.共同研究の書類について. -- 18:40 帰宅 -- 22:00 断酒就寝