''[[日録2007_9月]]'' ''[[日録2007_10月]]'' [[過去の日録]] * 2007年11月3日 (土) 晴 [#fd801e52] - 06:05 起床 - 07:20 研究室着(整頓) -- 昨日に引き続き,去年作成した日本語テキスト解析プログラムをチェックする.Perl は,簡単に作成できるから,あれこれ大量にスクリプトを作っている.だが,個別の目的ごとにプログラムを作ってしまうので,後で転用しようにも,いつどんなプログラムを作成したか,そして,それをどこに保存したかをすぐに忘れてしまう.マニュアルまで作成し,後で転用できるようにすることを考えると,プログラムはすべて Eclipse 上で Java か C++ で作るべきか.もちろん Autoconf や doxygen などを駆使して,Emacs 上ですべて完結すると言う手もあるが... -- phrase.R スクリプトで,cutRuby.pl, forCabocha.pl で解析済みの 111 個のテキストについて,その確率分布を,区間を 1,3,5 とずらしながら適合度を測るという処理を一括して行っている.出力は,個々のテキストごとに加えて,各テキストの結果を行ごとにまとめて一枚の csv ファイルにまとめたものもある.この後者のファイルから,全体の適合度をチェッするためのスクリプトを checkResults.R として保存. -- 適合度を測るのに,χ二乗検定やその派生である Cohen のオメガは,やはり問題があるな... -- [[Man-Whiteny検定]]での R の出力が気になったので,ちょっとチェックした.そもそも「正確な」 P 値が,「近似的に」正規分布を仮定して計算できるという言い方が分かりにくい. -- お昼乾麺 - 午後 -- 対数線形モデルは,[[要因に対応がないことが前提>R_対数線形モデル]]とされている. -- いつもの解析手順は,まず仮説を立て,その仮説に基づいて複数の解析を一度に自動実行できる R スクリプトを作成し,一気に走らせる.解析結果を参考に Tex でレポートにまとめる.というものだが,前々から,二度手間だなぁと思っていた.ubuntuに乗り換えたのを機に,この際,Sweave ですべてを処理しようと思う.その覚書 [[R_Sweave]]作成. -- うーーん,Sweave をコンパイルしようとすると TexLive の方が呼び出されるなぁ.何でだろうか? -- いろいろいじっていて,つい,export TEXMF などとやってしまった.おかげで,Texの環境がおかしくなったようで,また utf-8 のソースが通らなくなった.ptex3をコンパイルし直してみようとすると,これもエラー.どうも $HOME/.texmf-var/ に妙な設定ファイルがあるらしい.これをディレクごと削除して,再コンパイル可能に.そして再インストール. -- それでも直らん? バックアップ取っておいた emacs.ubuntu.el と差し替えたら,ただこれだけで文字化け直った.わけが分からん...ついでに ESS も再インストール. -- 結局,Sweave をインクルードした tex ソースは euc-jp でないと文字化けする...この作業で半日潰してしまった... - 疲れて帰路.落ち着いて少し考える.ええっと,ptex3 はデフォルトでは euc によるファイルを入力としている.しかし,utf-8 で作成されたファイルでも,euc にコンバートして,コンパイルする.すると,どこかのタイミングで対象ファイルの文字コードを判定し,適当なフィルタを通しているということか. -- Sweave は latex のみサポートしていて,platex には対応していないということかな? -- ファイル共有で,GUI で設定できそうなメニューが用意されているが,smbpassws -a でsambaユーザーとパスワードの登録を忘れてはいけない. * 2007年11月2日 (金) 曇 [#w0cbab7d] - 06:05 起床 -- 今朝も交差点に police おらず. - 07:20 研究室着 -- ps/2 -> USB 端子を入手せねば,お気に入りのキーボードが使えん... -- セントロニクス端子のついた古いノートの Windows パソコンがあったので,それをそのままプリンタサーバーにした.ルータで遮断して,ネットワークサービスでパケットフィルタリングを行い(137:udp,138:udp,139:tcp,445:tcp + 443),ウィルス対策ソフトを入れて,普段はネットワークケーブルを外して運用.そのうち Linux でプリンタサーバーを構築しようと思うが,暇ないだろうなぁ. -- XP on VMware に MP10 を設定. -- XP on VMware at Ubuntu in DELL Inspiron に Windows Mobile ActiveSync がインストールできない. XP on VMware at Fedora5 in Opteron AMD 64 にはインストールできたのだが... -- お昼乾麺. - 午後 -- [[Baayen>R_Baayen]]に移ろう. --- 混合モデルが成立した背景についての説明が p.283 にある.それは良いのだが,fixed effects の例として, SOA (stimulus onset asynchrony, the time between the presentation of a prime or distractor and the presentation of the target in chronometric experiment) と.英語ネーティブには,これで説明になってるんだろうか?しかし,それは許す.でも,[[splitplotデータ>http://cged.genes.nig.ac.jp/RGM2/R_current/library/languageR/man/splitplot.html]]に SOA 何て変数はないぞ... --- R on ubuntu7.10 にまだ languageR をインストールしていなかった.さっそく実行.なかなか高速で非常に気分が良い. --- Baayen で引き続き,混合モデルの有効な例として,言語心理学での実験例が紹介される.しかし,どうもその実験データの目的と意味がよく分からない.正確には,その「実験の意義」が納得できない.統計分析は複雑なわりには,実験の発想や道具立てが素朴過ぎるような気がしてならないのだが,あるいは実験とは,このように素朴であるべきなのか? -- Baayen 打ちきって,佐々木義之編『変量効果の推定とBLUP法』をひもとく. -- Ubuntu でフィルタリングせずに文字変換を行うプログラムは recode だそうな. recode EUC-JP..UTF-8 target.txt -- 久しぶり,青空文庫テキストの分析に着手. --- R で解析し,csv ファイルとして出力したファイルを OpenOffice の SpreadSheet で眺めていて,何気なく countif 関数を使ったら,第二引数を指定する段階でフリーズ.わけが分からん.111のテキストに適合度の検定を行って,そのうち何パーセントのテキストが 0.01 水準で帰無仮説が保留されたかを調べたいだけなので,この確認も R で行おう. --- 昔,こんなプログラムを書いたはず,と思ってハードディスク内をあちらこちら探しても,もちろん見つかりゃしない.こういうことがないように,これからは,この Wiki に保存しておこう. --- 昔のプログラム見つけた.さて,中のコードを読まねばならぬ.自作ながら,複雑なコードを書いているなぁ. -- Thunderbird の迷惑メールフィルタリング機能は,ロシア語にも対応しているのか? - その他,同じ. * 2007年11月1日 (木) 曇 [#sa5dff63] - 06:05 起床 -- 今朝も交差点に police おらず. - 07:20 研究室着 -- Ubuntu 7.10 への完全以降に着手する.ついでなのでメーラーも Thunderbirdへ移行. -- Windows Mobile の ActiveSync をインストールしようとしたが,VMware 上ではこの機器の USB を認識しない模様.それはいいが,W-Zero 3 との接続を切った後も,W-Zero側の画面ライトが完全消灯しなくなった.しょうがないからminiSDを突っ込んだままリセット. -- [[Wilcoxon検定]] を編集. -- USB <-> セントロニクス 変換ケーブルが欲しい -- ヨーグルト,コーヒー. - 午後 -- 演習.演習後,工学部にてカレー 250. -- fontforge を synaptic でインストールし,[[フォントの設定>hidden_Ubuntu7.10_fontの設定]]. --- Firefox のデフォルトのフォントは sans-serif 14 だったので IP モナー UI ゴシックに変えてみる. -- 昨日から今日と,色々雑用が入ってしまった.少し体制立て直さねば. -- 「教えて君」のため時間割く. -- H 氏来訪.懇談会の様子など伺う. -- 片側検定について質問を受けた.[[ここ>R_片側検定]]に要点をまとめた. - 23:00 就寝.