日録2007_10月 - RとLinuxと...

RとLinuxと...


日録2007_10月

日録2007_9月 過去の日録

_ 2007 10月30日 (月) 曇

  • 06:00 起床
    • 今朝も交差点に police はいなかった.
  • 07:20 研究室着
  • 午前
    • Springer から画像について連絡メール.
    • 朝一,演習.
    • 最近 Gmail の pop サーバーにつながり難いような気がする.
    • 教えて君来.
  • 午後
    • 18:00 まで講義.
    • H 氏来訪.
  • 今日は忙しかった.
    Chambolle-Musigny 2004
    • 23:00 Chambolle-Musigny 2004 を飲んで就寝

_ 2007 10月30日 (月) 曇

  • 06:10 起床
    • 早朝,N 軒屋の交差点に police がいたりいなかったりするのだけど,規則性はあるのだろうか?単に交通安全週間とか?今日はいた.統計とってみよう.
  • 07:30 研究室着
  • 午前
    • pukiwiki-mode を使っているのだが,send しようとすると3回に1回は HTTP fetch: Connection timeout! とエラーを返す.http.el を以下のように修正してみる.
      (defvar http-timeout 100
       "Timeout for HTTP.")
      • 少しはましになったかな?Users と Password も emacs で定義しているにもかかわらず,尋ねてくることが多い.defvar でグローバルに定義してしまうか?
    • CaboCha? に utf-8 が通らない問題で,しつこく検索してみると,ここに以下のような記事を発見.

CaboCha?にUTF-8な文字列を入力したいと思って、いろいろと試してみて分かったことがあるのでメモ。入力した文字をCaboCha?に理解させるためには、CaboCha?のmodelをUTF-8に変換する必要がある。そのためにmodelのtext表記版をUTF-8化する。これをUTF-8にして、コケるのは実はCaboCha?じゃなくてYamCha?のPKE.pmの内部でmkdartsする部分。これは単体配布版のdarts-0.31に差し替えても落ちる。たぶんmodelに書いてあるエントリUTF-8用にソートされていないのではないだろうか。もしくはmodelをPKEで読み込んだあとのソートがうまくいっていないのではないだろうか。そこらへんを見なきゃいけないのでは、と言うところで時間が切れてしまったのでCaboCha?に入力するためだけに、MeCab?の出力をeucにして、またutfに戻すむなしい処理を追加した。

  • 演習.Excelで数値表を使わずに確率を算出するために.
  • サーバーに utf-8 Ubuntu 用のレポジトリを作成.
    [ishida@pc ubuntu]$ svnadmin create Document
    [ishida@pc ubuntu]$ svnadmin create myRcode
    [ishida@pc ubuntu]$ ls -la
    合計 20
    drwxrwxrwx  4 ishida ishida 4096 10月 30 10:00 .
    drwxr-xr-x 29 root   root   4096 10月 30 09:57 ..
    drwxrwxr-x  7 ishida ishida 4096 10月 30 10:00 Document
    drwxrwxr-x  7 ishida ishida 4096 10月 30 10:00 myRcode
  • j2sdk を ubuntu にインストール
  • Baayen
    • p.276 の centering の話は,言語反応を例にして説明しても分かりにくいのでは?
  • お昼.ヨーグルト,コーヒー.
  • 午後.
    • 引き続き.Baayen.混合モデルで,correlation parameter を投入しない方法の説明があって珍しい.すなわち Baayen p.277 で使われているモデルでは,次のように 0 を使う.
      lmer(RT ~ cTrial + Length* NativeLanguage +
      NativeLanguage * Frequency +
      (1 |Subject) + (0 + cTrial|Subject) + (1|Word))
      あるいはこれでも同じことらしい
      (cTrial - 1 |Subject)
    • 14:35 - 16:05 演習.
    • 質問があったノンパラメトリック検定についての資料を作成.
  • 定時帰路
  • 22:00 就寝

_ 2007 10月29日 (月) 曇

  • 06:10 起床
  • 07:30 研究室着(整頓)
  • 午前
    • 学務関係のメールが来ていた.また話が変わっている.そろそろ潮時かな,と思う.
    • 頭を切り替える.Baayen に取りかかる.混合モデルの p-value に関連して,ようやく Markov chain Monte Carlo (MCMC) の話題が登場.
    • 充電
    • 11:30 郵便局へ冊子小包を出しにいく.ついで工学部でスペシャル.400円.最近,何人かの学生の顔を見かける.
  • 午後
    • Baayen p.270 で,混合モデル
      lmer(RT ~ Trial + (1 + Trial|Subject) + (1|Word))
      のモデル式で, (1 |Subject) と (1 + Trial|Subject) の違い,すなわち後者では Trial に Subject ごとに異なった slope を認める,逆にいえば前者の slope は全ての Subject で共通とすることを,違いを図示して表す例があり,参考になるだろう.
    • ちょっと Perl での utf-8による日本語処理を調べる.ここが参考になるが,ちょっと混乱する.とりあえず次のふたつは必須のようである.
    • (1) スクリプト自体が utf-8 であること.
      use utf-8;
    • (2) 標準入出力に utf-8 フラグが立っていること.
      binmode(STDIN, ":utf8");
      binmode(STDOUT, ":utf8");
      use open ':utf8';
      調べていたらこのサイトに面白い情報があった.
    • 17:00 WG(将来構想)
    • 色々試してから,日本語テキストを下処理してCabocha へ出力を渡すスクリプトを書いたが,出力がおかしい,変だなと思って調べたら,どうも CaboCha? は utf-8 に対応していないらしい.... http://www.smalltown.ne.jp/~usata/diary/?date=20060620 http://d.hatena.ne.jp/tasukuchan/searchdiary?word=*%5B%BC%AB%C1%B3%B8%C0%B8%EC%5D
      CabochaではUTF-8扱えないのかしら…ちゃんと追ってないけど、
      マニュアル見る限りUTF-8については言及してないな。
      あとは、-I1の入力、ChaSen方式じゃないとダメなのかしら?
      Mecab対応って、Mecabを-Ochasenで呼び出してるってことかしら?
      せっかくEUCからUTF-8化したのに…ぐすん。

まったく同感,私もぐすん...

  • 定時帰路.
  • 22:00 就寝

_ 2007 10月28日 (日) 晴

  • 06:30 起床
  • 午前
    • 統数研での講演についての仮案内が R 掲示板に出ていた.
    • 自宅の DELL inspiron の XP に VMPlayer をインストールし,そこに Ubuntu 7.04 を入れていたのだが,起動すると,盛んに 7.10 にアップグレードせい,と勧める.そこでアップグレードしてみる.アップグレードまでの手順が表示され,大量のファイルと,大量のスクリプト処理が行われているようなのだが,とにかく時間がかかる.途中,散歩してきて,帰ってきたらアップグレード侵攻中となっていた面画が消えている.さては,無事終了し,勝手に再起動したのかと思って,ヴァージョンをチェックすると 7.04 のまま.synaptic を起動すると,アップグレードに失敗したから,dpkg --comfigure -a を実行せよ,と言う.言われるがままに実行すると,再びアップグレードが始まったが,途中で何やらエラーをぶつぶつと言ってきて(TeXlive? 関連だったと思う),何度やっても進まない.面倒になって,再起動すると,今度は起動できない. Ubuntu日本語フォーラム同じ症状の報告があって,原因と対処は判明した.

      The problem was in /etc/event.d/tty1 (and tty2 etc.) The last two lines were respawn /sbin/getty 38400 tty1exec /sbin/getty 38400 tty1 but should have been exec /sbin/getty 38400 tty1 respawn

      だが,VMware 上の Linux をシングルユーザーモードで起動する方法が分からん.
    • 重要なファイルは一切ないので,この際,7.10 を改めて別に構築することにした.torrent からインストール.日本語関連アップデートで,接続先のサーバーが 500 Internal error と返ってくる.メインのサーバーを米国に変えたら,あっという間にインストールされた.
  • 22:00 飲むだけ飲んで就寝

_ 2007 10月27日 (土) 雨

  • 06:10 起床
  • 07:30 研究室着(整頓)
  • 午前
    • Springer から原稿に関する連絡.また T 大 M 先生から統数研での講演に関する連絡が来ていた.
    • subversion の利用を検討し,ここなどを参考に処理を行おうとして,とんだヘマをしてしまった.つまり,不用意に
      # usermod -G subversion user 
      を実行してしまった.この結果,/etc/group の wheel から,ユーザ名が消去され,su コマンドを一切受け付けなくなってしまった.しようがなく,サーバーの場所まで赴き,root でログインしようとしたら,できない! んーーーーーーーーー,と考えつつ.どうしようもないので,強制再起動し,fedora 選択画面で e .さらに kernel- 云々という長いのを選んで e.そして最後の kh guiet とか言うのを消して,代わりに single と入力して,エンター.そして b で起動し,シングルユーザーモードになって,もう一度
      # usermod -G wheel user 
      なんだか,釈然としないものが残るのだが,とりあえずは復旧.
    • subversion の設定.結構苦労した.管理用のユーザを作成し
      svnadmin create /var/repos
      さらに管理ユーザーの rsa ファイルを作成し authorized_keys に
      command="/usr/bin/svnserve -t -r /var/repos" ssh-rsa AA
      秘密鍵をクライアントに移す. ubuntu 側では psvn.el を用意し,Emacs で扱えるようにしておく. で,インポートだが,これに,はまってしまった.CVS のときは対象となるディレクトリ内で実行したのだが,svn では,ディレクトリを引数として指定しなければならないようである.
      svn import -m "test" test svn+ssh://host/var/repos 
      svn checkout svn+ssh://host/var/repos/test
      emacsの設定

      ;;--- psvn.el ------------------- ;; http://www-aos.eps.s.u-tokyo.ac.jp/~takagi/SubversionMemo.html ;;------------------------------- (require 'psvn) (define-key svn-status-mode-map "q" 'egg-self-insert-command) (define-key svn-status-mode-map "Q" 'svn-status-bury-buffer) (define-key svn-status-mode-map "p" 'svn-status-previous-line) (define-key svn-status-mode-map "n" 'svn-status-next-line) (define-key svn-status-mode-map "<" 'svn-status-examine-parent) (add-hook 'dired-mode-hook

         '(lambda ()
            (require 'dired-x)
            ;;(define-key dired-mode-map "V" 'cvs-examine)
            (define-key dired-mode-map "V" 'svn-status)
            (turn-on-font-lock)
            ))

      (setq svn-status-hide-unmodified t) (setq process-coding-system-alist

        (cons '("svn" . utf-8) process-coding-system-alist))
      結構,大変...
    • お昼.乾麺.
  • 午後
    • ubuntu に openGL(libglu1 等) libpng12.dev をインストール.これがないと,まともにプログラムをコンパイルできない.
    • さて,データの移行を始める.しかし,ただちに Ubuntu をメインのマシンにはできそうにない.こちらでは,すべてのファイルを UTF-8 で作成するつもりだが,プログラムソース関係,特に正規表現の処理,とりわけ Perl で問題が起こりそうであるから,その辺のチェックを少しずつ進めて,年内には完全移行したい.
    • mecab をインストールしようと思って,何気なく synaptic で検索してみたら.何とレポジトリ存在していた! とはいえ,その文字コードがどうなっているのか分からない.そんなに激しくアップデートがあるわけではないので,ソースから utf-8 オプションでコンパイルしよう.和布蕪他インストール
      ./configure --with-charset=utf8   # 和布蕪本体
      ./configure --with-charset=utf-8 # なぜか和布蕪辞書はこう指定
    • Emacs 上のプログラミング言語環境を整えようとしていて,epo というスクリプト見つけた.yatex と統一的なスタイルで言語補完しようということか.とりあえずダウンロードして展開だけしておく.
      sudo cp -R epo-1.4h /usr/share/emacs/site-lisp/epo

また cperl-mode も用意しておく.

http://www.cpan.org/modules/by-module/CPAN/ILYAZ/cperl-mode/cperl-mode.el

もインストールしておく.

  • svn 管理ユーザーなどを追加したが,まったく不要だった.普通に自分のアカウントでM-x svn-status で処理できるではないか.Document/bash_aliases の SVN_SSH をコメントアウト.
  • さて,久しぶり Baayen を見ようか.混合モデルまで進めていた.

_ 2007 10月26日 (金) 雨

  • 05:45 起床
  • 07:15 研究室着(整頓)
  • 午前
    • さてさて,Linux で,これからは euc-jp を捨て, utf-8 で作業しようと思う.
    • vmware-player のインストールに入る.ここを見るとapt-get でインストールできそうなことも書いてあるのだが,synaptic で探してみても,レポジトリには加えられていない様子.そこで,グーグッてみる.すると http://igordevlog.blogspot.com/2007/07/vmware-in-ubuntu-gutsy-kernel-2622.html に,インストールにはパッチが必要とある.が,一応,デフォルトの vmware-player-2.0.2-59824.i386.tar.gz を解凍し,そのまま vmware-player.pl を実行してみた.何の問題もなく,インストールされた.続けて,sypnaptic を通して今朝方インストールした qemu を使って
      $ qemu-img create -f vmdk winxp.vmdk 30G
      これも問題ない.で,winxp.vmk ファイルを AMD64 からコピーし,中身の一部を編集し,XP の CD を突っ込み,VMplayer を起動し,vmk ファイルを選択すると,そのままインストールへ.今,現在,順調にインストールが進んでいる.
      • 09:52 無事 XP のインストール終了.
    • ptetex が UTF-8 で xdvi を実行すると文字化けする.なにしろ,utf-8 環境での作業は初めてである.一通りチェックすることにする. /usr/local/teTeX/share/dvips/config/ に kanji.map がないようなので追加するが,結果変わらず.インストール時の my_option を見ると,UTF への iconv による文字変換を有効にしていない.これを有効にして再インストールしてみる.これもダメ.eucに戻したり, Japanese=internatinalはずすとか,いろいろ試行錯誤するがだめ.ふと,思って,my_option を一箇所 utf-8 のみ設定し,再コンパイル,インストール.そしてコンソールでplatex と xdvi を実行してみると,何の文字化けもしない.Emacs + yatex 上でコンパイルし,Emacs 上で xdvi を実行すると,文字化けする! う〜ん,なんじゃこれ. emacs.el でplatex --kanji=utf8 と明示的に指定しても,このオプションは無視している模様.くどいようだが,コンソール上で utf-8 で作成した文書でも,platex utf8text.tex で何の問題もない.yatex の問題らしい...
      • my_option をデフォルト文字コードにして,つまり元の my_option を一切変更せず,make してみる.つまり ptetex のデフォルトは euc .そして,emacs.el 側で,文書が utf8 であるというオプション指定を行ってみる.ptetex が utf-8 を対象としてやっていることは,要するに文字コード変換するだけなのだから,これで良いと思うのだけど.
      • 成功.疲れた.
    • vfdata-morisawa5 を synaptic で一応インストールしておく.
    • お昼.ヨーグルト,コーヒー,お菓子.
  • 午後
    • Ubuntu 7.10 上の XP に Office, Adobe Pro, Visual Studio 2005, Illustrator を豆乳,じゃなくて投入.
  • g++ で c++ ソースをコンパイルするのに
    --input-charset=utf-8 --exec-charset=utf-8
    オプションが必要かなと思っていたが,要らないよう.
  • デスクトップは Gnome のままだが,3D とか使えるらしい.いずれ見てみよう.ただ,重くなるのはイヤ.
  • 16:20 - 18:40 ゼミ.来客あり.
  • 定時帰宅.
  • 23:00 飲むだけ飲んで就寝.

_ 2007 10月25日 (木) 雨

  • 05:45 起床
  • 07:15 研究室着
  • 午前
    • Ubuntu 7.10 インストール.デスクトップ専用なので変則的だが,以下のようにパーティションを切る.
/boot 512MB (509)
/     49549 MB (49549)
/home 197997   (197998)
swap 1998 MB (1998)
   

これを実行して,進もうとすると,

File system doesn't have expected sizes for Windows to like it. Cluster size is 2k(ik exptected); number of cluster is 32043(63962 expected);size of FAT is 126 sectors(250 exptected)

と文句を言ってくる.迷ったが ignore を選んだ.で,Advanced で grub のインストール先に

(hd1,0)

を入力.でインストールを開始したが,途中でハードディスクに不良ブロックがあるとかないとかいって,インストールが止まってしまった... しようがないので,パーティションはお任せモードとして,ただし MBR は変更せず,grub のインストール先を, Advanced で (hd1,0) に入れるよう指定して実行してみる.

  • 一応,無事インストールされた模様.これから Vista のブートローダーをいじる.
    EasyBCD を起動し,Add/Remove Entries → Linux tab
     → Grub,Partiton
      → Add Entry Manage Bootloader → Write MBR
  • Vista を再起動すると,めでたくOS選択画面に入る.しめしめと思い,Ubuntu を選ぶが,立ち上がらん...なぜじゃとおもいつつ.EasyBCD の設定を繰り返してみると,いつの間にか Partition のナンバリングが変わってる.不安だなぁ.しかし,やり直すのも面倒だし,しばらく使ってみるか...
  • [システム]→[システム管理]→[日本語版セットアップへルパ]を実行.TeXは,後で別のパッケージを入れる予定だが,一応,ここでもインストールした.
    % sudo apt-get install anthy-el prime-el
    を実行したら,インストールは成功したようだが,一箇所でMSFont がどーだこーだとエラーを言ってきた.とりあえず無視して,Tex 環境の構築を急ぐ.
    % sudo apt-get install yatex
    インターネットのアクセスが遅い.IP ver.6 がデフォルトになってんじゃないか?どこでチェックすんだ? ロケーションバーに「about:config」,フィルタに「dns」,「network.dns.disableIPv6 」で「切り替え」をダブルクリック→trueに変更,FIrefoxを再起動
  • R を Emacs 上で快適に使うためにsynaptic を使って ess をインストール. ところが,何かインストールしようとするたびに,更新し残している msttcorefonts がダウンロードできないと文句を垂れてくる.こりゃ,なんとかせにゃならん.
  • ところが,こいつ、アンインストールしようにも、この場合もまたまたエラーが出る。抜こうにも抜けない.さらに調べると,http://ubuntuforums.org/showthread.php?t=75413

    I had the same problem. I wasn't behind a proxy or anything, but I had to turn off passive_ftp for wget in /etc/wgetrc

  • これに加えて https://bugs.launchpad.net/ubuntu/+source/msttcorefonts/+bug/147253

    Edit /etc/dhcp3/dhclient.conf Add this line at the end of the file: prepend domain-name-servers xxx.xxx.xxx.xxx, xxx.xxx.xxx.xxx;

    replace the xxx with your DNS's IP addresses. I have two of them. After rebooting, this IP's are added to resolv.conf on reboot, and everything works fine.

    この結果,インストールに成功し,エラーは消えた。これでアンインストールも可能になったのだろうと思うが、今日は止めておく.
  • Springer に校正原稿を送る.
  • お昼.ヨーグルト,コーヒー.
  • 午後
    • TeX をマニュアルインストールし,共存させる.そのために buid-essential, flex, bison, zlib1g-dev, libreadline5-dev, libncurses5-dev, xorg-dev, libxml2-dev をインストール.また my_sample で Japanese=international をコメントアウト.縦組用のフォントのテストでエラーが出る.
  • 16:00 H 氏来訪.昨日の会議について.
  • 18:30 Y 氏来訪.いろいろご都合を承る...
  • やや遅れて帰宅.
  • 23:00 就寝.

_ 2007 10月24日 (水) 晴

  • 05:45 起床
  • 07:15 研究室着
  • 午前
    • 朝一演習.授業参観で高校生が2名やってきた.授業に参加してプログラムを作ってもらった.せっかく作ったのだから,フロッピーを用意し,そこにご本人たちが自作したプログラムを保存してあげる.もっとも,ご本人たちのパソコンにはFD装置がないそうである.おそらくはフロッピーディスクを使ったこともないのかもしれない.う〜ん.FDがない...なんとレガシーフリーな.FDを使おうという発想をする自分が旧石器時代人であるかのような錯覚を覚える...
    • 科研の書類を印刷.プリンタ2台を駆使して,何とか印刷しあげる.両面印刷プリンタが欲しいな.
    • 食事抜き
  • 午後
    • 授業.終わった後工学部でスペシャル 400.目玉焼きのフライ!?鳥のフリッター.カレーコロッケ.
    • 16:00 急ぎの仕事の幾つかは片付いたので、満を持して,DELL に SATA を一台追加する作業を行う.この DELL もレガシーフリーである.すなわちマウスやキーボード用の ps/2 コネクタがない.プリンタ用のシリアル端子がない.よって私の手持ちのプリンタ2台をそのままでは使うことができない!!今は別のLinux マシンをプリンタサーバにして,そこから印刷している...
      • で,DELL の箱を開けてみると,HD取付装置の上の段にデフォルトのディスクが取り付けてある...空きスペースがその下にある.筐体の構造上、上を開けなければ、下には何も突っ込めないようになっている。つまり,上のHDを外してから,2台目を付けろと?ぶつぶつ言いながら,デフォの HD を外す.狭い,取り付けづらい.おまけに SATA の HD は初めてだ.ケーブルと電源コードが,両方ともにやたらと細くて,何だか不安である.HD 側の接続部分も何だかペコペコしているし.マザーボードを見ると SATA1 コネクタを DVDドライブが占領している.DVD ドライブのケーブルが短かったらしい.この短いケーブルをアクロバット的に (Adobe の Reader のことではない),何とか SATA5 コネクタの位置まで引っ張ってつなぎ,新規 SATA HD のケーブルを SATA1 コネクタに接続した.
      • で,Vistaを起動してみると,新規の HD が出てこない.ん? 再起動して BIOS 見ると,ちゃんと認識している.再度 Vista を起動して [コンピューター] を見ても,影も形も見えない.XP でドライブ増設した時もそうだったっけ?と考えつつ,ゴミ箱に入れる直前であったHDのマニュアルを眺める.Vista では[コンピュータ]右クリック[管理][ディスクの管理]を選べと.ムカムカしながら,マニュアルの指示通りにマウスを動かして,認識しているのを確認.Vista で初期化するわけではなく,ここに Ubuntu を入れるつもりなのだ.が,17時から会議があるので Ubuntu のインストールは明日にするか...
      • 17:00 会議(将来構想) 20:00 まで.会議後,H 氏,T氏, S氏らと今後の対応について協議 ..
  • 20:45 帰宅
  • 23:00 就寝

_ 2007 10月23日 (火) 晴

  • 05:40 起床
  • 07:10 研究室着
  • 午前
    • 校正.今日は図版関係.
    • グラフ理論の巡回セールスマン問題 tsp http://www.tsp.gatech.edu/world/index.html で世界 1,904,711 都市を一筆書きで巡る最短経路の上限が 0.068 % とあるのを,原著者から 0.66 %に直すとある.0.068%で正しいような気もするが.
    • 作成した画像が Illustrator C3 で読めるか確認しているのだが,この Adobe 製品,反応が遅い.Core2Duo,メモリ 2GBでも足りんというのか?
    • 9:00 いちおう一通り終わった.付箋だらけになってしまった.明日の仕事の準備をしてから,もう一度見直そう.
    • Visual Studio 2005 VB でのアイコン作成方法を書いた.
    • Amazon から,あなたにおすすめの本として R の基礎とプログラミング技法 を紹介するメールが来てくれる...
    • 11:26 校正終了.終わって晴れ晴れ..
    • お昼.ヨーグルトとコーヒー.
  • 午後
    • 科研書類の見直し.
    • http://www.okada.jp.org/RWiki/ をみたら,「chisquare test をカイ二乗検定は認められん,独立性の検定,あるいは適合度の検定だろう」という趣旨のページがあった.それはそうだ.
    • 定時帰宅
  • 22:00 就寝

_ 2007 10月22日 (月) 晴

  • 06:10 起床
  • 07:40 研究室着(整頓)
  • 午前
    • 校正.明日夕方までには終わらせる.
    • R の基礎とプログラミング技法,Amazonでは週末明けにはいつも品切れしている模様.もっと,どっさり入荷しておいてください.
    • 300ページまで校正を済ませて,お昼.工学部スペシャル.420.カツ,鳥のフリッター,目玉焼き.- 午後
    • 校正,原稿の修正は今日中に終わらせることができそう.
    • 16:10 H 氏来訪.雑談.
    • 17:00 校正完了.後は図版の処理が残っている.疲れた...
    • 図版の作成は,編集部の Adobe Illustrator で読み込めるように作らなければならないので,気を遣う.
    • 通常帰宅
  • 22:00 就寝

_ 2007 10月21日 (日) 晴

  • 06:10 起床
  • 07:40 研究室着
  • 午後
    • 先月,子吹きしたサボテンを切り離したが,五つのうち,三つはカビが生えてしまった.こっちは断念し,残りの二つをしっかりと育てよう.
    • 校正を自宅でも少し行う.
  • 22:30 就寝

_ 2007 10月20日 (土) 晴

  • 06:10 起床
  • 07:40 研究室着
  • 午前
    • Ubuntu-7.10をダウンロードした.torrent 版をDLした.Vista でダウンロードしたのだが,md5sumのチェックにちょっと手間取った.
      • で,Vista 上でダウンロードしたファイルがすぐには見当たらなかった.ソフトが指定するフォルダがない.ファイル検索かけても出てこない.事態が飲み込めず,いろいろ探っていると,何やら「互換性ファイル」というアイコンがある.クリックしてみると,ダウンロード先のフォルダが出てきた.こりゃ,なんじゃ,と思ってグーグッてみて,いくつかのサイトの情報を読んで,呆れた.もう少しユーザーフレンドリーになってはどうか,Micro Soft は.
      • すぐにインストールしようかと思ったが,少し様子を見ようか...
    • ローカルネットワークの DNS が頻繁にダウンする.Mail のスプールが溢れているのか何だか知らないが,学内ネットワーク管理は,素人の先生方ではなく,経験豊富な業者に委託してほしい.
    • 校正に入る.
      • 全域最小木を求めるプリムのアルゴリズムって,無向グラフがインプットだったはず.
    • お昼.乾麺.
  • 午後
    • 校正をひたすら続ける.締切に間に合うだろうけど,なかなか進まないなぁ.
      • 原書で主人公の一人が 完全帰納法 complete induction を物理学の話題と勘違いする場面がある.編集の方が,「電磁誘導electromagnetic induction みたいに」,と補足してはどうかと提案されている.感心する.
    • 午後になって風が強くなってきた.
      • 16:00 校正.ようやく 201ページまで終わった.ただし画像の修正は未着手.残り約150ページ.
      • xn+yn=zn は n > 2 の場合に整数解を持たない」の Fermat は「フェルマ」なのか「フェルマー」なのか?
  • 寒くなったので,少し早めに帰ることにした.
    • 23:00 就寝

_ 2007 10月19日 (金) 雨

  • 06:10 起床
    • 『数学ガール』を昨晩寝ながら読みきってしまった.もう一度読もう.

「... 地球上のあちこちで,膨大な時間の中で,数学者たちはさまざまな問題の解を探し求めてきた.何も見つからずに終わることも多いだろう.でも,探すことは無駄かな? 違う.探さなければ,見つかるかどうか,わからない.やってみなければ,できるかどうか,わからない.... 私たちは旅人だ.疲れることがあるかもしれない.道を間違うことがあるかもしれない.それでも,私たちは旅を続ける」

と,ミルカさん.p.297

  • 「問題の解」ぐらい,一発で変換してくれ, Anthy.何度も使っているんだからさ.
  • 07:30 研究室着
  • 午前
    • Ubuntu 7.10 が公開されている.明日あたり,導入するか.
    • 校正.現在 1/3 まで片付けた.
      • Springer の数学編集部 Y さんのメモに面白いサイトのアドレスがあった.http://tinyurl.com/ 長い URL を短くまとめて,転送してくれるサイトらしいが,便利そう.
      • やれどもやれども,進まん.校正.
    • 11:25 充電
    • お昼.来客と弁当.
  • 午後
  • 帰宅
    • もう一度『数学ガール』から

僕たちはいま,同じ高校に通っている.でも,いつか僕たちはそれぞれの道に分かれていく.いくら共有していても,僕たちの時空間には限りがある.終わりが来る.僕は胸が痛くなる.

... 向こうでは,テトラちゃんがミルカさんに耳打ちしている.やがて,二人はこちらを振り向いた.

何かな? テトラちゃんは,右手を高く上げて,ぶんぶん振り回す. ミルカさんは,静かに右手を挙げる. タイミングをあわせて,二人は指を振る. 「いーち,いーち,にーい,さーん...」テトラちゃんの声. あ.フィボナッチサイン.しかも二人分. 僕は苦笑する. そうだ.確かに限りはあるだろう,確かに終わりは来るだろう.でも,だからこそ,力いっぱい学ぼう.僕たちのコトバ,数学を楽しみながら.

<<数学は,時を越える>>---のだから. 僕は,大きく広げた両手を高く挙げ,二人の数学ガールに応える. ミルカさん. テトラちゃん. また明日,いっしょに数学しよう!

  • 23:30 就寝.

_ 2007 10月18日 (木) 晴

  • 05:30 起床
  • 07:10 研究室着
  • 午前
    • 忙しいというのに,研究室の大掃除をしてしまった.
    • 今日は Ubuntu 7.10 が releaseする日じゃなかったかな?
    • さー,校正するぞ,校正するぞ,校正するぞ!
    • 昼食.ヨーグルト.コーヒー.
  • 午後
    • 12:50 - 14:20 演習.
    • 演習で疲れたので,おやつに,工学部食堂で「親子丼」を頼んでみた.350円.受け取ったのは,得体の知れないものであった.卵らしき黄色いフニャフニャに,ほぐし損ねたシーチキン見たいなものが混ざっていて,真ん中には目にもあざやかな紅生姜が飾ってある.いちおう食べ切ったのだが,美味とか美味でないとか,そういう次元を超えていた.でも,もう二度と頼みません.ちなみに正しい親子丼は「これ」.
    • M君が授業中に質問した cin 関数のオーバーフローの件を調べる.ループだとすぐに不具合が出るから良いけど,そうでない場所で使っている場合,予期しないバグの原因になるね.
    • 16:00 再び校正.
    • 必要があって,メインのマシンの samba を稼働させた.が Vista からアクセスできない.妙だなと思いつつ,設定を見返して,異常なし.SElinux かと思って,Samba 関連を全てを解除したら,無事アクセスできた.ついでに cups の保護も全て外した.さらに,ついでにプリンタの共有を設定した.smb.conf のデフォルトのスプールが/usr/spool/samba/ となっているので,/var/spool/samba/ に訂正する...
    • 18:15 H 氏,続けて T 氏来訪.会議の様子を伺う.
  • 19:30 帰路
  • 21:00 風呂に入りながら『数学ガール』.2,3日おきぐらいに読んでいるのだが,それでも巻末が近い.H 氏とも話したが,地方にいるとバスや電車に乗る機会がない.都会なら,毎日の通勤,通学の電車などで「楽しみ」としての本を読めるのだが,地方に来て,そういう習慣がなくなってしまった.ここ数年は,娯楽とした読んだ本が極めて少ない.それも,確か出張の前後に買い求め,バスの中などで読んだ本ばかりだ.
    • それはそうと,明日かあさってには読み終わるな.
  • 23:00 就寝

_ 2007 10月17日 (水) 晴

  • 05:10 起床
  • 06:40 研究室着
  • 午前
    • 08:35 - 10:10 演習.
    • 科研書類書き.ただ,ひたすらに.もくもくと...
      • お昼前に一通り終わる.
  • お昼.ヨーグルト.コーヒー.
  • 午後
    • 12:50 - 16:05 講義.
    • 16:10 - 17:40 大学院演習.
    • さすがに疲れて,帰宅.
  • 22:30 就寝

_ 2007 10月16日 (火) 晴

  • 05:10 起床
  • 06:40 研究室着
  • 午前
    • 科研書類書き.お昼前に一通り終わる.
    • お昼.ヨーグルトとコーヒー.
  • 午後
    • ひたすら科研書類.
    • 合間に演習.14:35 - 16:05.
    • 17:00 頃,いちおう,二つの書類ともできあがった.これから訂正加えていく.
    • K 先生が顔を出される.八丈島に行かれていたと.さすがフィールドワーカー.
  • 18:40 帰路.
  • 20:30 風呂に入りながら『数学ガール』を読む.数式の展開も気になるが,「僕」とミルカとテトラの展開も気になって,先をちらちら見てしまう.
  • Springer から初校についての確認事項のメール.
  • 22:30 就寝.

_ 2007 10月15日 (月) 晴

  • 06:10 起床
  • 08:30 研究室着.整頓.
  • 午前
    • 今日はやることが多い.まず Springer と初校の校正の打ち合わせ.次に統数研での講演について確認メール.学務関係の会議もある模様.
    • 文献借用申込.ヨハネス・ケプラー宇宙の神秘.
    • Springer にメール.続けて T 大 M 先生にメール.
    • シュガーカットとか言うのをコヒーに入れてみた.小さじ一杯入れたら,しぬほど甘い.
    • 先週末に作成したスクリプトを手直し.
    • Springer 社の数学編集部から送られてきた初校の校正準備にかかる.
    • お昼.工学部.スペシャル400円.もとの値段に戻した模様.メンチかつと鳥の梅フリッター?,目玉焼き.
  • 午後
    • ひたすら校正.
      • アルゴリズムの部分をどう訳すか.find x from X\s with ... ぐらいは,英語のままでもいいような気もするし,s を除く集合 X から ... のような x を見つけよ,と訳した方が親切なような気もするし.
    • 疲れた.科研の書類に移る.
    • 16:30 - 19:00 会議(将来構想)
  • 19:10 帰路
  • 22:30 就寝

_ 2007 10月14日 (日) 曇

  • 6:30 起床
  • 午後
    • Spriger からの初校を眺めて過ごす.意外に朱が少ないなぁと思いつつも,これを一冊目を通すのは大変だなぁとも.
  • 夕食.下の根もまだ乾かないというのに,また飲酒.
  • 22:30 就寝

_ 2007 10月13日 (土) 晴

  • 07:30 起床.飲みすぎた.
  • 08:30 研究室着.整頓.
  • 午前
    • Springer 社の数学編集部より,初校原稿を自宅宛に送ったというメールが昨日のうちに届いていた.携帯にも着信があったようだが,気がつかなかった.締切は10月29日必着.英語の論文締切も今月末だし,忙しくなるぞなもし.印刷原稿の他,原稿の zip ファイルを Springer 社のサーバーよりダウンロード.534.5 MB.ダウンロードもさることながら,解凍にも時間がかかった.
    • Springer の原稿は Shift-Jis なので Vista に Tex + Meadow + yatex 環境を作っておく.TeX は奥村さんの本にある通り作業すればいいのだが,Ghostscript のsetupは自動起動されなかったので,/usr/local/Ghostscript の setup をダブルクリックで実行.
      • yatex を解凍するツールが Vista にはない.gz ぐらいデフォルトで解凍してほしい.解凍ソフト探してと,いろいろ作業していると,ますます Windows に嫌気がさしてくる.
    • 科研の書類を修正.
    • お昼.乾麺
  • 午後
    • Baayen
      • Mixed Models.かなり詳しい説明があるが,分かりやすいとは言えない.『RとS-PLUSによる多変量解析』の方がはるかに分かりやすいだろう.被験者が徐々に実験になれてくることを xylowess.fnc で可視化するなどの手順は興味深いが.データセット lexdec の Trial 変数が何を表しているのか,help を読んでも,よくわからない.
      • p.266 の lmer 関数を実行しようとすると次のエラー.
以下にエラーrbind(Word = <S4 object of class "dgCMatrix">,
Subject = <S4 object of class "dgCMatrix">) : 
	 型 S4 は list ベクトルに変換できません

The problem happens because 'Matrix' defines a (S4) class "correlation" (which inherits from "dpoMatrix"). Hence dim( <correlation> ) is accessing the 'Dim' slot of the <correlation> object --- which obviously must fail for that part of a "summary.lme" object which is not a proper S4 object at all.

  • 原因を特定しようとして,languageR パッケージの一部のオブジェクトを保存して,R を終了してみたが,
Warning message:
'package:languageR' はロード時には使えない可能性があります
 in: save(list = ls(envir = .GlobalEnv, all.names = TRUE),
  file = outfile,  
  • R を再起動したら,勝手に languageR をロードした.厄介なパッケージだ.
  • lme4 をアップデートしてみる.こういう日に限って筑波の CRAN がダウンしている.今日は筑波大学の電気点検とのこと.それで東大 CRAN を試みるが,すると今度は update.packages のエラー.そこで再インストールを試みるも,再びエラー.
glmer.c:190:28: error: マクロ "N_AS_CHM_DN" に
 引数が 3 渡されましたが、2 しか受け取りません
glmer.c: In function 'internal_Gaussian_deviance':
glmer.c:190: error: 'N_AS_CHM_DN' undeclared
                      (first use in this function)
glmer.c:190: error: (Each undeclared identifier is
              reported only once
glmer.c:190: error: for each function it appears in.)
make: *** [glmer.o] エラー 1
ERROR: compilation failed for package 'lme4'
** Removing '/home/ishida/progSource/R/lib/lme4'
** Restoring previous '/home/ishida/progSource/R/lib/lme4'
  • https://stat.ethz.ch/pipermail/r-sig-mixed-models/2007q3/000336.html を参考に,Matrix からインストールしなおした.sessinInfo() をみると Matrix のヴァージョンは "0.999375-0" だが,再インストール版は Matrix_0.999375-3.tar.gz でしかない.続いて lme4 をinstall.packages() で指定すると,今度はコンパイルできた.
  • lmer() がちゃんと動作した.が,疲れた.自分の実験に移る.
  • 自分の実験で何をどこまで片付けたのか,すっかり忘れているので,メモを作成した.
  • 一通りスクリプトはできた.またファイルの作成も完了した.
  • 18:30 帰路
  • 22:00 『数学ガール』を読みながら就寝.酒を飲んで時間を無為に過ごすなど馬鹿らしい,と感じたりしないでもなくもない.

_ 2007 10月12日 (金) 晴

  • 05:30 起床.肌寒い.
  • 07:10 研究室着
  • 午前
    • 科研の書類書き
    • 少し研究に戻ろう.何をしていたっけ.備忘録としてこの日録を書いているのだった.読み直す.
      • Hyper-PoissonnをRで実装する準備をしていたのだった.まだ実験も終わっていないし,結果は英語に直さなければいけないし,こりゃ,今月末の締切に間に合うかな?
    • pukiwiki-mode で時々 Conflict! とでるのだが,で,どうすりゃいいのだ? CVS みたいに,こちらで指定したマージを行ってくれないのか?
    • とりあえず頭の切り替えに Baayen を p.250から眺める.zipfRの紹介がある.
      • R で処理可能なテキスト量について Baayen は以下のような言及をしている.

This is feasible only with texts or small corpora withe less than a million words.(p.252)

For large texts and corpora, frequency spectra should be created by indepent software. (p.253)

  • 100万語のコーパスなんて,ざらなんだが.
  • p.260 の練習問題でコントラストを次のようにセットしていて???と思う.

options(contrasts = c("contr.treatment","contr.treatment"))

  • 10:00 上空をヘリコプターが旋回している.機種はベル206だと思うが,海保のだろうか?そういえば,先週の土曜の朝,大学前の国道で,交差点の信号一つ一つにpoliceが張りついて,何らや電柱につないだケーブルを操作していたけど,関係があるのか.
  • pukiwiki-mode からは添付ファイルの送信はできないらしい.
  • 収集したデータから「有意な差」が出るようにデータを操作することを cherry picking と言う.Baayen, 258.
  • お昼.来客.弁当
  • 午後
    • Baayen を引き続き読み込んだ.
    • ゼミ.
  • 18:40 帰路.
  • 23:00 飲むだけ飲んで就寝.

_ 2007 10月11日 (木) 曇/晴

  • 05:30 起床.肌寒い.
  • 07:20 研究室着
  • 午前
    • 大学院の演習前に科研の書類を書いてしまおうと思う.
    • Linux 上で試作した pdf ファイルを,念のため Windows の Acrobat Reader8で読んでみようと思って Windows を起動し,ウィルスバスターが起動し,そして,ようやくAcrobatを起動し,と,それぞれの過程がそれぞれに時間がかかってくれて,眠くなる.
    • 大学院演習.開始直後,前期出席していた留学生が遊びに来る.
    • お昼.ヨーグルト,お菓子,コーヒー.
  • 午後
    • Vista に KompoZer? を導入.他の操作をしている最中だというのに,突然 Vista が「システム更新のためのパッケージを適用するため再起動してください」とかウィンドウが出て,勝手にカウントダウンを始める.「後にしろ」とクリック.
    • 12:50 - 14:20 演習
    • 再び科研の書類作り.科研の TeX フォーマットを公開してくださっているサイトhttp://osksn2.hep.sci.osaka-u.ac.jp/~taku/kakenhiLaTeX/に感謝. 
  • 18:40 帰路
  • 20:30 風呂に入りながら先月手に入れた結城浩『数学ガール』を読む.この著者はプログラム関係の本で有名だ.私もJavaやPerlなど,かなり持っている.が,個人サイトを見ると,多才な関心を窺い知ることができた.いきなり次のような節があって,自分でも単純で恥ずかしいが,のめり込んでしまった.

    僕は忘れない

    高校時代,数学を通して関わった彼女たちを,僕は決して忘れない.

    エレガントな解法で僕を打ちのめす才媛,ミルカさん.

    真剣な問を投げかけてくる元気少女,テトラちゃん.

    あのころを思い出すと,数式が心に浮かび,みずみずしいアイデアが広がる.数式は,時のへだたりにも色あせることなく,数学者のひらめきを僕に示す.ユークリッド,ガウス,そしてオイラー.

    ----- 数学は,時を越える.

    数式を読みながら,古の数学者たちが感じた感動を,僕も味わう.たとえ,数百年前に証明ずみでもかまわない.いま,論理をたどりながら抱く思いは,間違いなく僕のものだ.

    ----- 数学で,時を越える.

  • 22:00 就寝

_ 2007 10月10日 (水) 晴

  • 06:00 起床
  • 07:30 研究室着
  • 午前
    • pukiwiki-mode.el を使ってみた.便利ではないか.ただ,さすがに数式は表示されない.ディレクティブに間違いがあった場合,firefox だと数式部分だけでなく,頁全体が表示されないので,ちょっと不便ではある.emacs.el の pukiwiki 設定部分を修正する.別に euc-jp-dos でも良いのだろうか?
      pukiwiki-site-list
      '(("users"
      "http://150.59.60.47/"
      nil euc-jp-unix))) 
  • たまに Windows を起動するとウィルスバスターが、パターンファイルのダウンロードだの、インストールだの、再起動するかだの、いろいろ邪魔くさいことをしてくれる.世間の皆様はよく我慢して使っているものだと感心する.
  • 10:25 演習,その後続けて学務
  • お昼.ヨーグルトとコーヒー.
  • 午後
    • 来客.
    • 12:50 - 16:05 授業二コマ
    • Vista に Adobe Acrobat 6 Professional をインストールしたが,起動しない.OSと適合してないらしい.もっとも Acrobat を使うのは,他所様が作成した Office 系の文書を pdf 化する時だけなので,OpenOffice? を入れて,OpenOffice? のpdf 化機能を使うことにする.
    • Visual Studio 2005 で MFC プロジェクトを作り,アプリケーションの種類として「ダイアログ」を設定する.そして Button 等を貼り付けて,これにコードを書くためにダブルクリックすると,Dlg クラスの設定画面が出てきた.以前の .NET 2003 等では勝手に ***Dlg.cpp, ***Dlog.h 等を自動的に作成してくれたのだが,仕様が変わったのか?
      • と思ってもう一度別プロジェクトをダイアログベースで作成し,やはりボタンを貼り付けダブルクリックしたら,今度は聞いてこない.どうも最初の起動時にデフォルトの名前で良いかどうかを確認し,次回以降は,勝手にデフォルトの名前を付けてくれるらしい.
    • 科研書類に取りかかる.二つ書かねばならない.書き出すと,いろいろ都合良く文章は出てくるものである.もっとも,読みやすいとか分かりやすいとかとは別問題であるが.
  • 18:30 帰路
  • 22:00 就寝

_ 2007 10月09日 (火) 雨/曇/晴

  • 06:00 起床
  • 07:30 研究室着
  • 午前
    • Firemacs で検索するのに,何気なく C-g としたらウィンドウ下に検索窓が出現した.
    • 書籍検索:Rの基礎とプログラミング技法が Amazon ではまた新品の方が品切れしているようで,定価の2倍近くもする used が売れている模様.この間,再刷したばかりなのだが.
    • 一般化ポアソン分布のパッケージがCRANにあった.Zero-Inflated Generalized Poisson (ZIGP) Models.中身を調べてみることに.
    • ZIGP だが,ちょっと今の目的には使えそうもない.地道にA Two-Parameter Family of Hyper-Poisson Distributionsを読む.
    • 超幾何,ポアソン,負の二項分布,パスカル分布の名称と実態の関係は分かりにくい.正確には,これらは本質的には同質のものなのだろうが.少し整理する.ドイツの統計学者は,これらをerweiterte Katz-Familie と呼び,また負の二項分布は Hyper-Pascal の m = 1 の場合の特殊なケースであり,いっぽう Hyper-Pascal はkを無限にし,q -> 0, kq -> b の場合にはHyperpoisson に収束するとも述べている(Wimmer/Altmann;2000, p.279, p.449ff).

The family of discrete distributions defined by (6) will ... be called the "two-parameter family of hyper-Poisson distributions"... This name reflects the two facts that the family is a subclass of the three-parameter family of confluent hypergeometircs series distributions and that it in turn contains the Poisson distributions as a one-parameter subclass. (6) Γ(λ)θ2x(1F1[1;λ;θ2])Γ(λ+x)

  • 論文によってパラメータを表す記号が異なるのでやりにくい.特に計量言語学では,二つの区間の差を Altmann 以来 D=Px-Px-1Px-1 D=b-axcx+d とおいてパラメータ a,b,c,d の言語学的意味付けを行っているので厄介である.

E.Kelih & P.Grzybek,2004,p.28

(8) Px=bx+dPx-1

(9) Px=bxdx(1F1(1;d;b))

  • 蓑谷 千凰彦 統計学のはなし を参考にする.p.151からポアソン(ポアッソンと表記されているけど),幾何分布,パスカルについてやや詳しい説明がある.ちなみに著者は「みのたに ちおひこ」と読む.本の内容より漢字の方が難しい.
    • パスカル分布すなわち負の二項分布は以下の式で表され,r=1 の場合,幾何分布に一致する. 

      x-1Cr-1pr-1qx-r , x = r, r+1, r+2, ...

      μ=rp , σ2=rqp2

      Y = X - r として,r 回目の成功が得られるまでの失敗数とおくとYは0,1,2,3... を取るから,

      f(y)=y+r-1Cr-1prqy

      係数は以下で表しても展開すれば同じ

      f(y)=y+r-1Cyprqy

      μ=rqp , σ2=rqp2

  • 読んで正解であった.混合ポアソン分布についての説明をp.186以下に見つけた.前にも英語の論文で読んだことはあるが,日本語での記述は初めてなような気がする.とても簡潔に整理されていて使える.要するに λ を定数ではなく,これ自体がある確率分布に従うとするモデルである.そしてこの λ が尺度パラメータ c の r-1 次のガンマ分布に従う確率変数だとした時,以下のパスカル分布が,混合ポアソン分布として得られる. 

    f(x)=x+r-1Cxprqx ここで未知パラメータ r,p,q だが q = 1 - p である.またパスカル分布の平均と分散の式から,単純には

    p=μσ2

    r=μpq と推定される.

  • 面白い事例がp.192に紹介されているので一部改編の上引用する.

    ある和文タイプストの半日を単位としたタイプ・ミスの度数分布表があるとする.45回の実験において,タイプ・ミス0回の日(半日)は15,1回の日は11...となっている.日によって平均失敗回数は変動する(休み明けの月曜日はミスをしやすく,金曜日は疲労が出てくるなど)とみなした方がよいため,ポアッソン分布よりパスカル分布の方が高い適合度を示します...パラメータmを1個しかもたないポアッソン分布より,2個のパラメータp,rをもつパスカル分布の方が,観測事実を説明しようとするとき伸縮性が大きいということです.

  • 12:00 - 13:00 会議(将来構想)
  • 昼食.ヨーグルトとコーヒーで.
  • 午後
    • A Two-Parameter Family of Hyper-Poisson Distributionsを続けて読む.
    • 演習
    • 本屋さん.6冊を処理.
    • auto.pl スクリプトの確認.実際に動かして,100 冊強のテキストを一気に処理してみる.
      • 見事にこけた.引数からディレクトリ,拡張子を処理するロジックに問題があった.とりあえず手抜き,ad hocな処理を施した.
      • さすがに時間がかかる.しかし,会議に出席して過ごす時間を考えると別に困りもしない.
      [ishida@amd64 ]$ time ./auto.pl euc.list  
      real    5m9.759s
      user    4m56.664s
      sys     0m9.890s
      [ishida@amd64 ]$    
  • またキャンパス内のネットワークがこけている模様.プロではなく,大学の先生たちが研究と遊びをかねて管理しているので仕方ない.
  • 18:20 帰路
  • 帰宅してみたら先月頼んだ Haufigkeitsverteilungen in Texten がドイツから届いていた.何せ,ヨーロッパ人である.日本人の事務的感覚が通用するとは思ってはいけない.届くまで,2,3度の交渉は覚悟していたが,杞憂であった.
  • 22:00 就寝

_ 2007 10月08日 (月) 雨/曇/晴

  • 06:10 起床
  • 07:40 研究室着(整頓)
  • 午前
    • Vistaの右隅に表示されているガジェットだが,東京の天気と温度が表示されている.東京生まれではあるが,現在の東京の天気なぞ関係ない.98の頃からか,Windowsはデフォルトではこんなものが表示される.メモリの無駄のような気がするが,もっともメインで使っているマシンではないので,メモリを喰おうが何だろうが別にどうでもいいので,そのまま表示させておく.
    • ところで VS 2005 の J# 開発プロジェクトで Windows 用アプリとして作成したソフトは,VS や .NET Framework が入っていないパソコン環境でも動くのだろうか?無理かな.
    • M君に教わった Emacs プラグインを研究室のfedoraにも入れた.便利だが,通常の画面で検索するのに ctrl + F が使えなくなった.検索語の入力欄が出てこない.ctrl + S でもないようだし,何に置き換わったのだろうか?
    • 充電
    • Baayen に取りかかる.
      • テキストの語彙増加率や各種パラメータを計算し,グラフィックスにするのに,むかし苦労して自作のプログラムを作成した. p.245 に Baayen の作成したパッケージが紹介されているが,二行で全て済む.以下は不思議な国のアリス
        不思議な国のアリスの語彙成長率と各種パラメータ
        Anthy で「ありす」と入力したら,最初の候補は「アリす」だった.「アリをする」って意図なのか?
  • 昼食.乾麺.
  • 午後.
    • Baayen
    • R でグラフ上に数式を描くのに使われるexpression()関数の使い方忘れた.expression()関数内でオブジェクトを評価させるのは可能だったかな?
      • すぐ思い出した.こういう場合は substitute() 関数を使うのだった.
        x<- 1:10
        plot(x)
        mtext(substitute(x[1] ==  x.swap,
                       list(x.swap = x[1]) ))
      • 数式については demo(plotmath) も参考になる
    • Pukiwiki 形式で表を作成するツールを探す.Excel ならhttp://www.ideamans.com/tool/wikisupportaddin.php があるのだが,Calc 用のがないかなと思っていたら,あった.http://hermione.s41.xrea.com/pukiwiki/pukiwiki.php?Calc2PukiWiki しかしインストールはうまくいかない.モジュールをチェックする必要がある.自分で作るかな.ついでに Emacs 用に pukiwiki-mode.el を導入した.表を作成する機能もたぶんあるのだろうと思うのだが.
    • 解析の準備
      • Hyperpoisson 分布を推定するプログラム作成を始める.とりあえず Hyperpoisson と一般化ポアソン分布の関連を調べる.以下のような pdfが http://www.stat.tugraz.at/stadl/papers/stangrkeschposter04.pdf にあった.一部引用する.

        Im konkreten Beispiel stellt die (1-verschobene) Poisson- Verteilung (1) ein gutes Modell dar; f ¨ur weitere Texte und Textsorten sind jedoch (in den genannten Sprachen) Verallgemeinerungen notwendig wie etwa die Verallgemeinerte Poisson-Verteilung nach Consul-Jain (2) oder die Hyperpoisson-Verteilung (3):

        (1) Px=ax-1(x-1)!e-a

        (2) P1=e-a , Px=a(a+(x-1)b)x-2(x-1)!e-(a+(x-1)b)

        (3) P1=(1F1(1;a;b))-1 , Px=ax-1(1F1(1;a;b))bx-1

  • 18:40 帰路
  • 22:00 就寝

_ 2007 10月07日 (日) 晴

  • 06:00 起床
  • 午前
    • 自宅の core2duo, 1GBメモリにVS2005を導入.インストールとService Pack1 の適用含めて1時間強で終了.研究室のcore2duo, 2GBメモリPCでの作業時間と比べて3分の1だった.なぜだか分からんが,自宅のマシンにはウィルス対策ソフトを導入していないことと関係あるのだろか.ちなみに,起動するたびにWindowsXPから「ウィルス対策ソフトが入っていません!」と警告が出る.セキュリティー対策を自らはせず,他メーカーに譲るところなど,MicroSoft? はとても寛容というか奥ゆかしいというか.でも対策ソフトは入れません.
  • 午後
    • 少し過去ファイルを整理し、こちらへ移行。しかしまだまだ、残っているなぁ。
Vosne
  • 22:00 ワイン (Vosne Romanee Controlee, 2004)と月桂冠を飲むだけ飲んで就寝。
    • ワインボトルの写真撮る際,2年前に買ったデジカメの説明書を初めて眺めた.「夜間の室内の撮影」という頁があったので開いてみると,そこに「ISOは大きめの数値を選び,フラッシュはoffで撮影しましょう!」とか書いてあった.それで,その通りに撮影してみた.確かに明るく撮れたが,これが前よりいいのかどうかは判断つきかねる.いずれにせよ,マニュアルは読まなきゃいかんものらしい...

_ 10月06日 (土) 晴

  • 06:10 起床
  • 08:00 研究室(整頓)
  • 統数研での講演題目はとりあえず「Rと自然言語研究」としておこう.
  • 午前
    • 別マシンの Visual Studio 関係のセッティングの続き.Service Pack1 の適用にやたらと時間がかかる.信じられないほど時間がかかる.しかも進捗グラフが全く動かない.一昨日 core2duo,2GB メモリのマシンで実行したときには 1 時間以上うんともすんとも言わず,何度か中止しようと思った.ただハードディスクへは頻繁にアクセスしている模様(当たり前だが).何が行われているか知らないが,さすが MicroSoft?
      • 3時間経過後,「Service Pack1 の適用に失敗しました」のメッセージ・・・.さすが MicroSoft?.感動のあまり声もでない...
    • Linux の VMplayer 上の XP ではシャットダウン時に実行されるアップデートにやたらと時間がかかる.MicroSoft? にしても遅すぎる.VM上の問題かなと想像する.
    • BaayenAnalyzing Linguistic Data
      • breakpoints をずらしながら回帰モデルを構築し,それぞれの deviance を比較する作業の続き.
      • ロジスティック回帰モデルでのパラメーター数について,p.243 にHarrell 2001 から以下のような判断を紹介している.

        for logistic model, the number of coefficients should be smaller than the total number of observations with the minority outcome, divided by 20

  • 昼食.乾麺
  • 午後
    • Baayen続き.p.243 からは語彙成長率の話
    • 自分の仕事に戻る.とりあえず cabocha の出力から各文の句数を計測するプログラムはできた.これを全テキストにかけて,すべてについてcsvを作成し,さらに R にかける.去年作成した R プログラムを引っ張り出さねばならん.これはバックディスクのfedora5/ishida/daigaku/GakubuKeihiOct06/以下にだろうと思うが,今見たら大量に R のスクリプトがあるな...
      • bun.auto.R というのが,main ファイルで,ここから各種の R スクリプトを呼び出しているらしい.自分で作成したのだが,うろ覚えである.
      • とりあえずメインとなりそうなファイルを phrase.main.R 解析ファイルを phrase.R とする.
  • 18:30 帰路.
  • 22:00 就寝

_ 10月05日 (金) 晴

  • 05:30 起床
  • 07:30 研究室(整頓)
  • 午前
    • Firefox 上で日録を書いているのだが,ついつい Emacs 風のキー操作を行ってしまう.Text欄に書き込んだ文字を cut するつもりで crtl + w をすると,入力を更新しないまま Firefox が終了してしまう.不便なのでキーバインドを変更した.もっとも方法は
      echo 'gtk-key-theme-name = "Emacs"' >> .gtkrc-2.0
      とするだけ.
  • 昨日のプログラム,つまり青空文庫のテキストからコメント類をのぞくプログラムの続き.いちおう完成したので,元ファイルからルビや解説をのぞき,cabocha にかけ,その出力から各文の句数を取り出すという一連の処理を行う bash スクリプトを書いた.
  • お昼.来客で弁当.
  • 午後.
    • Micro Soft Visual Studio 2005 のセットアップを試みる.
      • Vista用のSerive Pack の適用に手間取る.例によって Micro Soft のサイトの説明は分かりにくい.インストールの途中でアップデートを試みたが,「他のプログラムがインストール中だ」と文句をいわれ,やむなく600MB近くもあるファイルをダウンロードしておいた.で,VSのインストールを続行し,MSDNドキュメントをインストールしたら,最後に,「Service Releaseのチェックをしますか」と来た.なら途中では,アップデートが必要だと警告だけでにして,後でインストールできますよとか言ってくれよな...
      • アカデミック・アライアンス版なので他の学内教育用マシンにインストールしても問題ない.それで fedoraにインストールしたVMplayer 上のXPにもインストールした.
      • ついでなので Micro Soft の Developer CD/DVD の整理をした.
    • インストールやらアップデートやらで時間がかかる.終わるのを待つ間BaayenAnalyzing Linguistic Data を参照.
      • 1993 年度のドイツのフランクフルト紙内の記事で言及された「年代」のカウントというデータがある.言及された年代は対数で約 4,真数に直すと約 60 を遡るようになると急激に言及される回数が減っている.これは人間の人生スパンに等しい,あるいは,ほぼこの変曲点は第二次世界大戦開始の年にあたるので,この時代が現代と過去をわける指標と考えられているという仮説は面白いではないか.興味深いのでここにグラフを添えておく.
      • p.234下のコードにはグラフに垂直線を加えるコードが欠けている.
      • 変曲点を考慮して主効果のない,交互作用だけのモデルを構築している.このようなモデルは初めて見た.
    • ゼミ。課題は個々人でソフトを設計する.全体でサイトを構築する.
  • 18:40 帰路。
    ギガル
  • 23:00 wine (Cotes du Rhone, 2001)と月桂冠で就寝

_ 10月04日 (木) 曇

  • 06:00 起床
  • 07:30 研究室(整頓)
  • 午前
    • Vista のセッティング続き.学務関連の雑務.
    • 大学院.
    • 来客.
  • 午後.
    • 演習
  • お昼に工学部.特定420.豚カツとハンバーグ.
  • 19:30 鍋に誘って頂いたのだが,自宅のパソコンのこともあるので帰路.
  • 22:30 酒飲む間もなく就寝

_ 10月03日 (水) 曇

  • 06:00 起床
  • 07:30 研究室
  • 午前
    • M 先生から,統数研での研究集会の概要についてのメールを頂く.一人あたり 1 時間の発表.講演題目を今月中旬までにご連絡しなければいけない.
    • 演習.
    • 昨日作りかけのプログラムの修正に着手.TreeTagger? の chunker の出力をもう少し確認しないといけない.
  • 昼食.今日は長丁場なので食事へ.時間もないので例によって工学部のspecialランチ420. 鶏の梅肉フリッター,豚カツ(もどき),キャベツ(もどきではない).
  • 午後
    • 二コマ続けて授業.
    • 合間にDELLをようやく梱包からだし,セッティングする.19インチ SE197FPフラットパネルモニタなのだが,解像度は最大で1280 x 1024.もっと高解像度だろうと思っていた.Vista 標準のディスク管理でCドライブをパーティションを半分に切る.デフォルトでは半分にしか切れないらしい。初期化CDを繰り替えし使えば,さらに切れるらしいが、面倒。残りの未割り当て領域は,Linuxをインストールし、購入したSATAドライブはバックアップHDとして使おうか.ところでVistaを初めて使うが,勝手が分からない.日本語入力用のショートカットキーが違うようだ。さらにシャットダウンしようとして,どこにメニューがあるかも分からなかった有様.
    • 合間に学務がいろいろ。
  • 18:00 演習。
  • 18:40 帰路。
  • 22:30 月桂冠で就寝。

_ 10月02日 (火) 曇

  • 06:00 起床
  • 07:30 研究室
  • 午前
    • M 先生に統数研での共同研究関係の書類を送信.
    • BaayenAnalyzing Linguistic Data  p.222 から再開.
      • Designパッケージのロジスティク解析用関数 lrm() この出力に anova() を適用した場合も,sequential な Anova 表ではなく,partial effects of the predictors が表示される.それは良いが,出力には Cという指標がある.Cohen のCと関係はなさそうなのだが(確認すべし),0.5 < C < 1.0 の範囲であれば,モデルのpredictionは信頼できるということらしい. 例によってモデルはブートストラップ法により診断.

        validate(regularity.lrm,bw=T,B=200)

  • p.225 Shrinkage を発見するための Penalized Maximum Likelihood Estimationを Design パッケージの関数 pentrace() で実行する方法の説明あり.
  • 統計学とは関係ないのだが,面白い仮説がある.

    Irregular verbs also tends to be more frequent than regular verbs, and it is reasonable to assume that this high frequnecy protects irregular verbs through time against regularization.

  • Ordinal(ordered) logisitic regression が取り上げられているが,summary() の出力は分かりにくい.また説明の文章もやや不適切な気がする.が,p.232 には Proportinal Odds Model の説明と,その仮説検定の方法の紹介があり参考になる.
  • 事務から専門分野を尋ねられた.科研とは違う分類表で,良く確認しなかったが,なんちゃら情報学が含まれる「その他」 9993 を指定.
  • お昼.ヨーグルトとお菓子,コーヒー.
  • 午後
    • 独文の chunking に TreeTagger? の tagger-chunker-german を試してみるが,遅い.全く実用的ではない.と思ったら,どうも日本語環境で実行しているため,一部の記号を解釈できずにフリーズしているらしい. 手っ取り早くはコンソールで
      export LC_ALL=C
      export LANG=de_DE.iso8859
      を実行しておくことだが.問題となるのは iso-8859-1の 2進法で1011 1011と 1010 1011,16進法では 0xBB と 0xABにあたる « と » である.文字実体参照 HTML3.2で言うと &laquo; あるいは &#171; と &raquo; あるいは &#187;である.これを処理するPerlのプログラム,前に作ったな.どこに保存してあるっけ.とりあえず/\xBB/ や /\xAB/ を使えば補足はできることはできるが.
    • 14:35 講義
    • 15:30 遅ればせながら日本統計学会の年会費を納める.
    • 17:00 九天社から,武田製薬統計解析部舟尾先生の「Rで学ぶデータマイニング II --シミュレーションの視点から」の献本が送られてきた.ご本人にお礼のメールをお送りする.
  • 18:30 帰路.
  • 20:00 断酒就寝.

_ 10月01日 (月) 晴

  • 06:00 起床
  • 07:30 研究室(整理)
  • 午前
    • TreeTagger? だが,改めて研究室の Fedora にインストールしてみると,なんの問題もなく動く.全く同じ手順を行ったのだが,Debian系のUbuntu ではパスの設定が違うのかな?
      • 帰宅後、もう一度調べた。まず Ubuntu には gawk がデフォルトでは入っていない。さらにfilter-chunker-output-german.perl の上のパスが /usr/local/bin/perl となっていた。しかし,これはインストーラーが自動設定するようになっているのではないか? Fedora でインストールした場合は /usr/bin/perlと設定されている。 ところが install-tagger.sh を開いてみても,perlのパス設定の記述はない。う〜ん、なぜか分からないが、 (誤解であった.fedora にインストールしたファイルでも /usr/local/bin/perl となっていた.) とりあえずこのファイルのパスを修正することで、うまく作動するようになった。
    • 新しい日録ページを用意した.カウンタは表示ページごとに設定されるみたいで,リセットした数値が表示されている.別にいいけど.
    • BaayenAnalyzing Linguistic Data
      • GLM 一般化線形モデルの説明に入る.始めにロジスティック回帰分析.欧米の社会科学や言語学では WikiPedia:VARBRUL というソフトが使われているらしいが,私は良く知らない.無論,Baayen の本では R が使われる.
      • p.214には,例によって実験言語学からのデータ.30人の被験者に文字列を示して,それが正しい単語だと認識できればボタンを押すという実験らしい.割合を説明変数賭する場合の問題として,"proportions have the property that the variance increases with the mean"と付記されている.それは良いのだが,glm()関数による分析例で,13ページも前に作成したオブジェクトが再利用されている.そこを読んだ時,面倒だったので,実際の操作は省いちゃったよ.
      • p.215 に deviance residuals の説明登場."...,they need not follow a normal distribution..."
      • 高齢の被験者の方が正当率が高い(若い被験者のロジットの係数がマイナス)という結果出ていて,「そうなの」と思ったら,反応時間がずっと遅いということらしい.
      • Design パッケージの lrm() 関数によるロジスティック回帰分析の例がある.
      • p.218 にも anova() の出力と lm() の出力の違いが説明されている.ここでモデル式に変数を投入する順番が重要なことが説明されている.p.183 の説明を参照(他に p.192).

        "Each succesive row in a sequential ANOVA table evalues whether adding a new predicter is justifiled given the other predictors in the preceding rows. By contrasts, the summary() function evalutes whether the coefficients are signficantly diferrent from zero in a model containing all other predictors."

  • さて,p.219の説明はとても重要だと思うのだが,原書は舌足らずなので,ちょっと補足して引用する.

    "The second function of anova() is to allow us to evalute the overall significance of factors. When a factor has only two levels, the test for the (single) coefficient based on the Z-score in summary() is very similar to the test in the anova() function when relevant factor is entered last into the model equatation. But when a factor has more than two levels, the table of coefficients in summary() lists a t-values or a Z-score for each coefficients. In order to assess whether the factor as a whole is explanatory, the anova() table is essential"

  • 午後
    • 12:00 会議(将来構想)
    • 13:10 会議終了.昼ご飯に工学部へ.特定420.メンチカツと鳥のフリッター,目玉焼き.
    • 14:30 まで雑用.
    • Baayen.
      • データセットから標準化された残差が -5:5 を越える観測を除外する方法.なんだ,これでいいのか.
        data[abs(rstandard(data.glm )) < 5, ]
    • 15:00 来客.本日の会議について善後策.
    • 15:30 別研究室を訪問.学務に関してご相談.
    • 16:20 戻る.
    • Baayen 再開.
      • Design パッケージによる解析の引数 x = T, y = T の意味を調べようと,本を探したが,p.205 で説明もなく使われていただけ.結局,ヘルプを引いた.
    • 16:40 来客,履修関係.17:00 にも来客.こちらは本日の会議について.
    • 18:00 T 大 M 先生よりメール.共同研究の書類について.
    • 18:40 帰宅
    • 22:00 断酒就寝
 
添付ファイル: filewine1030.png 300件 [詳細] filebaayen246.png 640件 [詳細] filewine20071007.JPG 675件 [詳細] filewine20071005.JPG 627件 [詳細]
Last-modified: 2007-11-10 (土) 22:07:36 (3967d)