日録2007_12月 のバックアップ(No.19) - アールメカブ

アールメカブ


日録2007_12月 のバックアップ(No.19)


過去の日録

新刊です. 『最短経路の本』シュプリンガー・ジャパン

最短経路の本ーレナのふしぎな数学の旅

_ 2007年 12月7日 晴

ー 朝9時の飛行機で東京に出発。10時半着。神田松屋で、お銚子にそばと天丼。秋葉原へよって赤坂のホテルに。その後、統計数理研究所へ。終了後、赤坂プリンスのレストラン。メニューは

_ 2007年 12月6日(木) 晴

  • 06:00 起床
  • 07:30 研究室(整頓)
  • 午前
    • 統数研に書類を返送.
    • 今日も Ubuntu のアップデートが24個あった.
    • あー,統計関連の英語メールが読まないままに溜まっていく...
    • 明日から東京へ出張する.東京生まれの東京育ちなのだが,その後地方暮らしが長く,何となく東京に出るとなるとキンチョーする.東京メトロの路線図など眺めてみる.この歳になって親に車で迎えに来させるというのもあれだし.
    • Dickens の六つの長編小説をつなぎ合わせた約166万語のテキストをトークンにして,ベクトルオブジェクトにするという処理を R でこうしておこなうと6秒強かかる.同じ処理をJavaのStringTokenizerクラスとVectorクラスを使って行うと1秒程度.
    • 教えて君のために,繰り返しのない二元配置分散分析の計算手順をRで実行したソースを作成
    • お昼.乾麺
    • Springer から電話.最終確認について.
  • 午後
    • 12:50-14:40 演習
    • ついでなので C++ でもテキストのトークン化とベクトルオブジェクトの作成を行って時間を測ろうと思ってプログラムを組んだ.コンパイルしようとしたらboostがないとエラー.Synaptic でさっそくインストールした.実装がストレート過ぎるせいか,Javaヨリも遅い...
    • 新たにレポジトリ作成
      local$mkdir Program/trunk branches tags
      local$ ssh -l mi 127.0.0.0
      server$ svnadmin create /usr/local/ubuntu/research/Program
      server$ exit 
      local$ svn import -m "from Ubuntu New Program Dir"  
         /home/mi/research/Program 
         svn+ssh://127.0.0.1/usr/local/ubuntu/research/Program
      local$rm -Rf Program
      local$svn checkout 
        svn+ssh://127.0.0.0
        /usr/local/ubuntu/research/Program/trunk Program

_ 2007年 12月5日(水) 晴

  • 06:00 起床
  • 07:30 研究室
  • 午前
    • 朝一で Ubuntu のアップデートが23個もあった.ほとんどが OpenOffice? 関係.
    • 朝一で演習
    • スライド見直し.本当は,自分でパッケージでも作成して,その話でもした方が喜ばれるんだろけど,私のところでは,「ソフト」は業績にしてもらえないので,いまの立場では,どうしてもソフト開発の優先順序は下がってしまう. たとえ,せこい内容であっても,論文として発表したほうが,ここでは評価されるし.
    • お昼.乾麺.
  • 午後
    • 古いマシンの第二ハードディスクからcorpus2006というディレクトリをまるごとコピーした.ここには,各種解析関係の自作 java あるいは Perl プログラムがある模様.
    • makeBase.plという自作のPerlスクリプトがあったので,なんじゃらと思って実行してみたら,基礎的な言語解析と,他プログラムへの入力となるファイルを全部作成してくれた.一応,チェックしよう.
    • makeBase.pl .我ながら凄いの作ってるなぁ.このうちPerlで作成した分については,以下を付記して,UTF-8化しておこう.
      use utf8;
      binmode(STDIN, ":utf8");
      binmode(STDOUT, ":utf8");
      use open ':utf8';
    • ブログ地図BLOGRANGER TGって面白い.要するに自己組織化マップだ.
    • 先月はじめにドイツに発注した離散分布に関する古書がまだ届かない.向こうは航空便で送ったといっている.確認のメールを送ったら,税関で止められているのではないかと言ってきた.税関でチェックされるの?
    • 18:00-19:30 大学院
  • 通常より遅く帰宅し,一杯やって通常より遅く就寝

_ 2007年 12月4日(火) 晴

  • 06:00 起床
    • N軒屋の立ち番確認
  • 07:30 研究室(整頓)
  • 午前
    • 教えて君.出張前に弱ったな.
    • スライドの最終調整終了.
    • さて,一ヶ月位前から中断していた作業を再会するかな.しかし,そもそも何をしていたか,あまりよく思い出せない.当ブログを検索して探すか.
      • TreeTagger? の出力を編集し,Rに取り込むプログラムを作成予定だったのだ.ここ数年書いてきたプログラムコードを収めているmyprogramディレクトリを見てみたら,大量のファイルとフォルダがあって,ゲッソリ...
      • 最初から整理しようか.えーと,目的はドイツ語テキスト解析で,ドイツ語テキストを扱うのは,これが最後にするつもりと.
      • 大昔に書いたプログラムメモがあった.my2006Corpus.html.無いよりはマシという感じで,眺める.
      • TreeTagger?は,句の単位に分割するには
tagger-chunker-german  kafka.iso.txt > kafka.iso.kekka
  • 単語単位に分割するには
tree-tagger-german kafka.iso.txt > kafka.iso.kekka
  • お昼.クーとか言う妙な食堂に行った.1500円.
  • 統数研から講演の振込関係の書類が届いた.
T1N <- length(T1)
T2N <- length(T2)
T3N <- length(T3)

CT <- (sum(T1,T2,T3))^2 / sum(T1N,T2N,T3N)
SST <- sum(T1^2,T2^2,T3^2) - CT
SSW <- sum(T1^2,T2^2,T3^2) - (sum(T1)^2/T1N +
      sum(T2)^2/T2N + sum(T3)^2/T3N)
SSB <- (sum(T1)^2/T1N + sum(T2)^2/T2N 
    + sum(T3)^2/T3N) - CT

もちろん,普通は aov() 関数を使って解きます.

  • ps/2 -> USB 変換ケーブルが届いた.さっそく使ってみる.マウスとキーボードを,パソコン側では一つのUSBにつなげる.満足.
    • 快適なんだけど,結局,DELLオリジナルのペコペコキーボードに戻してしまった.慣れというのは恐ろしい...
  • TreeTagger? の出力に戻る
    • 素直に解析すると,
      tree-tagger-german kafka.iso.txt 
      &#187;	$(	&#187;
      Was	PWS	was
      ist	VAFIN	sein
      mit	APPR	mit
      mir	PPER	ich
      geschehen	VVINF	geschehen
      ?	$.	?
      &#171;	$(	&#171;
      dachte	VVFIN	denken
      er	PPER	er
      .	$.	.
      と言う結果になる.$を含む行は記号類と判断してよろしいか?また,こっちは
      tagger-chunker-german  kafka.iso.txt
      &#187;	$(
      <NC>
      Was	PWS
      </NC>
      <VC>
      ist	VAFIN
      </VC>
      <PC> 
      mit	APPR
      mir	PPER
      </PC>
      <VC>
      geschehen	VVINF
      </VC>
      ?	$.
      &#171;	$(
      <VC>
      dachte	VVFIN
      </VC>
      <NC>
      er	PPER
      </NC>
      .	$.
      どっちが出力として扱いやすいというか,便利というか...
  • やっぱり後者の出力を使って,一度に得られるだけの情報を得るというのが普通だろうなぁ.
  • Gutenbergのドイツ語系テキスト には,ISO-8859-1によるテキストファイルと,ウムラウト類を &auml; に変換したhtmlファイルの2種類があるのだが,自分の UTF-8環境で一番トラブる可能性がより少ないのはどちらだろうか?
  • ウムラウトの処理などのための役立ちそうなpdfファイルを見つけた.
  • 定時帰宅,定時就寝

_ 2007年 12月3日 (月) 雨のち曇

  • 06:00 起床
    • 兄弟と思しき小学生二人が登校していた.二人とも透明のビニール傘をさしている.自宅から出てきたはずと思うのだが,黄色い通学傘とか,そんなものをさしていても良さそうな気がするのだが.ビニール傘はないだろう.大きなお世話であるが...
  • 07:30 研究室(整頓)
  • 午前
    • スライド作り直し.冗長な部分多すぎ.削れ,削れ!
      • そうとう思い切って削った.今度は時間が余りゃしないか?
    • お昼.乾麺
  • 午後
    • Springer から新刊の発行部数の連絡.さすがにR本よりは多いな.
    • スライド見直し終了.これで,まあ,いいだろう.
    • 名刺作ろう.
      • Canonの古いインクジェットプリンタを使っているのだが,初回の印刷時は,ガチャガチャ激しくウォームアップをやってくれる.
      • 作成した名刺を印刷してみると,何となくいまいち.モニタ上の色合いとかなり異なる色で出力されていたりする.まあ名刺そのもののデザインが問題なのではなく,プリンタの問題だということにしておこう...
      • 名刺は自宅のプリンタで印刷した方が良さそう...
    • 15:00 スライドの口頭部分を抜き出して印刷.結局一日かかった.
      • 作成されたpdfの容量は約800KB.まあ,こんなものかな.アニメーション効果をもう少し検討しても良いかもしれない.もっともprosperで利用可能なのは Split Blinds Box Wipe Dissolve Glitter Replace だけで,最後の Replace というのは,確か何もしないということだった.
  • いま気がついた.今日は私の誕生日ではないか.あー,歳喰った.
    • 早めに帰ってワイン空けよう.
    • 少し前に図書紹介で,数理心理学とか言う本があったと思うのだけど,Amazonで検索して出てきた「数理心理学―心理表現の論理と実際 (心理学の世界 専門編 16) (単行本)」 というのは,違う気がするなぁ.確か,以前学会でお会いした時,鋭い質問を寄せてくださったC大学のC先生が書いていたように思うのだけど,こちらで検索しても出てこない.おもしろそうだなと思ったら,その場で発注しておくべきだった.
      Volnay Clos Des Chenes
  • 定時より早めに帰宅
    • 自宅でスライドチェック.また名刺を作成.
  • wine Volnay Clos des Chenes 1966, No.0259*
  • その他,白鶴など飲むだけ飲んで,遅れて就寝.

_ 2007年 12月2日 (日) 晴

  • 06:50 起床
    • プレゼンを一通り眺めてみた.長い.長すぎる.
  • 飲むだけ飲んで定時就寝.

_ 2007年 12月1日(土) 晴

  • 06:00 起床
    • 12月になってしまった...
  • 07:30 研究室着 (整頓)
  • 午前
    • 昨日の業務日誌で触れた生態学会とは別に,やはりRの講習会が,さる学会でも実施される模様.まだまだユーザーが増えていくのは確実だと思われるので,来週の統数研での報告が終わったら,改めてRの仕事に手をつけるかな.
    • T 氏来訪.雑談
    • お昼.乾麺.
  • 午後
    • 統数研での発表に関連して tm パッケージを再度チェック.tmパッケージには Reuters-21578 のサブセットが含まれているが,そのサイズをチェック.tmパッケージを作成したFeinererは,Reuters21578のサブセット,約1,700の文書を対象にカーネルストリングを計算している.その実行にRを使っているわけだが,その計算時間が2時間だったそうな.
    • スライド完成.46枚.これで約40分何とかなるかな?
    • 冷蔵庫に残っていたヨーグルト食べた.賞味期限が11月13日であった...発酵食品だから問題ないと自分に言い聞かせる.
    • スライド微調整.一部のタームの字体を変えたり,文字色を黄色くしたり,赤くしたり.ついつい色をつけすぎて,何だかゴタゴタしたスライドになってしまうのが落ちなのだが...
    • prosper で作成したTeXソースをスライド部分と,そのコメント部分に分けるperlスクリプトと,処理を一括するbashスクリプトを作っておいた.
    • 何気なくこういうPukiwikiページを見ていたら, CRF(conditional random field) による日本語解析についてのわかりやすいプレゼン資料(ppt)を発見した.CRFについては,9月の行動計量学会の際に,ゲノム科学研究所の樋口さんに教えてもらっていた.
    • またConditional Random Fieldsを用いた日本語形態素解析(解析)と言う論考もある.以下はそのレジュメの引用である.

      本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.

  • これをRで実現するには,どうするかなぁ.
  • うーーん,勉強しなければならないことが山ほどあるのに,自由に使える時間はわずかしかない.
  • 定時帰宅,やや飲みすぎて就寝.