日録2007_12月 のバックアップ(No.54) - アールメカブ

アールメカブ


日録2007_12月 のバックアップ(No.54)


過去の日録

新刊です. 『最短経路の本』シュプリンガー・ジャパン

最短経路の本ーレナのふしぎな数学の旅

_ 2007年 12月27日(木) 晴

  • 06:20 起床
    • 07:40 研究室着
  • 午前
    • pukiwiki.el は使いにくいので,最近では素直にブラウザを使って入力している.そこでFiremacs プラグインを導入した.
    • Bayesian Computation with Rをとりあえず読み進める.

_ 2007年 12月26日(水) 曇

  • 06:20 起床
    • 意味なく二日酔いぎみ.
    • 07:40 研究室着(整頓)
  • 午前
  • 午後
    • ひたすらベイズ.
    • 生協におやつと切手を買いに行ったら,新刊書コーナーの目立つところに『最短経路の本』が飾られていた.
    • Albertの2章に入ったが,アメリカンフットボールのスコア?についての例が出てくる.アメリカンフットボールのルールをまるで知らないので,こういう例は弱る.
      • 同じく平均が既知(0)で分散が未知の場合の,分散の尤度関数がサクッと与えられているけど,それで済むのかな?渡部p.113などは,ちゃんと導いているけど.
  • 定時帰宅,定時就寝

_ 2007年 12月25日(火) 曇

  • 06:00 起床
    • 07:30 研究室着
  • 午前
    • 研究補助費を獲得したのは良いが,信頼して仕事を任せられる大学院生が周りにいない.
    • yahooのトップページ上部のクリスマス向けアニメは,サンタがスムーズに移動したりして,よくできてるなぁ,と感心しつつ,何気なく右クリックしたらやっぱりFlashであった.去年もあったのかもしれないが,前は64ビットマシンだったので,動かなかったであろう.
    • 10時より会議(将来構想).暮れになってご苦労様なことです.その間, 充電.
  • 午後.H氏と近所のカレー屋.ここも客がタバコを吸うのを黙認するから困るのだが,他に近場にまともな食べ物屋はないし.タバコなんざ500%位税金をかけたら良かろうと思うけど.
    • Rizzo の Statistical Computing with R を眺めると,11章が数値計算に当てられている.ここに John F. Monahan の Numerical Methods of Statistics がexcellent resource for statisticians with limited background in numerical analysis とあったので,ちょっと高かったけど,これをさっそく発注する.
    • 統計学の専門家には自明であっても,学生には通じっこない略語.Rizzoを例に. 
    1. cdf : cumlative distribution function, p.21
    2. pmf : probability mass function, p.21
    3. iid : independent and identically distributed, p.25
    • Rizzoはまたゆっくり見るとして,ベイズを少し.Jim Albert Bayesian Computation with R を始めから読み始める.またLearnBayess_1.0.tar.gzパッケージをインストール.すると,次のような警告だかエラーだかが大量に出るのだが,一応動く模様...
Note: unmatched right brace in 'bayes.probit' on or after line 16
  • 位置母数尺度母数についてグラフィカルに説明した和書を,つい最近読んだ気がするのだが,思い出せない...渡部洋『ベイズ統計学入門』ならp.45だが,これ以外,最近手に入れた本であったはず.
    • 見つけた.中妻著 『入門 ベイズ統計』p.92-93であった.

      ...図4.1の上段ではσを1に固定し,μを0,-4,4と変化させています... しかし,山の形そのものは変化しません.ただ分布の山の位置が変化するだけです.このようにμは分布の山の位置を決定するパラメータなので,位置パラメータ(location parameter)と呼ばれます.一方,図4.1の下段ではμを0に固定し,σを1,2,3と変化させています.この場合は分布の山の位置はそのままで分布の広がりだけが変化しています.σは尺度パラメータ(scale parameter)と呼ばれます.

  • Albert p.23.ベータ分布に基づく仮説のアップデートの説明は結構なのだが,メディアンが.3,90%信用区間が .5 未満となるパラメータは,試行錯誤で a = 3.4, b = 7.4 は読者にちょっと不親切では?
  • p.23で ベータ分布の確率密度関数の二つのパラメータは,分母で,それぞれが+1されるので,ややっこしい. "the beta with kernel proportinal to ..."の部分は,とりあえずカーネルが...に比例するベータ「分布」と訳しておこう.
  • 新納 著『Rで学ぶクラスタ解析』が届く.なかなか良さそう.
  • 定時帰宅,意味なく深酒してやや遅く就寝.

_ 2007年 12月24日(月) 晴

  • 06:20 起床
  • 午後
    • W-Zero3の呼び出し音は小さいので,身につけていない場合,着信があっても気がつかない.そういうことが何度かあったので,もともとの音が大きいmp3ファイルを用意した.フリーで公開されている黒電話のmp3を拾って,超驚録とかいうソフトで,音量の効果を300%程度に設定し,W-Zero3に保存した.これぐらい大音量なら,他の部屋に置いてあっても聞こえるかな?
    • 「確率モデルによるWebデータ解析法」の潜在的意味インデキシングの項.L2行列ノルムというタームが出てくる.要するにフロベニウス・ノルムなのだが...
      • L1ノルムはベクトルの各成分の絶対値の和.L2ノルムとは、ベクトルの各成分の自乗の和
    • 金谷健一『これなら分かる応用数学教室』のコラムの学生と教師のやりとりは,なかなか面白かったりする.
    • Rでstring_Kernelのため,Lodhi の文献を読む.誤植が結構あるなぁ.
  • 定時帰宅
    • 帰宅してみたら,G.Wimmer & G. Altmann: Thesaurus of univariate discrete probability distributions が届いていた.確かに航空便扱いになっているようだが,日本まで1ヶ月かかるって言うのはどういうこった.中を開くと,多数の離散分布の確率分布の式が延々と載っているが,パラメータの推測などについてはまったく記載なし.期待はずれ.とんだクリスマスプレゼントである.
  • 定時就寝

_ 2007年 12月23日(日) 晴

  • 07:20 起床
    • 大学全体がネットワークを止めている模様.
  • 少し飲みすぎて定時就寝.

_ 2007年 12月22日(土) 雨

  • 06:00 起床
    • 07:20 研究室着.部屋の大片付けを9時頃までしてしまった.
    • 経費でMacBook?を5台買うことに.黒か白かという楽しい揉め事?あり(笑).私は今ノートパソコンを持っていないので,何でもいいです.
    • お昼.乾麺.
  • 午後
    • 午前の片付けの疲れか,なんとなくボーとして過ごしてしまった.
  • 定時より遅れて帰宅,やや飲みすぎて就寝.

_ 2007年 12月21日(金) 曇

  • 06:00 起床
    • 今日が今年一番で寒いような気がする
  • 07:10 研究室着(整頓)
    • 今日は先々週の週末出張の代休日.
  • 午前
    • Peter Lee の Bayesian Statistics: An Introductionを来年の大学院授業で使ってみようと思う.手もとにあるのは初版なので,最新版を発注する.
    • 昨日に引き続き,「確率モデルによるWebデータ解析法」に目を通す.
      • bag of words という概念を説明するのに適切な表現がなかったのだが,この本に端的に「ドキュメントのベクトルがタームの並び替えに関して不変である」と言う説明があった.今後援用しよう.
    • 午前.来客と外食.
  • 午後
    • 早くからゼミ.みんゴル.
  • 定時帰宅,定時就寝

_ 2007年 12月20日(木) 晴

  • 06:00 起床
  • 07:20 研究室着(整頓)
    • 今日は先々週の週末出張の代休日だったかもしれない.
  • 午前
    • RjpWiki に『最短経路の本』の本の紹介を書いてくださった方がいる.光栄なのだが,前に誰かがK先生のご著書の紹介を書いた投稿について,自作自演と中傷されていたこともあるので,ちょっと心配.
    • さて仕事を再会するぞ.
    • 森北出版の確率モデルによるWebデータ解析法を読む.斜め読みできるかと思っていたら,最初の方に割合にしっかりした数学的な説明があった.それなりに腰を落ち着かせて読む.
    • お昼.乾麺
  • 午後
    • べき乗分布,つまりZipfの法則についてこんなサイトを見つけた.
    • ゼミ.みんゴル...
  • 定時より遅れて帰宅し,遅れて就寝

_ 2007年 12月19日(水) 晴

  • 06:20 起床
    • 粗大ゴミを出して,出勤
    • 07:40 研究室着
  • 午前
    • この間に溜まったメールだの,手紙などのチェック
    • いくつかの書類を提出
    • 突如,教えて君がやって来たのだが,さすがに今は対応できず
  • 午後
    • お昼は抜き.不在の間にだいぶ仕事が溜まっていた.
    • H氏,T氏来訪.学務について
    • 廊下で数学のO氏とバッタリ会う.ちょっと話し込む.
  • 定時より遅く帰宅(整頓)

_ 2007年 12月18日(火) 大阪 晴

  • 07:00 起床
  • 午前
    • 梅田周辺を散策
  • 午後
    • 阪急インターナショナル Malmaison で昼食.
    • 適当に散歩
    • 15:10 バス.道路が相当込んでいる
    • 16:20 自宅着
    • この出張中に中妻著 「入門 ベイズ統計」に一通り目を通した.前に文句も言ったが,役に立つ本だと思う.
  • 22:00 疲れきっていて,酒も飲まず,そのまま就寝.

_ 2007年 12月17日(月) 晴

  • 07:00 起床
  • 午前
    • 11時のバスで大阪へ発つ
    • 車中で中妻著 「入門 ベイズ統計」を読む.
  • 午後
    • 13:30 大阪着.その後仕事に
    • 夕食.阪急インターナショナル25F Malmaison
  • 12:30 頃就寝

_ 2007年 12月16日(日) 晴

  • 07:00 起床
  • 午前
    • 明日から出張なので,その準備
  • 適当に酒飲んで就寝

_ 2007年 12月15日(土) 晴

  • 07:30 起床
  • 09:00 研究室
  • 午前
    • 昨日飲みすぎた模様.気分が悪い.自業自得であるが.
    • お昼.乾麺
  • 午後
    • 少し調子が出てきた.
      • とはいえ,すでに夕方になってしまったが,結局,ここまでまるで何もしていない.
    • ドイツから図書が届かない件について,ドイツの古書店から,発送した郵便局に問い合わせるとの返答が来た.こちらも来週には大阪国際郵便局に問い合わせをしてみよう.
    • 昨日の忘年会で話題になった,方言の形成をシミュレーションするという話題.試しにgenetic algorithm dialectsをキーワードgoogleしたら,IEICE transactions on information and systems,Vol.E83-D,No.12(20001225) pp. 2183-2185 にChinese Dialect Identification Based on Genetic Algorithm for Discriminative Training of Bigram Modelという論文があった.さっそく取り寄せたいが,学内に所蔵しているところがあって,かえって面倒である.学外なら日数はかかるが,メール一本で取り寄せられるのだが,別研究室所蔵の本は,あれこれやりとりが必要で困る.たった3ページなんだが...と,電子ジャーナルがありやしないかと思って,探したらあった.アクセスして入手した. ほかにLivingstoneのサイトではいくつかの論文がダウンロードできる.特にThe Evolution of Dialect Diversityというのは面白そう.また ここにある,Computational Modelling of Evolution of Languageというのも,少しずれるが,面白そうではある.

_ 2007年 12月14日(金) 晴

  • 06:00 起床
  • 07:30 研究室 (整頓)
  • 午前
    • 書類作り.
    • お昼.来客と外食
  • 午後
    • ゼミまでの間,買いだめしておいた本を次々と眺め回す.
      • のつもりだったのだが,学内業務であれこれメール書きやら書類書き.
      • で,急遽,忘年会ということになった...
    • 18:30より忘年会.出席者は言語学系でK先生,S先生,情報科学系でA先生,H先生.そして私.場所はKさん行きつけの焼鳥屋.11:00位まで楽しく騒ぐ.S先生が,言語伝播について,ある方言体系と別の方言体系が接触して,そこに新しい方言体系ができていくというのが,基本的には国語学で今も信奉されているが,そんなうまい話があるだろうか,自分は常々疑問に思っていていろいろ反論を言ったり示したりするのだが,トンでも学説扱いされると.私からすると,言語現象をそんな単純明快な理論で説明しようとする方がトンでも学説でしょうと応じた.ただ過去に方言が生成されていった様子はもはや調べようがないので,むしろコンピューター上で現在の方言地図が生成されていく様子をシミュレーションしてみる方が,よっぽど科学ではないかと.欧米の言語研究では実際に行われているはずだが...
  • 深夜に帰宅.倒れるように就寝.

_ 2007年 12月13日(木) 曇

  • 06:00 起床
    • N軒屋に立ち番はいなかったが,途中パトカーとすれ違った.多分,立番だろう.あちらが出る時間が私の出勤以降のようなので,もうカウント止める.
  • 07:30 研究室 (整頓)
  • 午前
    • 朝の片付けを少し過ぎた.腕やら腰やらが痛い...
    • 昨日のD大K先生の問い合わせと関連して,Windows版Rにおけるロケールをチェックしようと思ってR-helpのアーカイブを見たら,似たような質問としてSys.setlocale("LC_CTYPE","fr_FR.UTF-8")があった.これに対するRipley教授の返答は

      Your locale name is not valid on Windows: see the 'R Installation and Administration Manual', section 7.1 for more details.

    • 携帯に見知らぬ輩からの着信が増えた.さらす.
      12/12 23:33 O338501297
      12/11 17:46 O482538111
    • 中妻著 「入門 ベイズ統計」を眺める.入門書なので,できるだけ細かい数式は省こうというスタンスなのだろうが,私なんか,細かい式の展開なども気になる質なので,読んでいて落ち着かない.それに数式をかなり省いていて,ベイズの式の分母はパラメータに依存しないので削除できると,サクッと書いても,本当にベイズが初めて読者はすぐに飲み込めるのだろうか.あるいは入門なので,深く考えるなと言うことなのか.ついでながら,繁桝著「ベイズ統計入門」p.40を見ると,例えばベルヌーイ試行の尤度を示した上で,「尤度において母数パイに関係しない部分を除外することができる」として,もう少し丁寧に説明してある.こちらの方が対象読者はもう少し数学知識があることが前提とされているのだと思うのだが,逆にわかりやすいのではないか?
    • ドイツからの郵便物が届かない.国際郵便交換局で調査してもらえると言う情報があったので,大阪国際郵便局のサイトを見たところ,「閉鎖しました.外国から到着する郵便物は 072-455-1390」へとある.閉鎖って民営化のせいか?
    • お昼.乾麺
  • 午後
    • 12:50-14:20 演習.
    • 14:30-16:30 教授会
    • なかなか出張前の仕事に復帰できんなぁ.
    • Windows版Rでlocaleを変更する方法だが,utf8を意味する 65001を使って
      Sys.setlocale("LC_COLLATE", "Japanese_Japan.65001")
      は通るのだが,
      Sys.setlocale("LC_CTYPE", "Japanese_Japan.65001")
      は無視されている模様で,Sys.getlocale()を実行すると  LC_CTYPE=Japanese_Japan.932 のままである. 日本語の文書をRを使って特異値分解するには,結局,こう対処するべきか...
    • H氏,K氏,T氏ら来訪.学務について相談.
  • 定時帰宅,定時就寝

_ 2007年 12月12日(水) 曇

  • 06:00 起床
  • 07:30 研究室
  • 午前
    • 朝一演習
    • Maria Rizzo の Statistical Computing with R が届いた.題名通りで,計算式とそのコードにあふれている.お手軽にデータを解析するための 本ではないが,こういう本も増えてほしい.少し時間もできたし,眺めてみる.
    • お昼.ヨーグルト.
  • 午後
    • 12:00-12:30 会議(将来構想)
    • 12:50-16:05 講義.講義後,工学部食堂でスペシャル\400.チキンカツと目玉焼き.
    • D大のK先生からlsaパッケージをWindows版Rで実行するとエラーにならないかとお問い合わせ.
      Sys.setlocale("LC_CTYPE","C")
      と,とりあえず応急的に実行すれば,警告は出るが,文書行列と特異値分解などはできます.
    • 16:10 - 18:00 大学院
    • 学生に課題として,MeCab?をVBから利用する方法を調べさせている.私自身は,私はLinuxでC言語で呼び出す方法しか行ったことがない.学生の話では,Windows版には外部ライブラリがないというようなことだった.ではVBのShell関数かProcessクラスでなんとかならないのかと話していた.で,今日,実際に見本を作ってみようと思って初めてWindows版のMeCab?のフォルダを見てみた.すると libmecab.dll がちゃんと用意されているではないか.SHELL関数だのProcessクラスだのを実行する際,引数をどう渡すかなど,ゴチャゴチャと悩む必要などない.
    • 定時帰宅,定時就寝

_ 2007年 12月11日(火) 雨

  • 06:00 起床
  • 07:30 研究室
    • 朝一で,また部屋の片付けをしてしまった.疲れた.
    • T氏来訪.学務について.
    • Rユーザー会で利用したスライドfileishida07.pdfを統数研に送る.
    • 統数研への共同研究申請書類作成
    • 新規のルータの設定を変えた.
    • お昼.乾麺
  • 午後
    • H氏来訪.学務について.
    • 総務に共同研究承諾書の申請
    • 14:30-16:05 演習
    • 出張前の仕事に戻ろうと思うんだけど,すぐには詳細を思い出せない.
  • 定時帰宅,定時就寝

_ 2007年 12月10日(月) 晴

  • 06:00 起床
    • N軒屋の立ち番が今日は4人だった
  • 07:30 研究室 (整頓)
  • 午前
    • 学外の研究者方との事務連絡などのメール書きに追われる
    • 先週届いていたルータのセッティング.マニュアルをチラッと見ると,設定のためのURLは192.168.0.1.が,アクセスできない.はて?とおもってルータの接続など再確認するが,同じ.何気なく192.168.1.1としたら,アクセスできた.これってマニュアルのミスなのか,あるいは,WANにつないだハブに,二つのルータを接続しているからか(そんなの関係ないと思われるけど)?
    • Springerから,新刊が届いた.訳者あとがきに誤植を発見.私のミスではなく,編集部の方で生じた誤植の模様.
    • お昼.乾麺
  • 午後
    • H氏,来訪.色々と相談.
    • 共同研究の内容を検討する
    • 研究室の本の一部を箱詰めした.疲れた
    • H氏来訪.学務について.
  • やや送れて帰宅し,定時に就寝

_ 2007年 12月9日(日) 東京 晴

  • 07:00 起床
    • 08:15 部屋で和定食.
  • 午前
    • 10:30 秋葉原に寄る.
    • 11:30 空港
  • 午後
    • お昼.空港5Fの kihachi で豪州肉のステーキ.あまりうまくない.
    • 16:00 自宅に戻る.
  • 寿司取って,どっと寝る.

_ 2007年 12月8日(土) 東京 晴

  • 06:00 起床
  • 午前
    • 08:15 部屋で和定食
    • 09:30 統計数理研究所着
      • 午前はゲノム研究所の樋口先生らの講演.
  • 午後
    • 広尾駅近くの蕎麦屋で鴨南蛮
    • 14:20 より発表
      • 質問をいくつか頂いたのだが,右耳難聴なので,例によってトンチンカンな返答をしたようである.反省.いい加減に補聴器が必要かなと思い始める.
    • 幾つか講演のご依頼を受ける。また共同研究などのお誘いを幾つか頂く。とてもありがたい。
    • ホテルに戻り,またまた赤坂プリンスのレストランへ.メニューは白子のかぶら包,京ネギの緑ピューレとトマトの赤ピューレがけ.ゼラチン質控えめのテリーヌ.京野菜をふんだんに使った鯛,鴨肉など.だいぶ散財したもよう.
  • 就寝したのは12時ぐらい.

_ 2007年 12月7日(金) 晴

  • 06:00 起床
  • 午前
    •  朝9時の飛行機で東京に出発。
    • 10時半羽田着
    • その足で神田に出て,まつ屋でお銚子にそばと天丼
  • 午後
    • 秋葉原へ寄ってから赤坂のホテルに。
    • 14:30 統計数理研究所に到着. LeischとTierny の講演を聞く.
    • 18:00 の終了後、赤坂プリンスのレストラン。メニューは,覚えているのはパスタ風の京ニンジンにカニをのせたオードブル.かぶら包のフォアグラ,スープ風の甘鯛と野菜の煮物,メインは北海道鹿と黒トリフのステーキ.デザートはチョコレートとムース.
  • 就寝したのは12時ぐらい.

_ 2007年 12月6日(木) 晴

  • 06:00 起床
  • 07:30 研究室(整頓)
  • 午前
    • 統数研に書類を返送.
    • 今日も Ubuntu のアップデートが24個あった.
    • あー,統計関連の英語メールが読まないままに溜まっていく...
    • 明日から東京へ出張する.東京生まれの東京育ちなのだが,その後地方暮らしが長く,何となく東京に出るとなるとキンチョーする.東京メトロの路線図など眺めてみる.この歳になって親に車で迎えに来させるというのもあれだし.
    • Dickens の六つの長編小説をつなぎ合わせた約166万語のテキストをトークンにして,ベクトルオブジェクトにするという処理を R でこうしておこなうと6秒強かかる.同じ処理をJavaのStringTokenizerクラスとVectorクラスを使って行うと1秒程度.
    • 教えて君のために,繰り返しのない二元配置分散分析の計算手順をRで実行したソースを作成
    • お昼.乾麺
    • Springer から電話.最終確認について.
  • 午後
    • 12:50-14:40 演習
    • ついでなので C++ でもテキストのトークン化とベクトルオブジェクトの作成を行って時間を測ろうと思ってプログラムを組んだ.コンパイルしようとしたらboostがないとエラー.Synaptic でさっそくインストールした.実装がストレート過ぎるせいか,Javaヨリも遅い...
    • 新たにレポジトリ作成
      local$mkdir Program/trunk branches tags
      local$ ssh -l mi 127.0.0.0
      server$ svnadmin create /usr/local/ubuntu/research/Program
      server$ exit 
      local$ svn import -m "from Ubuntu New Program Dir"  
         /home/mi/research/Program 
         svn+ssh://127.0.0.1/usr/local/ubuntu/research/Program
      local$rm -Rf Program
      local$svn checkout 
        svn+ssh://127.0.0.0
        /usr/local/ubuntu/research/Program/trunk Program

_ 2007年 12月5日(水) 晴

  • 06:00 起床
  • 07:30 研究室
  • 午前
    • 朝一で Ubuntu のアップデートが23個もあった.ほとんどが OpenOffice? 関係.
    • 朝一で演習
    • スライド見直し.本当は,自分でパッケージでも作成して,その話でもした方が喜ばれるんだろけど,私のところでは,「ソフト」は業績にしてもらえないので,いまの立場では,どうしてもソフト開発の優先順序は下がってしまう. たとえ,せこい内容であっても,論文として発表したほうが,ここでは評価されるし.
    • お昼.乾麺.
  • 午後
    • 古いマシンの第二ハードディスクからcorpus2006というディレクトリをまるごとコピーした.ここには,各種解析関係の自作 java あるいは Perl プログラムがある模様.
    • makeBase.plという自作のPerlスクリプトがあったので,なんじゃらと思って実行してみたら,基礎的な言語解析と,他プログラムへの入力となるファイルを全部作成してくれた.一応,チェックしよう.
    • makeBase.pl .我ながら凄いの作ってるなぁ.このうちPerlで作成した分については,以下を付記して,UTF-8化しておこう.
      use utf8;
      binmode(STDIN, ":utf8");
      binmode(STDOUT, ":utf8");
      use open ':utf8';
    • ブログ地図BLOGRANGER TGって面白い.要するに自己組織化マップだ.
    • 先月はじめにドイツに発注した離散分布に関する古書がまだ届かない.向こうは航空便で送ったといっている.確認のメールを送ったら,税関で止められているのではないかと言ってきた.税関でチェックされるの?
    • 18:00-19:30 大学院
  • 通常より遅く帰宅し,一杯やって通常より遅く就寝

_ 2007年 12月4日(火) 晴

  • 06:00 起床
    • N軒屋の立ち番確認
  • 07:30 研究室(整頓)
  • 午前
    • 教えて君.出張前に弱ったな.
    • スライドの最終調整終了.
    • さて,一ヶ月位前から中断していた作業を再会するかな.しかし,そもそも何をしていたか,あまりよく思い出せない.当ブログを検索して探すか.
      • TreeTagger? の出力を編集し,Rに取り込むプログラムを作成予定だったのだ.ここ数年書いてきたプログラムコードを収めているmyprogramディレクトリを見てみたら,大量のファイルとフォルダがあって,ゲッソリ...
      • 最初から整理しようか.えーと,目的はドイツ語テキスト解析で,ドイツ語テキストを扱うのは,これが最後にするつもりと.
      • 大昔に書いたプログラムメモがあった.my2006Corpus.html.無いよりはマシという感じで,眺める.
      • TreeTagger?は,句の単位に分割するには
tagger-chunker-german  kafka.iso.txt > kafka.iso.kekka
  • 単語単位に分割するには
tree-tagger-german kafka.iso.txt > kafka.iso.kekka
  • お昼.クーとか言う妙な食堂に行った.1500円.
  • 統数研から講演の振込関係の書類が届いた.
T1N <- length(T1)
T2N <- length(T2)
T3N <- length(T3)

CT <- (sum(T1,T2,T3))^2 / sum(T1N,T2N,T3N)
SST <- sum(T1^2,T2^2,T3^2) - CT
SSW <- sum(T1^2,T2^2,T3^2) - (sum(T1)^2/T1N +
      sum(T2)^2/T2N + sum(T3)^2/T3N)
SSB <- (sum(T1)^2/T1N + sum(T2)^2/T2N 
    + sum(T3)^2/T3N) - CT

もちろん,普通は aov() 関数を使って解きます.

  • ps/2 -> USB 変換ケーブルが届いた.さっそく使ってみる.マウスとキーボードを,パソコン側では一つのUSBにつなげる.満足.
    • 快適なんだけど,結局,DELLオリジナルのペコペコキーボードに戻してしまった.慣れというのは恐ろしい...
  • TreeTagger? の出力に戻る
    • 素直に解析すると,
      tree-tagger-german kafka.iso.txt 
      &#187;	$(	&#187;
      Was	PWS	was
      ist	VAFIN	sein
      mit	APPR	mit
      mir	PPER	ich
      geschehen	VVINF	geschehen
      ?	$.	?
      &#171;	$(	&#171;
      dachte	VVFIN	denken
      er	PPER	er
      .	$.	.
      と言う結果になる.$を含む行は記号類と判断してよろしいか?また,こっちは
      tagger-chunker-german  kafka.iso.txt
      &#187;	$(
      <NC>
      Was	PWS
      </NC>
      <VC>
      ist	VAFIN
      </VC>
      <PC> 
      mit	APPR
      mir	PPER
      </PC>
      <VC>
      geschehen	VVINF
      </VC>
      ?	$.
      &#171;	$(
      <VC>
      dachte	VVFIN
      </VC>
      <NC>
      er	PPER
      </NC>
      .	$.
      どっちが出力として扱いやすいというか,便利というか...
  • やっぱり後者の出力を使って,一度に得られるだけの情報を得るというのが普通だろうなぁ.
  • Gutenbergのドイツ語系テキスト には,ISO-8859-1によるテキストファイルと,ウムラウト類を &auml; に変換したhtmlファイルの2種類があるのだが,自分の UTF-8環境で一番トラブる可能性がより少ないのはどちらだろうか?
  • ウムラウトの処理などのための役立ちそうなpdfファイルを見つけた.
  • 定時帰宅,定時就寝

_ 2007年 12月3日 (月) 雨のち曇

  • 06:00 起床
    • 兄弟と思しき小学生二人が登校していた.二人とも透明のビニール傘をさしている.自宅から出てきたはずと思うのだが,黄色い通学傘とか,そんなものをさしていても良さそうな気がするのだが.ビニール傘はないだろう.大きなお世話であるが...
  • 07:30 研究室(整頓)
  • 午前
    • スライド作り直し.冗長な部分多すぎ.削れ,削れ!
      • そうとう思い切って削った.今度は時間が余りゃしないか?
    • お昼.乾麺
  • 午後
    • Springer から新刊の発行部数の連絡.さすがにR本よりは多いな.
    • スライド見直し終了.これで,まあ,いいだろう.
    • 名刺作ろう.
      • Canonの古いインクジェットプリンタを使っているのだが,初回の印刷時は,ガチャガチャ激しくウォームアップをやってくれる.
      • 作成した名刺を印刷してみると,何となくいまいち.モニタ上の色合いとかなり異なる色で出力されていたりする.まあ名刺そのもののデザインが問題なのではなく,プリンタの問題だということにしておこう...
      • 名刺は自宅のプリンタで印刷した方が良さそう...
    • 15:00 スライドの口頭部分を抜き出して印刷.結局一日かかった.
      • 作成されたpdfの容量は約800KB.まあ,こんなものかな.アニメーション効果をもう少し検討しても良いかもしれない.もっともprosperで利用可能なのは Split Blinds Box Wipe Dissolve Glitter Replace だけで,最後の Replace というのは,確か何もしないということだった.
  • いま気がついた.今日は私の誕生日ではないか.あー,歳喰った.
    • 早めに帰ってワイン空けよう.
    • 少し前に図書紹介で,数理心理学とか言う本があったと思うのだけど,Amazonで検索して出てきた「数理心理学―心理表現の論理と実際 (心理学の世界 専門編 16) (単行本)」 というのは,違う気がするなぁ.確か,以前学会でお会いした時,鋭い質問を寄せてくださったC大学のC先生が書いていたように思うのだけど,こちらで検索しても出てこない.おもしろそうだなと思ったら,その場で発注しておくべきだった.
      Volnay Clos Des Chenes
  • 定時より早めに帰宅
    • 自宅でスライドチェック.また名刺を作成.
  • wine Volnay Clos des Chenes 1966, No.0259*
  • その他,白鶴など飲むだけ飲んで,遅れて就寝.

_ 2007年 12月2日 (日) 晴

  • 06:50 起床
    • プレゼンを一通り眺めてみた.長い.長すぎる.
  • 飲むだけ飲んで定時就寝.

_ 2007年 12月1日(土) 晴

  • 06:00 起床
    • 12月になってしまった...
  • 07:30 研究室着 (整頓)
  • 午前
    • 昨日の業務日誌で触れた生態学会とは別に,やはりRの講習会が,さる学会でも実施される模様.まだまだユーザーが増えていくのは確実だと思われるので,来週の統数研での報告が終わったら,改めてRの仕事に手をつけるかな.
    • T 氏来訪.雑談
    • お昼.乾麺.
  • 午後
    • 統数研での発表に関連して tm パッケージを再度チェック.tmパッケージには Reuters-21578 のサブセットが含まれているが,そのサイズをチェック.tmパッケージを作成したFeinererは,Reuters21578のサブセット,約1,700の文書を対象にカーネルストリングを計算している.その実行にRを使っているわけだが,その計算時間が2時間だったそうな.
    • スライド完成.46枚.これで約40分何とかなるかな?
    • 冷蔵庫に残っていたヨーグルト食べた.賞味期限が11月13日であった...発酵食品だから問題ないと自分に言い聞かせる.
    • スライド微調整.一部のタームの字体を変えたり,文字色を黄色くしたり,赤くしたり.ついつい色をつけすぎて,何だかゴタゴタしたスライドになってしまうのが落ちなのだが...
    • prosper で作成したTeXソースをスライド部分と,そのコメント部分に分けるperlスクリプトと,処理を一括するbashスクリプトを作っておいた.
    • 何気なくこういうPukiwikiページを見ていたら, CRF(conditional random field) による日本語解析についてのわかりやすいプレゼン資料(ppt)を発見した.CRFについては,9月の行動計量学会の際に,ゲノム科学研究所の樋口さんに教えてもらっていた.
    • またConditional Random Fieldsを用いた日本語形態素解析(解析)と言う論考もある.以下はそのレジュメの引用である.

      本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.

  • これをRで実現するには,どうするかなぁ.
  • うーーん,勉強しなければならないことが山ほどあるのに,自由に使える時間はわずかしかない.
  • 定時帰宅,やや飲みすぎて就寝.