過去の日録
新刊です.
『最短経路の本』シュプリンガー・ジャパン
_ 2007年 12月20日(木) 晴
- 06:00 起床
- 07:20 研究室着(整頓)
- 今日は先々週の週末出張の代休日だったかもしれない.
- 午前
- RjpWiki に『最短経路の本』の本の紹介を書いてくださった方がいる.光栄なのだが,前に誰かがK先生のご著書の紹介を書いた投稿について,自作自演と中傷されていたこともあるので,ちょっと戸惑う.
- さて仕事を再会するぞ.
- 森北出版の確率モデルによるWebデータ解析法を読む.斜め読みできるかと思っていたら,最初の方に割合にしっかりした数学的な説明があった.それなりに腰を落ち着かせて読む.
- お昼.乾麺
- 午後
- べき乗分布,つまりZipfの法則についてこんなサイトを見つけた.
_ 2007年 12月19日(水) 晴
- 06:20 起床
- 午前
- この間に溜まったメールだの,手紙などのチェック
- いくつかの書類を提出
- 突如,教えて君がやって来たのだが,さすがに今は対応できず
- 午後
- お昼は抜き.不在の間にだいぶ仕事が溜まっていた.
- H氏,T氏来訪.学務について
- 廊下で数学のO氏とバッタリ会う.ちょっと話し込む.
- 定時より遅く帰宅(整頓)
_ 2007年 12月18日(火) 大阪 晴
- 07:00 起床
- 午前
- 午後
- 阪急インターナショナル Malmaison で昼食.
- 適当に散歩
- 15:10 バス.道路が相当込んでいる
- 16:20 自宅着
- この出張中に中妻著 「入門 ベイズ統計」に一通り目を通した.前に文句も言ったが,役に立つ本だと思う.
- 22:00 疲れきっていて,酒も飲まず,そのまま就寝.
_ 2007年 12月17日(月) 晴
- 07:00 起床
- 午前
- 11時のバスで大阪へ発つ
- 車中で中妻著 「入門 ベイズ統計」を読む.
- 午後
- 13:30 大阪着.その後仕事に
- 夕食.阪急インターナショナル25F Malmaison
- 12:30 頃就寝
_ 2007年 12月16日(日) 晴
_ 2007年 12月15日(土) 晴
- 07:30 起床
- 09:00 研究室
- 午前
- 昨日飲みすぎた模様.気分が悪い.自業自得であるが.
- お昼.乾麺
- 午後
- 少し調子が出てきた.
- とはいえ,すでに夕方になってしまったが,結局,ここまでまるで何もしていない.
- ドイツから図書が届かない件について,ドイツの古書店から,発送した郵便局に問い合わせるとの返答が来た.こちらも来週には大阪国際郵便局に問い合わせをしてみよう.
- 昨日の忘年会で話題になった,方言の形成をシミュレーションするという話題.試しにgenetic algorithm dialectsをキーワードgoogleしたら,IEICE transactions on information and systems,Vol.E83-D,No.12(20001225) pp. 2183-2185 にChinese Dialect Identification Based on Genetic Algorithm for Discriminative Training of Bigram Modelという論文があった.さっそく取り寄せたいが,学内に所蔵しているところがあって,かえって面倒である.学外なら日数はかかるが,メール一本で取り寄せられるのだが,別研究室所蔵の本は,あれこれやりとりが必要で困る.たった3ページなんだが...と,電子ジャーナルがありやしないかと思って,探したらあった.アクセスして入手した.
ほかにLivingstoneのサイトではいくつかの論文がダウンロードできる.特にThe Evolution of Dialect Diversityというのは面白そう.また
ここにある,Computational Modelling of Evolution of Languageというのも,少しずれるが,面白そうではある.
_ 2007年 12月14日(金) 晴
- 06:00 起床
- 07:30 研究室 (整頓)
- 午前
- 午後
- ゼミまでの間,買いだめしておいた本を次々と眺め回す.
- のつもりだったのだが,学内業務であれこれメール書きやら書類書き.
- で,急遽,忘年会ということになった...
- 18:30より忘年会.出席者は言語学系でK先生,S先生,情報科学系でA先生,H先生.そして私.場所はKさん行きつけの焼鳥屋.11:00位まで楽しく騒ぐ.S先生が,言語伝播について,ある方言体系と別の方言体系が接触して,そこに新しい方言体系ができていくというのが,基本的には国語学で今も信奉されているが,そんなうまい話があるだろうか,自分は常々疑問に思っていていろいろ反論を言ったり示したりするのだが,トンでも学説扱いされると.私からすると,言語現象をそんな単純明快な理論で説明しようとする方がトンでも学説でしょうと応じた.ただ過去に方言が生成されていった様子はもはや調べようがないので,むしろコンピューター上で現在の方言地図が生成されていく様子をシミュレーションしてみる方が,よっぽど科学ではないかと.欧米の言語研究では実際に行われているはずだが...
- 深夜に帰宅.倒れるように就寝.
_ 2007年 12月13日(木) 曇
- 06:00 起床
- N軒屋に立ち番はいなかったが,途中パトカーとすれ違った.多分,立番だろう.あちらが出る時間が私の出勤以降のようなので,もうカウント止める.
- 07:30 研究室 (整頓)
- 午前
- 午後
- 12:50-14:20 演習.
- 14:30-16:30 教授会
- なかなか出張前の仕事に復帰できんなぁ.
- Windows版Rでlocaleを変更する方法だが,utf8を意味する 65001を使って
Sys.setlocale("LC_COLLATE", "Japanese_Japan.65001")
は通るのだが,
Sys.setlocale("LC_CTYPE", "Japanese_Japan.65001")
は無視されている模様で,Sys.getlocale()を実行すると
LC_CTYPE=Japanese_Japan.932
のままである.
日本語の文書をRを使って特異値分解するには,結局,こう対処するべきか...
- H氏,K氏,T氏ら来訪.学務について相談.
- 定時帰宅,定時就寝
_ 2007年 12月12日(水) 曇
- 06:00 起床
- 07:30 研究室
- 午前
- 朝一演習
- Maria Rizzo の Statistical Computing with R が届いた.題名通りで,計算式とそのコードにあふれている.お手軽にデータを解析するための 本ではないが,こういう本も増えてほしい.少し時間もできたし,眺めてみる.
- お昼.ヨーグルト.
- 午後
_ 2007年 12月11日(火) 雨
- 06:00 起床
- 07:30 研究室
- 朝一で,また部屋の片付けをしてしまった.疲れた.
- T氏来訪.学務について.
- Rユーザー会で利用したスライドishida07.pdfを統数研に送る.
- 統数研への共同研究申請書類作成
- 新規のルータの設定を変えた.
- お昼.乾麺
- 午後
- H氏来訪.学務について.
- 総務に共同研究承諾書の申請
- 14:30-16:05 演習
- 出張前の仕事に戻ろうと思うんだけど,すぐには詳細を思い出せない.
- 定時帰宅,定時就寝
_ 2007年 12月10日(月) 晴
- 06:00 起床
- 07:30 研究室 (整頓)
- 午前
- 学外の研究者方との事務連絡などのメール書きに追われる
- 先週届いていたルータのセッティング.マニュアルをチラッと見ると,設定のためのURLは192.168.0.1.が,アクセスできない.はて?とおもってルータの接続など再確認するが,同じ.何気なく192.168.1.1としたら,アクセスできた.これってマニュアルのミスなのか,あるいは,WANにつないだハブに,二つのルータを接続しているからか(そんなの関係ないと思われるけど)?
- Springerから,新刊が届いた.訳者あとがきに誤植を発見.私のミスではなく,編集部の方で生じた誤植の模様.
- お昼.乾麺
- 午後
- H氏,来訪.色々と相談.
- 共同研究の内容を検討する
- 研究室の本の一部を箱詰めした.疲れた
- H氏来訪.学務について.
- やや送れて帰宅し,定時に就寝
_ 2007年 12月9日(日) 東京 晴
- 07:00 起床
- 午前
- 午後
- お昼.空港5Fの kihachi で豪州肉のステーキ.あまりうまくない.
- 寿司取って,どっと寝る.
_ 2007年 12月8日(土) 東京 晴
- 06:00 起床
- 午前
- 08:15 部屋で和定食
- 09:30 統計数理研究所着
- 午後
- 広尾駅近くの蕎麦屋で鴨南蛮
- 14:20 より発表
- 質問をいくつか頂いたのだが,右耳難聴なので,例によってトンチンカンな返答をしたようである.反省.いい加減に補聴器が必要かなと思い始める.
- 幾つか講演のご依頼を受ける。また共同研究などのお誘いを幾つか頂く。とてもありがたい。
- ホテルに戻り,またまた赤坂プリンスのレストランへ.メニューは白子のかぶら包,京ネギの緑ピューレとトマトの赤ピューレがけ.ゼラチン質控えめのテリーヌ.京野菜をふんだんに使った鯛,鴨肉など.だいぶ散財したもよう.
- 就寝したのは12時ぐらい.
_ 2007年 12月7日(金) 晴
- 06:00 起床
- 午前
- 朝9時の飛行機で東京に出発。
- 10時半羽田着
- その足で神田に出て,まつ屋でお銚子にそばと天丼
- 午後
- 秋葉原へ寄ってから赤坂のホテルに。
- 14:30 統計数理研究所に到着. LeischとTierny の講演を聞く.
- 18:00 の終了後、赤坂プリンスのレストラン。メニューは,覚えているのはパスタ風の京ニンジンにカニをのせたオードブル.かぶら包のフォアグラ,スープ風の甘鯛と野菜の煮物,メインは北海道鹿と黒トリフのステーキ.デザートはチョコレートとムース.
- 就寝したのは12時ぐらい.
_ 2007年 12月6日(木) 晴
- 06:00 起床
- 07:30 研究室(整頓)
- 午前
- 統数研に書類を返送.
- 今日も Ubuntu のアップデートが24個あった.
- あー,統計関連の英語メールが読まないままに溜まっていく...
- 明日から東京へ出張する.東京生まれの東京育ちなのだが,その後地方暮らしが長く,何となく東京に出るとなるとキンチョーする.東京メトロの路線図など眺めてみる.この歳になって親に車で迎えに来させるというのもあれだし.
- Dickens の六つの長編小説をつなぎ合わせた約166万語のテキストをトークンにして,ベクトルオブジェクトにするという処理を R でこうしておこなうと6秒強かかる.同じ処理をJavaのStringTokenizerクラスとVectorクラスを使って行うと1秒程度.
- 教えて君のために,繰り返しのない二元配置分散分析の計算手順をRで実行したソースを作成
- お昼.乾麺
- Springer から電話.最終確認について.
- 午後
_ 2007年 12月5日(水) 晴
- 06:00 起床
- 07:30 研究室
- 午前
- 朝一で Ubuntu のアップデートが23個もあった.ほとんどが OpenOffice? 関係.
- 朝一で演習
- スライド見直し.本当は,自分でパッケージでも作成して,その話でもした方が喜ばれるんだろけど,私のところでは,「ソフト」は業績にしてもらえないので,いまの立場では,どうしてもソフト開発の優先順序は下がってしまう. たとえ,せこい内容であっても,論文として発表したほうが,ここでは評価されるし.
- お昼.乾麺.
- 午後
- 通常より遅く帰宅し,一杯やって通常より遅く就寝
_ 2007年 12月4日(火) 晴
- 06:00 起床
- 07:30 研究室(整頓)
- 午前
- 教えて君.出張前に弱ったな.
- スライドの最終調整終了.
- さて,一ヶ月位前から中断していた作業を再会するかな.しかし,そもそも何をしていたか,あまりよく思い出せない.当ブログを検索して探すか.
- TreeTagger? の出力を編集し,Rに取り込むプログラムを作成予定だったのだ.ここ数年書いてきたプログラムコードを収めているmyprogramディレクトリを見てみたら,大量のファイルとフォルダがあって,ゲッソリ...
- 最初から整理しようか.えーと,目的はドイツ語テキスト解析で,ドイツ語テキストを扱うのは,これが最後にするつもりと.
- 大昔に書いたプログラムメモがあった.my2006Corpus.html.無いよりはマシという感じで,眺める.
- TreeTagger?は,句の単位に分割するには
tagger-chunker-german kafka.iso.txt > kafka.iso.kekka
tree-tagger-german kafka.iso.txt > kafka.iso.kekka
- お昼.クーとか言う妙な食堂に行った.1500円.
- 統数研から講演の振込関係の書類が届いた.
T1N <- length(T1)
T2N <- length(T2)
T3N <- length(T3)
CT <- (sum(T1,T2,T3))^2 / sum(T1N,T2N,T3N)
SST <- sum(T1^2,T2^2,T3^2) - CT
SSW <- sum(T1^2,T2^2,T3^2) - (sum(T1)^2/T1N +
sum(T2)^2/T2N + sum(T3)^2/T3N)
SSB <- (sum(T1)^2/T1N + sum(T2)^2/T2N
+ sum(T3)^2/T3N) - CT
もちろん,普通は aov() 関数を使って解きます.
- ps/2 -> USB 変換ケーブルが届いた.さっそく使ってみる.マウスとキーボードを,パソコン側では一つのUSBにつなげる.満足.
- 快適なんだけど,結局,DELLオリジナルのペコペコキーボードに戻してしまった.慣れというのは恐ろしい...
- TreeTagger? の出力に戻る
- 素直に解析すると,
tree-tagger-german kafka.iso.txt
» $( »
Was PWS was
ist VAFIN sein
mit APPR mit
mir PPER ich
geschehen VVINF geschehen
? $. ?
« $( «
dachte VVFIN denken
er PPER er
. $. .
と言う結果になる.$を含む行は記号類と判断してよろしいか?また,こっちは
tagger-chunker-german kafka.iso.txt
» $(
<NC>
Was PWS
</NC>
<VC>
ist VAFIN
</VC>
<PC>
mit APPR
mir PPER
</PC>
<VC>
geschehen VVINF
</VC>
? $.
« $(
<VC>
dachte VVFIN
</VC>
<NC>
er PPER
</NC>
. $.
どっちが出力として扱いやすいというか,便利というか...
- やっぱり後者の出力を使って,一度に得られるだけの情報を得るというのが普通だろうなぁ.
- Gutenbergのドイツ語系テキスト には,ISO-8859-1によるテキストファイルと,ウムラウト類を ä に変換したhtmlファイルの2種類があるのだが,自分の UTF-8環境で一番トラブる可能性がより少ないのはどちらだろうか?
- ウムラウトの処理などのための役立ちそうなpdfファイルを見つけた.
_ 2007年 12月3日 (月) 雨のち曇
- 06:00 起床
- 兄弟と思しき小学生二人が登校していた.二人とも透明のビニール傘をさしている.自宅から出てきたはずと思うのだが,黄色い通学傘とか,そんなものをさしていても良さそうな気がするのだが.ビニール傘はないだろう.大きなお世話であるが...
- 07:30 研究室(整頓)
- 午前
- スライド作り直し.冗長な部分多すぎ.削れ,削れ!
- そうとう思い切って削った.今度は時間が余りゃしないか?
- お昼.乾麺
- 午後
- Springer から新刊の発行部数の連絡.さすがにR本よりは多いな.
- スライド見直し終了.これで,まあ,いいだろう.
- 名刺作ろう.
- Canonの古いインクジェットプリンタを使っているのだが,初回の印刷時は,ガチャガチャ激しくウォームアップをやってくれる.
- 作成した名刺を印刷してみると,何となくいまいち.モニタ上の色合いとかなり異なる色で出力されていたりする.まあ名刺そのもののデザインが問題なのではなく,プリンタの問題だということにしておこう...
- 名刺は自宅のプリンタで印刷した方が良さそう...
- 15:00 スライドの口頭部分を抜き出して印刷.結局一日かかった.
- 作成されたpdfの容量は約800KB.まあ,こんなものかな.アニメーション効果をもう少し検討しても良いかもしれない.もっともprosperで利用可能なのは Split Blinds Box Wipe Dissolve Glitter Replace だけで,最後の Replace というのは,確か何もしないということだった.
- いま気がついた.今日は私の誕生日ではないか.あー,歳喰った.
- 早めに帰ってワイン空けよう.
- 少し前に図書紹介で,数理心理学とか言う本があったと思うのだけど,Amazonで検索して出てきた「数理心理学―心理表現の論理と実際 (心理学の世界 専門編 16) (単行本)」 というのは,違う気がするなぁ.確か,以前学会でお会いした時,鋭い質問を寄せてくださったC大学のC先生が書いていたように思うのだけど,こちらで検索しても出てこない.おもしろそうだなと思ったら,その場で発注しておくべきだった.
- 定時より早めに帰宅
- wine Volnay Clos des Chenes 1966, No.0259*
- その他,白鶴など飲むだけ飲んで,遅れて就寝.
_ 2007年 12月2日 (日) 晴
_ 2007年 12月1日(土) 晴
- 06:00 起床
- 07:30 研究室着 (整頓)
- 午前
- 昨日の業務日誌で触れた生態学会とは別に,やはりRの講習会が,さる学会でも実施される模様.まだまだユーザーが増えていくのは確実だと思われるので,来週の統数研での報告が終わったら,改めてRの仕事に手をつけるかな.
- T 氏来訪.雑談
- お昼.乾麺.
- 午後
- 統数研での発表に関連して tm パッケージを再度チェック.tmパッケージには Reuters-21578 のサブセットが含まれているが,そのサイズをチェック.tmパッケージを作成したFeinererは,Reuters21578のサブセット,約1,700の文書を対象にカーネルストリングを計算している.その実行にRを使っているわけだが,その計算時間が2時間だったそうな.
- スライド完成.46枚.これで約40分何とかなるかな?
- 冷蔵庫に残っていたヨーグルト食べた.賞味期限が11月13日であった...発酵食品だから問題ないと自分に言い聞かせる.
- スライド微調整.一部のタームの字体を変えたり,文字色を黄色くしたり,赤くしたり.ついつい色をつけすぎて,何だかゴタゴタしたスライドになってしまうのが落ちなのだが...
- prosper で作成したTeXソースをスライド部分と,そのコメント部分に分けるperlスクリプトと,処理を一括するbashスクリプトを作っておいた.
- 何気なくこういうPukiwikiページを見ていたら, CRF(conditional random field) による日本語解析についてのわかりやすいプレゼン資料(ppt)を発見した.CRFについては,9月の行動計量学会の際に,ゲノム科学研究所の樋口さんに教えてもらっていた.
- またConditional Random Fieldsを用いた日本語形態素解析(解析)と言う論考もある.以下はそのレジュメの引用である.
本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.
- これをRで実現するには,どうするかなぁ.
- うーーん,勉強しなければならないことが山ほどあるのに,自由に使える時間はわずかしかない.