[[過去の日録]] 新刊です. [[『最短経路の本』シュプリンガー・ジャパン:http://www.springer.jp/japan/math/j10011.html]] #ref(日録2007_11月/lena5.PNG,nowrap,center,nolink,最短経路の本ーレナのふしぎな数学の旅) * 2007年 12月10日(月) 晴 [#da25b384] - 06:00 起床 -- N軒屋の立ち番が今日は4人だった - 07:30 研究室 (整頓) - 午前 -- 事務連絡などのメール書きに追われる * 2007年 12月9日(日) 東京 晴 [#o1b3231c] - 07:00 起床. --08:15 部屋で和定食. --- 10:30 秋葉原に寄る. --11:30 空港 -- 16:00 自宅に戻る. * 2007年 12月8日(土) 東京 晴 [#v2398b65] - 06:00 起床 - 午前 --08:15 部屋で和定食 -- 09:30 統計数理研究所着 --- 午前はゲノム研究所の樋口先生らの講演. - 午後 -- 広尾駅近くの蕎麦屋で鴨南蛮 -- 14:20 より発表 --- 質問をいくつか頂いたのだが,右耳難聴なので,例によってトンチンカンな返答をしたようである.反省.いい加減に補聴器が必要かなと思い始める. -- 幾つか講演のご依頼を受ける。また共同研究などのお誘いを幾つか頂く。とてもありがたい。 -- ホテルに戻り,またまた赤坂プリンスのレストランへ.メニューは白子のかぶら包,京ネギの緑ピューレとトマトの赤ピューレがけ.ゼラチン質控えめのテリーヌ.京野菜をふんだんに使った鯛,鴨肉など.だいぶ散財したもよう. - 就寝したのは12時ぐらい. * 2007年 12月7日(金) 晴 [#cfc1d57f] - 06:00 起床 - 午前 -- 朝9時の飛行機で東京に出発。 -- 10時半羽田着 -- その足で神田に出て,まつ屋でお銚子にそばと天丼 - 午後 -- 秋葉原へ寄ってから赤坂のホテルに。 -- 14:30 統計数理研究所に到着. LeischとTierny の講演を聞く. -- 18:00 の終了後、赤坂プリンスのレストラン。メニューは,覚えているのはパスタ風の京ニンジンにカニをのせたオードブル.かぶら包のフォアグラ,スープ風の甘鯛と野菜の煮物,メインは北海道鹿と黒トリフのステーキ.デザートはチョコレートとムース. - 就寝したのは12時ぐらい. * 2007年 12月6日(木) 晴 [#gaa21289] - 06:00 起床 - 07:30 研究室(整頓) - 午前 -- 統数研に書類を返送. -- 今日も Ubuntu のアップデートが24個あった. -- あー,統計関連の英語メールが読まないままに溜まっていく... -- 明日から東京へ出張する.東京生まれの東京育ちなのだが,その後地方暮らしが長く,何となく東京に出るとなるとキンチョーする.東京メトロの路線図など眺めてみる.この歳になって親に車で迎えに来させるというのもあれだし. -- Dickens の六つの長編小説をつなぎ合わせた約166万語のテキストをトークンにして,ベクトルオブジェクトにするという処理を R で[[こうしておこなう>R_tokenizer]]と6秒強かかる.同じ処理を[[JavaのStringTokenizerクラスとVectorクラス>Java_tokenizer]]を使って行うと1秒程度. -- 教えて君のために,[[繰り返しのない二元配置分散分析の計算手順をRで実行したソース>R_二元配置の分散分析計算式]]を作成 -- お昼.乾麺 -- Springer から電話.最終確認について. - 午後 -- 12:50-14:40 演習 -- ついでなので C++ でもテキストのトークン化とベクトルオブジェクトの作成を行って時間を測ろうと思って[[プログラム>CPP_boost_tokenize]]を組んだ.コンパイルしようとしたらboostがないとエラー.Synaptic でさっそくインストールした.実装がストレート過ぎるせいか,Javaヨリも遅い... -- 新たにレポジトリ作成 local$mkdir Program/trunk branches tags local$ ssh -l mi 127.0.0.0 server$ svnadmin create /usr/local/ubuntu/research/Program server$ exit local$ svn import -m "from Ubuntu New Program Dir" /home/mi/research/Program svn+ssh://127.0.0.1/usr/local/ubuntu/research/Program local$rm -Rf Program local$svn checkout svn+ssh://127.0.0.0 /usr/local/ubuntu/research/Program/trunk Program * 2007年 12月5日(水) 晴 [#r93bec15] - 06:00 起床 - 07:30 研究室 - 午前 -- 朝一で Ubuntu のアップデートが23個もあった.ほとんどが OpenOffice 関係. -- 朝一で演習 -- スライド見直し.本当は,自分でパッケージでも作成して,その話でもした方が喜ばれるんだろけど,私のところでは,「ソフト」は業績にしてもらえないので,いまの立場では,どうしてもソフト開発の優先順序は下がってしまう. たとえ,せこい内容であっても,論文として発表したほうが,ここでは評価されるし. -- お昼.乾麺. - 午後 -- 古いマシンの第二ハードディスクからcorpus2006というディレクトリをまるごとコピーした.ここには,各種解析関係の自作 java あるいは Perl プログラムがある模様. -- makeBase.plという自作のPerlスクリプトがあったので,なんじゃらと思って実行してみたら,基礎的な言語解析と,他プログラムへの入力となるファイルを全部作成してくれた.一応,チェックしよう. -- makeBase.pl .我ながら凄いの作ってるなぁ.このうちPerlで作成した分については,以下を付記して,UTF-8化しておこう. use utf8; binmode(STDIN, ":utf8"); binmode(STDOUT, ":utf8"); use open ':utf8'; --[[ブログ地図BLOGRANGER TG:http://ranger.labs.goo.ne.jp/]]って面白い.要するに[[自己組織化マップ>WikiPedia.ja:自己組織化マップ]]だ. -- 先月はじめにドイツに発注した離散分布に関する古書がまだ届かない.向こうは航空便で送ったといっている.確認のメールを送ったら,税関で止められているのではないかと言ってきた.税関でチェックされるの? -- 18:00-19:30 大学院 - 通常より遅く帰宅し,一杯やって通常より遅く就寝 * 2007年 12月4日(火) 晴 [#fe36bcb9] - 06:00 起床 -- N軒屋の立ち番確認 - 07:30 研究室(整頓) - 午前 -- 教えて君.出張前に弱ったな. -- スライドの最終調整終了. -- さて,一ヶ月位前から中断していた作業を再会するかな.しかし,そもそも何をしていたか,あまりよく思い出せない.当ブログを検索して探すか. --- TreeTagger の出力を編集し,Rに取り込むプログラムを作成予定だったのだ.ここ数年書いてきたプログラムコードを収めているmyprogramディレクトリを見てみたら,大量のファイルとフォルダがあって,ゲッソリ... --- 最初から整理しようか.えーと,目的はドイツ語テキスト解析で,ドイツ語テキストを扱うのは,これが最後にするつもりと. --- 大昔に書いたプログラムメモがあった.my2006Corpus.html.無いよりはマシという感じで,眺める. --- TreeTaggerは,句の単位に分割するには tagger-chunker-german kafka.iso.txt > kafka.iso.kekka --- 単語単位に分割するには tree-tagger-german kafka.iso.txt > kafka.iso.kekka -- お昼.クーとか言う妙な食堂に行った.1500円. -- 統数研から講演の振込関係の書類が届いた. - 午後 -- 教えて君のため,分散分析表を,[[久しぶり修正項を利用した手計算:http://koko15.hus.osaka-u.ac.jp/members/yoshida/shokabo/chap8.html]]で作成してみた.Rでやると,まずT1,T2,T3に水準ごとのデータを入れて T1N <- length(T1) T2N <- length(T2) T3N <- length(T3) CT <- (sum(T1,T2,T3))^2 / sum(T1N,T2N,T3N) SST <- sum(T1^2,T2^2,T3^2) - CT SSW <- sum(T1^2,T2^2,T3^2) - (sum(T1)^2/T1N + sum(T2)^2/T2N + sum(T3)^2/T3N) SSB <- (sum(T1)^2/T1N + sum(T2)^2/T2N + sum(T3)^2/T3N) - CT もちろん,普通は aov() 関数を使って解きます. -- ps/2 -> USB 変換ケーブルが届いた.さっそく使ってみる.マウスとキーボードを,パソコン側では一つのUSBにつなげる.満足. --- 快適なんだけど,結局,DELLオリジナルのペコペコキーボードに戻してしまった.慣れというのは恐ろしい... -- TreeTagger の出力に戻る --- 素直に解析すると, tree-tagger-german kafka.iso.txt » $( » Was PWS was ist VAFIN sein mit APPR mit mir PPER ich geschehen VVINF geschehen ? $. ? « $( « dachte VVFIN denken er PPER er . $. . と言う結果になる.$を含む行は記号類と判断してよろしいか?また,こっちは tagger-chunker-german kafka.iso.txt » $( <NC> Was PWS </NC> <VC> ist VAFIN </VC> <PC> mit APPR mir PPER </PC> <VC> geschehen VVINF </VC> ? $. « $( <VC> dachte VVFIN </VC> <NC> er PPER </NC> . $. どっちが出力として扱いやすいというか,便利というか... -- やっぱり後者の出力を使って,一度に得られるだけの情報を得るというのが普通だろうなぁ. -- [[Gutenbergのドイツ語系テキスト:http://www.gutenberg.org/browse/languages/de]] には,ISO-8859-1によるテキストファイルと,ウムラウト類を &auml; に変換したhtmlファイルの2種類があるのだが,自分の UTF-8環境で一番トラブる可能性がより少ないのはどちらだろうか? --- [[Java で文字種が大文字小文字の判定をする方法:http://sdc.sun.co.jp/java/docs/j2se/1.4/ja/docs/ja/api/java/lang/Character.html#isLowerCase(char)]].これは特殊文字にも対応しているんだろうか? -- ウムラウトの処理などのための[[役立ちそうなpdfファイル:http://informatik.unibas.ch/lehre/ws05/cs101/folien/06_ZeichenKetten.pdf]]を見つけた. - 定時帰宅,定時就寝 * 2007年 12月3日 (月) 雨のち曇 [#l2c5363d] - 06:00 起床 -- 兄弟と思しき小学生二人が登校していた.二人とも透明のビニール傘をさしている.自宅から出てきたはずと思うのだが,黄色い通学傘とか,そんなものをさしていても良さそうな気がするのだが.ビニール傘はないだろう.大きなお世話であるが... - 07:30 研究室(整頓) - 午前 -- スライド作り直し.冗長な部分多すぎ.削れ,削れ! --- そうとう思い切って削った.今度は時間が余りゃしないか? -- お昼.乾麺 - 午後 -- Springer から新刊の発行部数の連絡.さすがにR本よりは多いな. -- スライド見直し終了.これで,まあ,いいだろう. -- 名刺作ろう. --- Canonの古いインクジェットプリンタを使っているのだが,初回の印刷時は,ガチャガチャ激しくウォームアップをやってくれる. --- 作成した名刺を印刷してみると,何となくいまいち.モニタ上の色合いとかなり異なる色で出力されていたりする.まあ名刺そのもののデザインが問題なのではなく,プリンタの問題だということにしておこう... --- 名刺は自宅のプリンタで印刷した方が良さそう... -- 15:00 スライドの口頭部分を抜き出して印刷.結局一日かかった. --- 作成されたpdfの容量は約800KB.まあ,こんなものかな.アニメーション効果をもう少し検討しても良いかもしれない.もっともprosperで利用可能なのは Split Blinds Box Wipe Dissolve Glitter Replace だけで,最後の Replace というのは,確か何もしないということだった. - いま気がついた.今日は私の誕生日ではないか.あー,歳喰った. -- 早めに帰ってワイン空けよう. -- 少し前に図書紹介で,数理心理学とか言う本があったと思うのだけど,Amazonで検索して出てきた「数理心理学―心理表現の論理と実際 (心理学の世界 専門編 16) (単行本)」 というのは,違う気がするなぁ.確か,以前学会でお会いした時,鋭い質問を寄せてくださったC大学のC先生が書いていたように思うのだけど,こちらで検索しても出てこない.おもしろそうだなと思ったら,その場で発注しておくべきだった. #ref(wine20071203.PNG,nowrap,right,nolink,Volnay Clos Des Chenes) - 定時より早めに帰宅 -- 自宅でスライドチェック.また名刺を作成. - wine Volnay Clos des Chenes 1966, No.0259* - その他,白鶴など飲むだけ飲んで,遅れて就寝. * 2007年 12月2日 (日) 晴 [#l5cb8dc3] - 06:50 起床 -- プレゼンを一通り眺めてみた.長い.長すぎる. - 飲むだけ飲んで定時就寝. * 2007年 12月1日(土) 晴 [#i0bde7d3] - 06:00 起床 -- 12月になってしまった... - 07:30 研究室着 (整頓) - 午前 -- 昨日の業務日誌で触れた[[生態学会>http://hosho.ees.hokudai.ac.jp/~kubo/ce/EcoSj2008.html]]とは別に,やはりRの講習会が,さる学会でも実施される模様.まだまだユーザーが増えていくのは確実だと思われるので,来週の[[統数研での報告>http://jasp.ism.ac.jp/meetings/R2007/]]が終わったら,改めてRの仕事に手をつけるかな. -- T 氏来訪.雑談 -- お昼.乾麺. - 午後 -- 統数研での発表に関連して ''tm パッケージ''を再度チェック.[[tmパッケージ>R_tmパッケージの使い方]]には [[Reuters-21578:http://www.daviddlewis.com/resources/testcollections/reuters21578/]] のサブセットが含まれているが,そのサイズをチェック.tmパッケージを作成したFeinererは,Reuters21578のサブセット,約1,700の文書を対象にカーネルストリングを計算している.その実行にRを使っているわけだが,その計算時間が2時間だったそうな. -- スライド完成.46枚.これで約40分何とかなるかな? -- 冷蔵庫に残っていたヨーグルト食べた.賞味期限が11月13日であった...発酵食品だから問題ないと自分に言い聞かせる. -- スライド微調整.一部のタームの字体を変えたり,文字色を黄色くしたり,赤くしたり.ついつい色をつけすぎて,何だかゴタゴタしたスライドになってしまうのが落ちなのだが... -- prosper で作成したTeXソースをスライド部分と,そのコメント部分に分けるperlスクリプトと,処理を一括するbashスクリプトを作っておいた. -- 何気なく[[こういうPukiwikiページ:http://www.cas.dis.titech.ac.jp/~higo/wiki/study/index.php?FrontPage]]を見ていたら,'' [[CRF(conditional random field):http://www.inference.phy.cam.ac.uk/hmw26/crf/]] ''による日本語解析についての[[わかりやすいプレゼン資料(ppt):http://chasen.org/~taku/publications/nl161-slide.ppt]]を発見した.CRFについては,9月の行動計量学会の際に,ゲノム科学研究所の樋口さんに教えてもらっていた. -- また[[Conditional Random Fieldsを用いた日本語形態素解析(解析):http://ci.nii.ac.jp/naid/110002911717/en/]]と言う論考もある.以下は''そのレジュメの引用''である. > 本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる. -- これをRで実現するには,どうするかなぁ. -- うーーん,勉強しなければならないことが山ほどあるのに,自由に使える時間はわずかしかない. - 定時帰宅,やや飲みすぎて就寝.