日録2007_12月 のバックアップソース(No.31) - アールメカブ

アールメカブ


日録2007_12月 のバックアップソース(No.31)

[[過去の日録]]

新刊です. 
[[『最短経路の本』シュプリンガー・ジャパン:http://www.springer.jp/japan/math/j10011.html]]

#ref(日録2007_11月/lena5.PNG,nowrap,center,nolink,最短経路の本ーレナのふしぎな数学の旅)
* 2007年 12月13日(木) 曇 [#gf6da8c0]
- 06:00 起床
-- N軒屋に立ち番はいなかったが,途中パトカーとすれ違った.多分,立番だろう.あちらが出る時間が私の出勤以降のようなので,もうカウント止める.
- 07:30 研究室 (整頓)
- 午前
-- 朝の片付けを少し過ぎた.腕やら腰やらが痛い...
-- 昨日のD大K先生の問い合わせと関連して,Windows版Rにおけるロケールをチェックしようと思ってR-helpのアーカイブを見たら,似たような質問として[[Sys.setlocale("LC_CTYPE","fr_FR.UTF-8"):http://tolstoy.newcastle.edu.au/R/e2/help/07/03/12266.html]]があった.これに対するRipley教授の返答は
>Your locale name is not valid on Windows: see the 'R Installation and Administration Manual', section 7.1 for more details.
<
-- 携帯に見知らぬ輩からの着信が増えた.さらす.
 12/12 23:33 O338501297
 12/11 17:46 O482538111
-- 中妻著 「入門 ベイズ統計」を眺める.入門書なので,できるだけ細かい数式は省こうというスタンスなのだろうが,私なんか,細かい式の展開なども気になる質なので,読んでいて落ち着かない.それに数式をかなり省いていて,ベイズの式の分母はパラメータに依存しないので削除できると,サクッと書いても,本当にベイズが初めて読者はすぐに飲み込めるのだろうか.あるいは入門なので,深く考えるなと言うことなのか.ついでながら,繁桝著「ベイズ統計入門」p.40を見ると,例えばベルヌーイ試行の尤度を示した上で,「尤度において母数パイに関係しない部分を除外することができる」として,もう少し丁寧に説明してある.こちらの方が対象読者はもう少し数学知識があることが前提とされているのだと思うのだが,逆にわかりやすいのではないか?
//関係しない部分とは,ブログ上では書きにくいのだが,ベルヌーイ試行の確率分布で,組み合わせを計算している (n x)  というような部分である.
-- ドイツからの郵便物が届かない.国際郵便交換局で調査してもらえると言う情報があったので,大阪国際郵便局のサイトを見たところ,「閉鎖しました.外国から到着する郵便物は 072-455-1390」へとある.閉鎖って民営化のせいか?
-- お昼.乾麺
- 午後
-- 12:50-14:20 演習.
-- 14:30-16:30 教授会
-- なかなか出張前の仕事に復帰できんなぁ.
-- Windows版Rでlocaleを変更する方法だが,utf8を意味する 65001を使って
 Sys.setlocale("LC_COLLATE", "Japanese_Japan.65001")
は通るのだが,
 Sys.setlocale("LC_CTYPE", "Japanese_Japan.65001")
は無視されている模様で,Sys.getlocale()を実行すると
 LC_CTYPE=Japanese_Japan.932
のままである.
日本語の文書をRを使って特異値分解するには,結局,[[こう対処>R_lsaで日本語]]するべきか...
* 2007年 12月12日(水) 曇 [#s2ef4d4c]
- 06:00 起床
- 07:30 研究室 
- 午前
-- 朝一演習
-- Maria Rizzo の Statistical Computing with R が届いた.題名通りで,計算式とそのコードにあふれている.お手軽にデータを解析するための 本ではないが,こういう本も増えてほしい.少し時間もできたし,眺めてみる.
--  お昼.ヨーグルト.
- 午後
-- 12:00-12:30 会議(将来構想)
-- 12:50-16:05 講義.講義後,工学部食堂でスペシャル\400.チキンカツと目玉焼き.
-- D大のK先生からlsaパッケージをWindows版Rで実行するとエラーにならないかとお問い合わせ.
 Sys.setlocale("LC_CTYPE","C")
と,とりあえず応急的に実行すれば,警告は出るが,文書行列と特異値分解などはできます.
-- 16:10 - 18:00 大学院
-- 学生に課題として,MeCabをVBから利用する方法を調べさせている.私自身は,私はLinuxでC言語で呼び出す方法しか行ったことがない.学生の話では,Windows版には外部ライブラリがないというようなことだった.ではVBのShell関数かProcessクラスでなんとかならないのかと話していた.で,今日,実際に見本を作ってみようと思って初めてWindows版のMeCabのフォルダを見てみた.すると libmecab.dll がちゃんと用意されているではないか.SHELL関数だのProcessクラスだのを実行する際,引数をどう渡すかなど,ゴチャゴチャと悩む必要などない.
-- 定時帰宅,定時就寝

* 2007年 12月11日(火) 雨 [#l4c03c97]
- 06:00 起床
- 07:30 研究室 
-- 朝一で,また部屋の片付けをしてしまった.疲れた.
-- T氏来訪.学務について.
-- Rユーザー会で利用したスライド&ref(管理者/ishida07.pdf);を統数研に送る.
-- 統数研への共同研究申請書類作成
-- 新規のルータの設定を変えた.
-- お昼.乾麺
- 午後
-- H氏来訪.学務について.
-- 総務に共同研究承諾書の申請
-- 14:30-16:05 演習
-- 出張前の仕事に戻ろうと思うんだけど,すぐには詳細を思い出せない.
//-- H大のK先生より返信もらう.
- 定時帰宅,定時就寝

* 2007年 12月10日(月) 晴 [#g3c643db]
- 06:00 起床
-- N軒屋の立ち番が今日は4人だった
- 07:30 研究室 (整頓)
- 午前
-- 学外の研究者方との事務連絡などのメール書きに追われる
-- 先週届いていたルータのセッティング.マニュアルをチラッと見ると,設定のためのURLは192.168.0.1.が,アクセスできない.はて?とおもってルータの接続など再確認するが,同じ.何気なく192.168.1.1としたら,アクセスできた.これってマニュアルのミスなのか,あるいは,WANにつないだハブに,二つのルータを接続しているからか(そんなの関係ないと思われるけど)?
-- Springerから,新刊が届いた.訳者あとがきに誤植を発見.私のミスではなく,編集部の方で生じた誤植の模様.
-- お昼.乾麺
- 午後
-- H氏,来訪.色々と相談.
-- 共同研究の内容を検討する
-- 研究室の本の一部を箱詰めした.疲れた
-- H氏来訪.学務について.
- やや送れて帰宅し,定時に就寝


* 2007年 12月9日(日) 東京 晴 [#x7e71e5e]
- 07:00 起床
--08:15 部屋で和定食.
- 午前
--- 10:30 秋葉原に寄る.
--11:30 空港
- 午後
--- お昼.空港5Fの kihachi で豪州肉のステーキ.あまりうまくない.
-- 16:00 自宅に戻る.
- 寿司取って,どっと寝る.

* 2007年 12月8日(土) 東京 晴 [#ce067856]
- 06:00 起床
- 午前
--08:15 部屋で和定食
-- 09:30 統計数理研究所着
--- 午前はゲノム研究所の樋口先生らの講演.
- 午後
-- 広尾駅近くの蕎麦屋で鴨南蛮
-- 14:20 より発表
--- 質問をいくつか頂いたのだが,右耳難聴なので,例によってトンチンカンな返答をしたようである.反省.いい加減に補聴器が必要かなと思い始める.
-- 幾つか講演のご依頼を受ける。また共同研究などのお誘いを幾つか頂く。とてもありがたい。
-- ホテルに戻り,またまた赤坂プリンスのレストランへ.メニューは白子のかぶら包,京ネギの緑ピューレとトマトの赤ピューレがけ.ゼラチン質控えめのテリーヌ.京野菜をふんだんに使った鯛,鴨肉など.だいぶ散財したもよう.
- 就寝したのは12時ぐらい.

* 2007年 12月7日(金) 晴 [#lb4eb0fa]
- 06:00 起床
- 午前
-- 朝9時の飛行機で東京に出発。
-- 10時半羽田着
-- その足で神田に出て,まつ屋でお銚子にそばと天丼
- 午後
-- 秋葉原へ寄ってから赤坂のホテルに。
-- 14:30 統計数理研究所に到着. LeischとTierny の講演を聞く.
-- 18:00 の終了後、赤坂プリンスのレストラン。メニューは,覚えているのはパスタ風の京ニンジンにカニをのせたオードブル.かぶら包のフォアグラ,スープ風の甘鯛と野菜の煮物,メインは北海道鹿と黒トリフのステーキ.デザートはチョコレートとムース.
- 就寝したのは12時ぐらい.

* 2007年 12月6日(木) 晴 [#l10f4c51]
- 06:00 起床
- 07:30 研究室(整頓)
- 午前
-- 統数研に書類を返送.
-- 今日も Ubuntu のアップデートが24個あった.
-- あー,統計関連の英語メールが読まないままに溜まっていく...
-- 明日から東京へ出張する.東京生まれの東京育ちなのだが,その後地方暮らしが長く,何となく東京に出るとなるとキンチョーする.東京メトロの路線図など眺めてみる.この歳になって親に車で迎えに来させるというのもあれだし.
-- Dickens の六つの長編小説をつなぎ合わせた約166万語のテキストをトークンにして,ベクトルオブジェクトにするという処理を R で[[こうしておこなう>R_tokenizer]]と6秒強かかる.同じ処理を[[JavaのStringTokenizerクラスとVectorクラス>Java_tokenizer]]を使って行うと1秒程度.
-- 教えて君のために,[[繰り返しのない二元配置分散分析の計算手順をRで実行したソース>R_二元配置の分散分析計算式]]を作成
--  お昼.乾麺
-- Springer  から電話.最終確認について.
- 午後
-- 12:50-14:40 演習
-- ついでなので C++ でもテキストのトークン化とベクトルオブジェクトの作成を行って時間を測ろうと思って[[プログラム>CPP_boost_tokenize]]を組んだ.コンパイルしようとしたらboostがないとエラー.Synaptic でさっそくインストールした.実装がストレート過ぎるせいか,Javaヨリも遅い...
-- 新たにレポジトリ作成
 local$mkdir Program/trunk branches tags
 local$ ssh -l mi 127.0.0.0
 server$ svnadmin create /usr/local/ubuntu/research/Program
 server$ exit 
 local$ svn import -m "from Ubuntu New Program Dir"  
    /home/mi/research/Program 
    svn+ssh://127.0.0.1/usr/local/ubuntu/research/Program
 local$rm -Rf Program
 local$svn checkout 
   svn+ssh://127.0.0.0
   /usr/local/ubuntu/research/Program/trunk Program


* 2007年 12月5日(水) 晴 [#ld79a1b9]
- 06:00 起床
- 07:30 研究室
- 午前
-- 朝一で Ubuntu のアップデートが23個もあった.ほとんどが OpenOffice 関係.
--  朝一で演習
-- スライド見直し.本当は,自分でパッケージでも作成して,その話でもした方が喜ばれるんだろけど,私のところでは,「ソフト」は業績にしてもらえないので,いまの立場では,どうしてもソフト開発の優先順序は下がってしまう. たとえ,せこい内容であっても,論文として発表したほうが,ここでは評価されるし.
-- お昼.乾麺.
- 午後
-- 古いマシンの第二ハードディスクからcorpus2006というディレクトリをまるごとコピーした.ここには,各種解析関係の自作 java あるいは Perl プログラムがある模様.
-- makeBase.plという自作のPerlスクリプトがあったので,なんじゃらと思って実行してみたら,基礎的な言語解析と,他プログラムへの入力となるファイルを全部作成してくれた.一応,チェックしよう.
--  makeBase.pl .我ながら凄いの作ってるなぁ.このうちPerlで作成した分については,以下を付記して,UTF-8化しておこう.
 use utf8;
 binmode(STDIN, ":utf8");
 binmode(STDOUT, ":utf8");
 use open ':utf8';
--[[ブログ地図BLOGRANGER TG:http://ranger.labs.goo.ne.jp/]]って面白い.要するに[[自己組織化マップ>WikiPedia.ja:自己組織化マップ]]だ.
-- 先月はじめにドイツに発注した離散分布に関する古書がまだ届かない.向こうは航空便で送ったといっている.確認のメールを送ったら,税関で止められているのではないかと言ってきた.税関でチェックされるの?
-- 18:00-19:30 大学院
-  通常より遅く帰宅し,一杯やって通常より遅く就寝

* 2007年 12月4日(火)  晴 [#od768783]
- 06:00 起床
-- N軒屋の立ち番確認
- 07:30 研究室(整頓)
- 午前
-- 教えて君.出張前に弱ったな.
-- スライドの最終調整終了.
-- さて,一ヶ月位前から中断していた作業を再会するかな.しかし,そもそも何をしていたか,あまりよく思い出せない.当ブログを検索して探すか.
--- TreeTagger の出力を編集し,Rに取り込むプログラムを作成予定だったのだ.ここ数年書いてきたプログラムコードを収めているmyprogramディレクトリを見てみたら,大量のファイルとフォルダがあって,ゲッソリ...
--- 最初から整理しようか.えーと,目的はドイツ語テキスト解析で,ドイツ語テキストを扱うのは,これが最後にするつもりと.
--- 大昔に書いたプログラムメモがあった.my2006Corpus.html.無いよりはマシという感じで,眺める.
--- TreeTaggerは,句の単位に分割するには

 tagger-chunker-german  kafka.iso.txt > kafka.iso.kekka

--- 単語単位に分割するには

 tree-tagger-german kafka.iso.txt > kafka.iso.kekka
-- お昼.クーとか言う妙な食堂に行った.1500円.
-- 統数研から講演の振込関係の書類が届いた.
- 午後
-- 教えて君のため,分散分析表を,[[久しぶり修正項を利用した手計算:http://koko15.hus.osaka-u.ac.jp/members/yoshida/shokabo/chap8.html]]で作成してみた.Rでやると,まずT1,T2,T3に水準ごとのデータを入れて

 T1N <- length(T1)
 T2N <- length(T2)
 T3N <- length(T3)
 
 CT <- (sum(T1,T2,T3))^2 / sum(T1N,T2N,T3N)
 SST <- sum(T1^2,T2^2,T3^2) - CT
 SSW <- sum(T1^2,T2^2,T3^2) - (sum(T1)^2/T1N +
       sum(T2)^2/T2N + sum(T3)^2/T3N)
 SSB <- (sum(T1)^2/T1N + sum(T2)^2/T2N 
     + sum(T3)^2/T3N) - CT

もちろん,普通は aov() 関数を使って解きます.
-- ps/2 -> USB 変換ケーブルが届いた.さっそく使ってみる.マウスとキーボードを,パソコン側では一つのUSBにつなげる.満足.
--- 快適なんだけど,結局,DELLオリジナルのペコペコキーボードに戻してしまった.慣れというのは恐ろしい...
-- TreeTagger の出力に戻る
--- 素直に解析すると,
 tree-tagger-german kafka.iso.txt 
 &#187;	$(	&#187;
 Was	PWS	was
 ist	VAFIN	sein
 mit	APPR	mit
 mir	PPER	ich
 geschehen	VVINF	geschehen
 ?	$.	?
 &#171;	$(	&#171;
 dachte	VVFIN	denken
 er	PPER	er
 .	$.	.
と言う結果になる.$を含む行は記号類と判断してよろしいか?また,こっちは
 tagger-chunker-german  kafka.iso.txt
 &#187;	$(
 <NC>
 Was	PWS
 </NC>
 <VC>
 ist	VAFIN
 </VC>
 <PC> 
 mit	APPR
 mir	PPER
 </PC>
 <VC>
 geschehen	VVINF
 </VC>
 ?	$.
 &#171;	$(
 <VC>
 dachte	VVFIN
 </VC>
 <NC>
 er	PPER
 </NC>
 .	$.
どっちが出力として扱いやすいというか,便利というか...
-- やっぱり後者の出力を使って,一度に得られるだけの情報を得るというのが普通だろうなぁ.
-- [[Gutenbergのドイツ語系テキスト:http://www.gutenberg.org/browse/languages/de]] には,ISO-8859-1によるテキストファイルと,ウムラウト類を &amp;auml; に変換したhtmlファイルの2種類があるのだが,自分の UTF-8環境で一番トラブる可能性がより少ないのはどちらだろうか?
--- [[Java で文字種が大文字小文字の判定をする方法:http://sdc.sun.co.jp/java/docs/j2se/1.4/ja/docs/ja/api/java/lang/Character.html#isLowerCase(char)]].これは特殊文字にも対応しているんだろうか?
-- ウムラウトの処理などのための[[役立ちそうなpdfファイル:http://informatik.unibas.ch/lehre/ws05/cs101/folien/06_ZeichenKetten.pdf]]を見つけた.
- 定時帰宅,定時就寝

* 2007年 12月3日 (月) 雨のち曇 [#gea1be09]
- 06:00 起床
-- 兄弟と思しき小学生二人が登校していた.二人とも透明のビニール傘をさしている.自宅から出てきたはずと思うのだが,黄色い通学傘とか,そんなものをさしていても良さそうな気がするのだが.ビニール傘はないだろう.大きなお世話であるが...
- 07:30 研究室(整頓)
- 午前
--  スライド作り直し.冗長な部分多すぎ.削れ,削れ!
---  そうとう思い切って削った.今度は時間が余りゃしないか?
--  お昼.乾麺
- 午後
-- Springer から新刊の発行部数の連絡.さすがにR本よりは多いな.
--  スライド見直し終了.これで,まあ,いいだろう.
-- 名刺作ろう.
--- Canonの古いインクジェットプリンタを使っているのだが,初回の印刷時は,ガチャガチャ激しくウォームアップをやってくれる.
--- 作成した名刺を印刷してみると,何となくいまいち.モニタ上の色合いとかなり異なる色で出力されていたりする.まあ名刺そのもののデザインが問題なのではなく,プリンタの問題だということにしておこう...
---   名刺は自宅のプリンタで印刷した方が良さそう...
-- 15:00 スライドの口頭部分を抜き出して印刷.結局一日かかった.
---  作成されたpdfの容量は約800KB.まあ,こんなものかな.アニメーション効果をもう少し検討しても良いかもしれない.もっともprosperで利用可能なのは Split Blinds Box Wipe Dissolve Glitter Replace だけで,最後の Replace というのは,確か何もしないということだった.
-  いま気がついた.今日は私の誕生日ではないか.あー,歳喰った.
-- 早めに帰ってワイン空けよう.
-- 少し前に図書紹介で,数理心理学とか言う本があったと思うのだけど,Amazonで検索して出てきた「数理心理学―心理表現の論理と実際 (心理学の世界 専門編 16) (単行本)」 というのは,違う気がするなぁ.確か,以前学会でお会いした時,鋭い質問を寄せてくださったC大学のC先生が書いていたように思うのだけど,こちらで検索しても出てこない.おもしろそうだなと思ったら,その場で発注しておくべきだった.
#ref(wine20071203.PNG,nowrap,right,nolink,Volnay Clos Des Chenes)
- 定時より早めに帰宅
-- 自宅でスライドチェック.また名刺を作成.
- wine Volnay Clos des Chenes 1966, No.0259*
- その他,白鶴など飲むだけ飲んで,遅れて就寝.

* 2007年 12月2日 (日) 晴 [#m3650825]
- 06:50 起床
-- プレゼンを一通り眺めてみた.長い.長すぎる.
- 飲むだけ飲んで定時就寝.

* 2007年 12月1日(土) 晴 [#r83c8a52]
- 06:00 起床
-- 12月になってしまった...
- 07:30 研究室着 (整頓)
- 午前
--  昨日の業務日誌で触れた[[生態学会>http://hosho.ees.hokudai.ac.jp/~kubo/ce/EcoSj2008.html]]とは別に,やはりRの講習会が,さる学会でも実施される模様.まだまだユーザーが増えていくのは確実だと思われるので,来週の[[統数研での報告>http://jasp.ism.ac.jp/meetings/R2007/]]が終わったら,改めてRの仕事に手をつけるかな.
-- T 氏来訪.雑談
-- お昼.乾麺.
- 午後
-- 統数研での発表に関連して ''tm パッケージ''を再度チェック.[[tmパッケージ>R_tmパッケージの使い方]]には [[Reuters-21578:http://www.daviddlewis.com/resources/testcollections/reuters21578/]] のサブセットが含まれているが,そのサイズをチェック.tmパッケージを作成したFeinererは,Reuters21578のサブセット,約1,700の文書を対象にカーネルストリングを計算している.その実行にRを使っているわけだが,その計算時間が2時間だったそうな.
--  スライド完成.46枚.これで約40分何とかなるかな?
--  冷蔵庫に残っていたヨーグルト食べた.賞味期限が11月13日であった...発酵食品だから問題ないと自分に言い聞かせる.
-- スライド微調整.一部のタームの字体を変えたり,文字色を黄色くしたり,赤くしたり.ついつい色をつけすぎて,何だかゴタゴタしたスライドになってしまうのが落ちなのだが...
-- prosper で作成したTeXソースをスライド部分と,そのコメント部分に分けるperlスクリプトと,処理を一括するbashスクリプトを作っておいた.
--  何気なく[[こういうPukiwikiページ:http://www.cas.dis.titech.ac.jp/~higo/wiki/study/index.php?FrontPage]]を見ていたら,'' [[CRF(conditional random field):http://www.inference.phy.cam.ac.uk/hmw26/crf/]] ''による日本語解析についての[[わかりやすいプレゼン資料(ppt):http://chasen.org/~taku/publications/nl161-slide.ppt]]を発見した.CRFについては,9月の行動計量学会の際に,ゲノム科学研究所の樋口さんに教えてもらっていた.
-- また[[Conditional Random Fieldsを用いた日本語形態素解析(解析):http://ci.nii.ac.jp/naid/110002911717/en/]]と言う論考もある.以下は''そのレジュメの引用''である.
> 本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.

-- これをRで実現するには,どうするかなぁ.
-- うーーん,勉強しなければならないことが山ほどあるのに,自由に使える時間はわずかしかない.
- 定時帰宅,やや飲みすぎて就寝.