日録2007_12月 のバックアップ差分(No.12) - アールメカブ

アールメカブ


日録2007_12月 のバックアップ差分(No.12)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[過去の日録]]

新刊です.[[『最短経路の本』シュプリンガー・ジャパン:http://www.springer.jp/japan/math/j10011.html]]
新刊です. 
[[『最短経路の本』シュプリンガー・ジャパン:http://www.springer.jp/japan/math/j10011.html]]

#ref(日録2007_11月/lena5.PNG,nowrap,center,nolink,最短経路の本ーレナのふしぎな数学の旅)

* 2007年 12月4日 晴 [#fe36bcb9]
- 06:00 起床
-- N軒屋の立ち番確認
- 07:30 研究室(整頓)
- 午前
-- 教えて君.出張前に弱ったな.
-- スライドの最終調整終了.
-- さて,一ヶ月位前から中断していた作業を再会するかな.しかし,そもそも何をしていたか,あまりよく思い出せない.当ブログを検索して探すか.
--- TreeTagger の出力を編集し,Rに取り込むプログラムを作成予定だったのだ.ここ数年書いてきたプログラムコードを収めているmyprogramディレクトリを見てみたら,大量のファイルとフォルダがあって,ゲッソリ...
--- 最初から整理しようか
+ テキスト選定基準の明文化
+ テキスト選定
+ テキスト処理 1: トークナイズ
+ テキスト処理 2: 句で分解
+ それぞれの統計量を負の二項分布,あるいはHyper-Pascal あるいは Hyper-poisson に当てはめてみる
+ Menzereth-Altmann-law が日本語に当てはまるか?
--- 大昔に書いたプログラムメモがあった.my2006Corpus.html.無いよりはマシという感じで,眺める.
--- TreeTaggerは,句の単位に分割するには

 tagger-chunker-german  kafka.iso.txt > kafka.iso.kekka

--- 単語単位に分割するには

 tree-tagger-german kafka.iso.txt > kafka.iso.kekka
-- お昼.クーとか言う妙な食堂に行った.1500円.
- 午後
-- 教えて君のため,分散分析表を,[[久しぶり修正項を利用した手計算:http://koko15.hus.osaka-u.ac.jp/members/yoshida/shokabo/chap8.html]]で作成してみた.
-- 教えて君のため,分散分析表を,[[久しぶり修正項を利用した手計算:http://koko15.hus.osaka-u.ac.jp/members/yoshida/shokabo/chap8.html]]で作成してみた.Rでやると,まずT1,T2,T3に水準ごとのデータを入れて

 T1N <- length(T1)
 T2N <- length(T2)
 T3N <- length(T3)
 
 CT <- (sum(T1,T2,T3))^2 / sum(T1N,T2N,T3N)
 SST <- sum(T1^2,T2^2,T3^2) - CT
 SSW <- sum(T1^2,T2^2,T3^2) - (sum(T1)^2/T1N +
       sum(T2)^2/T2N + sum(T3)^2/T3N)
 SSB <- (sum(T1)^2/T1N + sum(T2)^2/T2N 
     + sum(T3)^2/T3N) - CT

もちろん,普通は aov() 関数を使って解きます.
-- ps/2 -> USB 変換ケーブルが届いた.さっそく使ってみる.マウスとキーボードを,パソコン側では一つのUSBにつなげる.満足.
--- 快適なんだけど,結局,DELLオリジナルのペコペコキーボードに戻してしまった.慣れというのは恐ろしい...
-- TreeTagger の出力に戻る
--- 素直に解析すると,
 tree-tagger-german kafka.iso.txt 
 &#187;	$(	&#187;
 Was	PWS	was
 ist	VAFIN	sein
 mit	APPR	mit
 mir	PPER	ich
 geschehen	VVINF	geschehen
 ?	$.	?
 &#171;	$(	&#171;
 dachte	VVFIN	denken
 er	PPER	er
 .	$.	.
と言う結果になる.$を含む行は記号類と判断してよろしいか?また,こっちは
 tagger-chunker-german  kafka.iso.txt
 &#187;	$(
 <NC>
 Was	PWS
 </NC>
 <VC>
 ist	VAFIN
 </VC>
 <PC> 
 mit	APPR
 mir	PPER
 </PC>
 <VC>
 geschehen	VVINF
 </VC>
 ?	$.
 &#171;	$(
 <VC>
 dachte	VVFIN
 </VC>
 <NC>
 er	PPER
 </NC>
 .	$.
どっちが出力として扱いやすいというか,便利というか...
-- やっぱり後者の出力を使って,一度に得られるだけの情報を得るというのが普通だろうなぁ.
-- [[Gutenbergのドイツ語系テキスト:http://www.gutenberg.org/browse/languages/de]] には,ISO-8859-1によるテキストファイルと,ウムラウト類を &amp;auml; に変換したhtmlファイルの2種類があるのだが,自分の UTF-8環境で一番トラブる可能性がより少ないのはどちらだろうか?
--- [[Java で文字種が大文字小文字の判定をする方法:http://sdc.sun.co.jp/java/docs/j2se/1.4/ja/docs/ja/api/java/lang/Character.html#isLowerCase(char)]].これは特殊文字にも対応しているんだろうか?
-- ウムラウトの処理などのための[[役立ちそうなpdfファイル:http://informatik.unibas.ch/lehre/ws05/cs101/folien/06_ZeichenKetten.pdf]]を見つけた.


* 2007年 12月3日 雨のち曇 [#l2c5363d]
- 06:00 起床
-- 兄弟と思しき小学生二人が登校していた.二人とも透明のビニール傘をさしている.自宅から出てきたはずと思うのだが,黄色い通学傘とか,そんなものをさしていても良さそうな気がするのだが.ビニール傘はないだろう.大きなお世話であるが...
- 07:30 研究室(整頓)
- 午前
--  スライド作り直し.冗長な部分多すぎ.削れ,削れ!
---  そうとう思い切って削った.今度は時間が余りゃしないか?
--  お昼.乾麺
- 午後
-- Springer から新刊の発行部数の連絡.さすがにR本よりは多いな.
--  スライド見直し終了.これで,まあ,いいだろう.
-- 名刺作ろう.
--- Canonの古いインクジェットプリンタを使っているのだが,初回の印刷時は,ガチャガチャ激しくウォームアップをやってくれる.
--- 作成した名刺を印刷してみると,何となくいまいち.モニタ上の色合いとかなり異なる色で出力されていたりする.まあ名刺そのもののデザインが問題なのではなく,プリンタの問題だということにしておこう...
---   名刺は自宅のプリンタで印刷した方が良さそう...
-- 15:00 スライドの口頭部分を抜き出して印刷.結局一日かかった.
---  作成されたpdfの容量は約800KB.まあ,こんなものかな.アニメーション効果をもう少し検討しても良いかもしれない.もっともprosperで利用可能なのは Split Blinds Box Wipe Dissolve Glitter Replace だけで,最後の Replace というのは,確か何もしないということだった.
-  いま気がついた.今日は私の誕生日ではないか.あー,歳喰った.
-- 早めに帰ってワイン空けよう.
-- 少し前に図書紹介で,数理心理学とか言う本があったと思うのだけど,Amazonで検索して出てきた「数理心理学―心理表現の論理と実際 (心理学の世界 専門編 16) (単行本)」 というのは,違う気がするなぁ.確か,以前学会でお会いした時,鋭い質問を寄せてくださった中京大学の千野直仁先生が書いていたように思うのだけど,こちらで検索しても出てこない.おもしろそうだなと思ったら,その場で発注しておくべきだった.
#ref(wine20071203.PNG,nowrap,right,nolink,Volnay Clos Des Chenes)
- 定時より早めに帰宅
-- 自宅でスライドチェック.また名刺を作成.
- wine Volnay Clos des Chenes 1966, No.0259*
- その他,白鶴など飲むだけ飲んで,遅れて就寝.

* 2007年 12月2日 晴 [#l5cb8dc3]
- 06:50 起床
-- プレゼンを一通り眺めてみた.長い.長すぎる.
- 飲むだけ飲んで定時就寝.

* 2007年 12月1日 晴 [#i0bde7d3]
- 06:00 起床
-- 12月になってしまった...
- 07:30 研究室着 (整頓)
- 午前
--  昨日の業務日誌で触れた[[生態学会>http://hosho.ees.hokudai.ac.jp/~kubo/ce/EcoSj2008.html]]とは別に,やはりRの講習会が,さる学会でも実施される模様.まだまだユーザーが増えていくのは確実だと思われるので,来週の[[統数研での報告>http://jasp.ism.ac.jp/meetings/R2007/]]が終わったら,改めてRの仕事に手をつけるかな.
-- T 氏来訪.雑談
-- お昼.乾麺.
- 午後
-- 統数研での発表に関連して ''tm パッケージ''を再度チェック.[[tmパッケージ>R_tmパッケージの使い方]]には [[Reuters-21578:http://www.daviddlewis.com/resources/testcollections/reuters21578/]] のサブセットが含まれているが,そのサイズをチェック.tmパッケージを作成したFeinererは,Reuters21578のサブセット,約1,700の文書を対象にカーネルストリングを計算している.その実行にRを使っているわけだが,その計算時間が2時間だったそうな.
--  スライド完成.46枚.これで約40分何とかなるかな?
--  冷蔵庫に残っていたヨーグルト食べた.賞味期限が11月13日であった...発酵食品だから問題ないと自分に言い聞かせる.
-- スライド微調整.一部のタームの字体を変えたり,文字色を黄色くしたり,赤くしたり.ついつい色をつけすぎて,何だかゴタゴタしたスライドになってしまうのが落ちなのだが...
-- prosper で作成したTeXソースをスライド部分と,そのコメント部分に分けるperlスクリプトと,処理を一括するbashスクリプトを作っておいた.
--  何気なく[[こういうPukiwikiページ:http://www.cas.dis.titech.ac.jp/~higo/wiki/study/index.php?FrontPage]]を見ていたら,'' [[CRF(conditional random field):http://www.inference.phy.cam.ac.uk/hmw26/crf/]] ''による日本語解析についての[[わかりやすいプレゼン資料(ppt):http://chasen.org/~taku/publications/nl161-slide.ppt]]を発見した.CRFについては,9月の行動計量学会の際に,ゲノム科学研究所の樋口さんに教えてもらっていた.
-- また[[Conditional Random Fieldsを用いた日本語形態素解析(解析):http://ci.nii.ac.jp/naid/110002911717/en/]]と言う論考もある.以下は''そのレジュメの引用''である.
> 本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.

-- これをRで実現するには,どうするかなぁ.
-- うーーん,勉強しなければならないことが山ほどあるのに,自由に使える時間はわずかしかない.
- 定時帰宅,やや飲みすぎて就寝.