日録2007_12月 のバックアップの現在との差分(No.21) - アールメカブ

アールメカブ


日録2007_12月 のバックアップの現在との差分(No.21)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[過去の日録]]

新刊です. 
[[『最短経路の本』シュプリンガー・ジャパン:http://www.springer.jp/japan/math/j10011.html]]

#ref(日録2007_11月/lena5.PNG,nowrap,center,nolink,最短経路の本ーレナのふしぎな数学の旅)
* 2007年 12月31日(月) 曇/晴 [#q65f20d3]
- 07:10 起床
-- 時に雪が混じる寒さ。
-- 昨日片づけをしたので、特にすることなし。なんとなくぼんやり過ごす。数理統計学のエレメンタリーな本を100ページほど読んでから、一献(というか、たっぷり飲む)。
- 7:00よりNHKニュース。他に何もないので第九を聞く。
-- 新年前に就寝。
-- 来年頑も張ろうか.
- 来年も良い年でありますように。

* 2007年 12月10日(月) 晴 [#da25b384]
* 2007年 12月30日(日) 曇/雨 [#k4a20d6f]
- 07:10 起床
-- 時に雪が混じる寒さだが、時々明るい日光がさす。その間にうっかり布団を干してしまった。気がつくと、猛烈な霙が降っていて、布団がびしょぬれ。ただ、その後再び日光が差してきたので、すかさず布団を干しなおし、何とか乾いてくれた。。。
- 今日は一日新年準備
-- 賀状など書く。
- 本は読まず。

* 2007年 12月29日(土) 曇 [#wa22032d]
- 07:10 起床
-- 無意味に二日酔いぎみ.年賀状は,今年も大晦日に書くことになりそう.
--  08:30 研究室着(整頓).
- 午前
-- かなり大掛かりな片付けをしてしまった.疲れた.お昼は乾麺.
-- &color(blue){VisualC++};の解説を書こうとしたら,ネタ本が一冊ない.学生に貸したままであるのに気がつく.この仕事は年越しか...
- 午後
-- [[Rizzo の Statistical Computing with R:http://personal.bgsu.edu/~mrizzo/SCR.htm]] を眺める.乱数生成について,50ページも割かれている.また後半は Monte Carlo 法をはじめとした,各種シミュレーションの話が続く.この辺は面白そうなので,実際にコードを実行しながら読み進める. 
--- 積分について,解析的に求めた結果と,Monte Carlo シミュレーションで求めた結果との比較が続く.各所にサマリーがあって,これが便利.例えば p.121には
++ Generate &mathml(X_1); , ..., &mathml(X_m); iid from Uniform(a,b)
++ Compute &mathml(g(X) = \frac{1}{m} g(X_i));
++ &mathml(\theta = (b - a) g(X));
--- などなど,なかなか面白い.この正月もいじってみよう.
--- [[気になるコード>R_dim]]があった.標準正規分布の積分をMonte Carlo法で計算すると言うところ(p.123).
-- 論文の執筆.早く書き終えて,本の執筆に移りたい.
-- quantile  と quartile の言葉の使い分けが,いつもこんがらがる.その度に間瀬先生の『工学のためのデータサイエンス入門』p.4を参照する.quarter と関連付ければ良いだけなのだが.要するにデータを小さい順に並べたとき,確率pの位置にあるデータの値をp quantile という訳だが,特に0.25,0.75 に対応する quantile を 1st. quartile, 3rd. quartile と呼ぶわけだ.quantile の確率をパーセント%で行った場合がpercentileである.
 
-- 役立ちそうなサイトを発見[[統計用語集:http://stat.sci.kagoshima-u.ac.jp/dic/index.html]].これも役に立つ???[[ツボ道場:http://www.tubodojo.com/]]
-- 色々と電源を落として,若干早めに帰宅.
- 深酒し、定時よりやや遅れて就寝。

* 2007年 12月28日(金) 雨 [#j362f46e]
- 06:10 起床
--  07:30 研究室着
- 午前
-- サーバーに address07 を登録.
-- 古い Fedora6マシンのKDE上での音量調節だが,コマンドラインから alsamixer を起動するしかないのだろうか?
-- 志賀『解析入門30講』朝倉書店を眺める.志賀氏の本を私は結構読んでいる.数学が嫌いではない人に,より高度な数学を解説すると言う本が多く,面白い.ただ難を言うと,どの本でも接続詞や代名詞の使い方に曖昧な所が多々あって,日本語としては文のつながりが曖昧である.その曖昧な部分を,そこで説明されている数学的内容から推測すると言う,やや本末転倒なところがあったりする.
-- &mathml(E[X] = \int g(x)f(x) dx); が分からない,と.まず &mathml(E[X] = \int xf(x) dx); という式があったら,x という「結果」(サイコロなら1とか2とか)が f(x) の確率(サイコロなら1/6)で出現するという意味です(ただしサイコロの場合は式に &mathml(\sum);を使います).この x が(サイコロ以外の場合を考えて)どういう結果,つまり数値になるのかを,別の関数 g(x) で求められるとして,f(x) は,ある g(x) の結果が出る確率を表す関数です.
-- お昼.乾麺
- 午後
-- 分割表を割合に直して,ピアソンの適合度/独立性の検定を行って良いのか,と.まずいでしょう.以下のRによる結果をご覧下さい.

 > xx <- matrix(c(15, 5, 5, 15), ncol = 2)
       [,1] [,2]
 [1,]   15    5
 [2,]    5   15
 
 > xxx <- xx/ sum(xx)
       [,1]  [,2]
 [1,] 0.375 0.125
 [2,] 0.125 0.375
 
 > chisq.test(xx, corr =F)
	Pearson's Chi-squared test
 data:  xx 
 X-squared = 10, df = 1, p-value = 0.001565
 
 >chisq.test(xxx, corr =F)
	Pearson's Chi-squared test
 data:  xxx 
 X-squared = 0.25, df = 1, p-value = 0.6171

--- xxx の方は,カイ二乗値を n で割った値に一致し,カイ二乗値そのものではありませんので,この割り算の結果をカイ二乗分布と比べるわけにはいきません.
--  で,我ながら集中力がなくて困るが,ここでC. E. McLaren, J. M. Legler, G. M. Brittenham,The Generalized $\chi2$ Goodness-of-fit Test, Journal of the Royal Statistical Society : Series D (The Statistician) Vol. 43, No. 2,pp. 247-258 に目を通し始めた.ここで,以前から気になっていた,&mathml(\chi^2/n);  の出所が分かった.Mosteller, F. (1968). “Association and Estimation in Contingency Tables.” Journal of the American Statistical Association と D. S. Moore. Measures of Lack of Fit From Tests of Chi-Squared Type. [[pdf:http://www.stat.purdue.edu/research/technical_reports/1983-tr.html]] Published in Journal of Statistical Planning and Inference, Vol. 8, pp. 151-166.後者はpdfが公開されていたのでダウンロードした.前者は学内蔵書があるようだが,[[電子ジャーナル:http://www.lib.tokushima-u.ac.jp/xls/ejlistJ.html]]には登録されていないのか?
-- TeXで原稿を書いていて参考文献を記載する時,jbibtex+jecon.bst を使っているのだが,InBook と InCollectionの違いがよく分からない.調べてみると,[[こんなページ:http://hp.vector.co.jp/authors/VA022047/linux/bibtex.html]]があって参考になる.ついでに,[[ここ:http://park.zero.ad.jp/~zbc08106/tex/bibeco-ja.html]]も参考.
-- 複写した論文類を整理する良い方法がないものか.Mosteller & Wallance,Interference in an authorship problem,1963,Journal of the American Statistical Association 58,275-309 が見当たらない.
- 定時帰宅するも,深酒して12時前に就寝

*2007年 12月27日(木) 晴 [#ge50b4de]
- 06:20 起床
--  07:40 研究室着
- 午前
-- pukiwiki.el は使いにくいので,最近では素直にブラウザを使って入力している.そこでFiremacs  プラグインを導入した.
--  [[Bayesian Computation with R>RでBayes]]をとりあえず読み進める.何だか数式が天下り的に与えられているのだが,導出は他書を参考せよ,と言うことなんだろうか.黙って読み進めれば良いのだろうけど,気になるので,渡部やら繁桝やら,Leeやらを手に取って,そっちを読み込んでしまうので,Albertの方はちっとも進まない...
-- Rizzo の Statistical Computing with R の[[サイト:http://personal.bgsu.edu/~mrizzo/SCR.htm]]
-- お昼.乾麺
- 午後
-- forTreeTagger プログラム作り.
-- TreeTagger の出力を使って,文を「句」を単位に測るのは,かなり無理がありそうだ.
-- 頭を整理するため,とりあえず草稿を書き始めた.いつもTeXで文章を書いているのだが,細かいコマンドは忘れてしまっている.文献参照を挿入するショートカットはどうだったっけ,とか.

 % Bibtex 編集 
 % 相互参照は
 % M-x reftex-citation = \C-c [ でキーワードを入力
 % string 引数が云々とか言うエラーが出たら
 % \M -x reftex-mode を実行,あるいは一度文献コンパイルを実行し
 % \C-c [ と操作すると文献のキーワードを尋ねて来る.
 % \C-c s cite (\C-c \C-s SPACE cite) とすると
 % \bibliographyで指定した文献ファイルから候補を全て表示
 % bibファイルの編集では
 % \C-c \C-e \C-a で論文テンプレート 
 % \C-c \C-e b で単行本
 % \C-c \C-c で不要な項を省け,またキーワードを作成してくれる

でしたね.
-- 18:30 T氏来訪.薩摩のお土産を頂く.
- 定時帰宅,定時就寝

* 2007年 12月26日(水) 曇 [#a0df1933]
- 06:20 起床
-- 意味なく二日酔いぎみ.
--  07:40 研究室着(整頓)
- 午前
-- 昨日に引き続き,Jim Albert [[Bayesian Computation with R>RでBayes]]
-- お昼.乾麺.ヨーグルト.
- 午後
-- ひたすらベイズ.
-- 生協におやつと切手を買いに行ったら,新刊書コーナーの目立つところに『最短経路の本』が飾られていた.
-- Albertの2章に入ったが,アメリカンフットボールのスコア?についての例が出てくる.アメリカンフットボールのルールをまるで知らないので,こういう例は弱る.
--- 同じく平均が既知(0)で分散が未知の場合の,分散の尤度関数がサクッと与えられているけど,それで済むのかな?渡部p.113などは,ちゃんと導いているけど.
//http://www.forest.impress.co.jp/lib/sys/file/fileseprat/jydivide.html
- 定時帰宅,定時就寝

* 2007年 12月25日(火) 曇 [#m6f98db4]
- 06:00 起床
--  07:30 研究室着
- 午前
-- 研究補助費を獲得したのは良いが,信頼して仕事を任せられる大学院生が周りにいない.
-- yahooのトップページ上部のクリスマス向けアニメは,サンタがスムーズに移動したりして,よくできてるなぁ,と感心しつつ,何気なく右クリックしたらやっぱりFlashであった.去年もあったのかもしれないが,前は64ビットマシンだったので,動かなかったであろう.
-- 10時より会議(将来構想).暮れになってご苦労様なことです.その間,
充電.
- 午後.H氏と近所のカレー屋.ここも客がタバコを吸うのを黙認するから困るのだが,他に近場にまともな食べ物屋はないし.タバコなんざ500%位税金をかけたら良かろうと思うけど.
//二人分で1440円
-- Rizzo の Statistical Computing with R を眺めると,11章が数値計算に当てられている.ここに John F. Monahan の Numerical Methods of Statistics がexcellent resource for statisticians with limited background in numerical analysis  とあったので,ちょっと高かったけど,これをさっそく発注する.
-- 統計学の専門家には自明であっても,学生には通じっこない略語.Rizzoを例に. 
++ &color(blue){cdf}; : cumlative distribution function, p.21
++ &color(blue){pmf}; : probability mass function, p.21
++ &color(blue){iid}; : independent and identically distributed, p.25
-- Rizzoはまたゆっくり見るとして,ベイズを少し.Jim Albert [[Bayesian Computation with R>RでBayes]] を始めから読み始める.また''LearnBayess_1.0.tar.gz''パッケージをインストール.すると,次のような警告だかエラーだかが大量に出るのだが,一応動く模様...

 Note: unmatched right brace in 'bayes.probit' on or after line 16

-- &color(red){位置母数};と&color(red){尺度母数};についてグラフィカルに説明した和書を,つい最近読んだ気がするのだが,思い出せない...渡部洋『ベイズ統計学入門』ならp.45だが,これ以外,最近手に入れた本であったはず.
--- 見つけた.中妻著 『入門 ベイズ統計』p.92-93であった.
>
...図4.1の上段ではσを1に固定し,μを0,-4,4と変化させています... しかし,山の形そのものは変化しません.ただ分布の山の位置が変化するだけです.このようにμは分布の山の位置を決定するパラメータなので,&color(red){位置パラメータ(location parameter)};と呼ばれます.一方,図4.1の下段ではμを0に固定し,σを1,2,3と変化させています.この場合は分布の山の位置はそのままで分布の広がりだけが変化しています.σは&color(red){尺度パラメータ(scale parameter)};と呼ばれます.
<
-- Albert p.23.ベータ分布に基づく仮説のアップデートの説明は結構なのだが,メディアンが.3,90%信用区間が .5 未満となるパラメータは,試行錯誤で a = 3.4, b = 7.4  は読者にちょっと不親切では?
-- p.23で [[ベータ分布>WikiPedia.ja:ベータ分布]]の確率密度関数の二つのパラメータは,分母で,それぞれが+1されるので,ややっこしい.
"the beta with kernel proportinal to ..."の部分は,とりあえずカーネルが...に比例するベータ「分布」と訳しておこう.
-- 新納 著『Rで学ぶクラスタ解析』が届く.なかなか良さそう.
- 定時帰宅,意味なく深酒してやや遅く就寝.

* 2007年 12月24日(月) 晴 [#k49afa77]
- 06:20 起床
--  07:40 研究室着(整頓).
-- 細々と整頓を続けて,11時ぐらいより仕事に.
-- お昼.乾麺.
-- 昨日また,Boostではまってしまった. [[まったくC言語の文字処理は厄介だ:http://hw001.gate01.com/eggplant/tcf/cpp/wchar_t_trap.html]].[[ここ:http://oshiete1.goo.ne.jp/qa2656001.html]]も参考に.
- 午後
-- W-Zero3の呼び出し音は小さいので,身につけていない場合,着信があっても気がつかない.そういうことが何度かあったので,もともとの音が大きいmp3ファイルを用意した.フリーで公開されている黒電話のmp3を拾って,超驚録とかいうソフトで,音量の効果を300%程度に設定し,W-Zero3に保存した.これぐらい大音量なら,他の部屋に置いてあっても聞こえるかな?
-- 「確率モデルによるWebデータ解析法」の[[潜在的意味インデキシング>WikiPedia.ja:潜在的意味インデキシング]]の項.L2行列ノルムというタームが出てくる.要するにフロベニウス・ノルムなのだが...
---L1ノルムはベクトルの各成分の絶対値の和.L2ノルムとは、ベクトルの各成分の自乗の和
-- 金谷健一『これなら分かる応用数学教室』のコラムの学生と教師のやりとりは,なかなか面白かったりする.
-- [[Rでstring_Kernel]]のため,Lodhi の文献を読む.誤植が結構あるなぁ.
- 定時帰宅
-- 帰宅してみたら,G.Wimmer & G. Altmann: Thesaurus of univariate discrete probability distributions が届いていた.確かに航空便扱いになっているようだが,日本まで1ヶ月かかるって言うのはどういうこった.中を開くと,多数の離散分布の確率分布の式が延々と載っているが,パラメータの推測などについてはまったく記載なし.期待はずれ.とんだクリスマスプレゼントである.

- 定時就寝

* 2007年 12月23日(日) 晴 [#i1645180]
- 07:20 起床
--  大学全体がネットワークを止めている模様.
- 少し飲みすぎて定時就寝.

* 2007年 12月22日(土) 雨 [#y2e06a94]
- 06:00 起床
--  07:20 研究室着.部屋の大片付けを9時頃までしてしまった.
-- 経費でMacBookを5台買うことに.黒か白かという楽しい揉め事?あり(笑).私は今ノートパソコンを持っていないので,何でもいいです.
-- お昼.乾麺.
- 午後
-- 午前の片付けの疲れか,なんとなくボーとして過ごしてしまった.
- 定時より遅れて帰宅,やや飲みすぎて就寝.

* 2007年 12月21日(金) 曇 [#q93bb15c]
- 06:00 起床
-- 今日が今年一番で寒いような気がする
-  07:10 研究室着(整頓)
--- 今日は先々週の週末出張の代休日.
- 午前
-- Peter Lee の [[Bayesian Statistics: An Introduction>書籍検索:Bayesian Statistics: An Introduction]]を来年の大学院授業で使ってみようと思う.手もとにあるのは初版なので,最新版を発注する.
-- 昨日に引き続き,「確率モデルによるWebデータ解析法」に目を通す.
--- &color(blue){bag of words}; という概念を説明するのに適切な表現がなかったのだが,この本に端的に「ドキュメントのベクトルがタームの並び替えに関して不変である」と言う説明があった.今後援用しよう.
-- 午前.来客と外食.
- 午後
-- 早くからゼミ.みんゴル.
- 定時帰宅,定時就寝


* 2007年 12月20日(木) 晴 [#qb84c968]
- 06:00 起床
-  07:20 研究室着(整頓)
-- 今日は先々週の週末出張の代休日だったかもしれない.
- 午前
-- [[RjpWiki:http://www.okada.jp.org/RWiki/]] に『最短経路の本』の本の紹介を書いてくださった方がいる.光栄なのだが,前に誰かがK先生のご著書の紹介を書いた投稿について,自作自演と中傷されていたこともあるので,ちょっと心配.
-- さて仕事を再会するぞ.
-- 森北出版の[[確率モデルによるWebデータ解析法>書籍検索:確率モデルによるWebデータ解析法]]を読む.斜め読みできるかと思っていたら,最初の方に割合にしっかりした数学的な説明があった.それなりに腰を落ち着かせて読む.
-- お昼.乾麺
- 午後
-- べき乗分布,つまりZipfの法則について[[こんなサイト:http://www.unisys.co.jp/club/forecast/no19.html]]を見つけた.
-- ゼミ.みんゴル...
- 定時より遅れて帰宅し,遅れて就寝

* 2007年 12月19日(水) 晴 [#kfe7142d]
- 06:20 起床
-- 粗大ゴミを出して,出勤
-- 07:40 研究室着
- 午前
-- この間に溜まったメールだの,手紙などのチェック
-- いくつかの書類を提出
-- 突如,教えて君がやって来たのだが,さすがに今は対応できず
- 午後
-- お昼は抜き.不在の間にだいぶ仕事が溜まっていた.
-- H氏,T氏来訪.学務について
-- 廊下で数学のO氏とバッタリ会う.ちょっと話し込む.
- 定時より遅く帰宅(整頓)

* 2007年 12月18日(火) 大阪 晴 [#y02f74d1]
- 07:00 起床
- 午前
-- 梅田周辺を散策
- 午後
-- 阪急インターナショナル Malmaison で昼食.
-- 適当に散歩
-- 15:10 バス.道路が相当込んでいる
-- 16:20 自宅着
-- この出張中に中妻著 「入門 ベイズ統計」に一通り目を通した.前に文句も言ったが,役に立つ本だと思う.
- 22:00 疲れきっていて,酒も飲まず,そのまま就寝.

* 2007年 12月17日(月) 晴 [#z2e61d33]
- 07:00 起床
- 午前
-- 11時のバスで大阪へ発つ
-- 車中で中妻著 「入門 ベイズ統計」を読む.
- 午後
-- 13:30 大阪着.その後仕事に
-- 夕食.阪急インターナショナル25F Malmaison
- 12:30 頃就寝

* 2007年 12月16日(日) 晴 [#r61d844d]
- 07:00 起床
- 午前
-- 明日から出張なので,その準備
- 適当に酒飲んで就寝


* 2007年 12月15日(土) 晴 [#aeb42bf3]
- 07:30 起床
- 09:00 研究室 
- 午前
-- 昨日飲みすぎた模様.気分が悪い.自業自得であるが.
-- お昼.乾麺
- 午後
-- 少し調子が出てきた.
--- とはいえ,すでに夕方になってしまったが,結局,ここまでまるで何もしていない.
-- ドイツから図書が届かない件について,ドイツの古書店から,発送した郵便局に問い合わせるとの返答が来た.こちらも来週には大阪国際郵便局に問い合わせをしてみよう.
-- 昨日の忘年会で話題になった,方言の形成をシミュレーションするという話題.試しに&color(blue){genetic algorithm dialects};をキーワードgoogleしたら,[[IEICE transactions on information and systems,Vol.E83-D,No.12(20001225) pp. 2183-2185 :http://ci.nii.ac.jp/naid/110003210232/]]にChinese Dialect Identification Based on Genetic Algorithm for Discriminative Training of Bigram Modelという論文があった.さっそく取り寄せたいが,学内に所蔵しているところがあって,かえって面倒である.学外なら日数はかかるが,メール一本で取り寄せられるのだが,別研究室所蔵の本は,あれこれやりとりが必要で困る.たった3ページなんだが...と,電子ジャーナルがありやしないかと思って,探したらあった.アクセスして入手した.
ほかに[[Livingstoneのサイト:http://cis.paisley.ac.uk/livi-ci0/]]ではいくつかの論文がダウンロードできる.特に[[The Evolution of Dialect Diversity:http://cis.paisley.ac.uk/livi-ci0/evoldialects-livingstone.pdf]]というのは面白そう.また
[[ここ:http://www.cse.iitk.ac.in/~hk/cs789/projects/ynSingh.pdf]]にある,Computational Modelling of Evolution of Languageというのも,少しずれるが,面白そうではある.

* 2007年 12月14日(金) 晴 [#q01e6f5c]
- 06:00 起床
- 07:30 研究室 (整頓)
- 午前
-- 書類作り.
-- お昼.来客と外食
- 午後
-- ゼミまでの間,買いだめしておいた本を次々と眺め回す.
--- のつもりだったのだが,学内業務であれこれメール書きやら書類書き.
--- で,急遽,忘年会ということになった...
-- 18:30より忘年会.出席者は言語学系でK先生,S先生,情報科学系でA先生,H先生.そして私.場所はKさん行きつけの焼鳥屋.11:00位まで楽しく騒ぐ.S先生が,言語伝播について,ある方言体系と別の方言体系が接触して,そこに新しい方言体系ができていくというのが,基本的には国語学で今も信奉されているが,そんなうまい話があるだろうか,自分は常々疑問に思っていていろいろ反論を言ったり示したりするのだが,トンでも学説扱いされると.私からすると,言語現象をそんな単純明快な理論で説明しようとする方がトンでも学説でしょうと応じた.ただ過去に方言が生成されていった様子はもはや調べようがないので,むしろコンピューター上で現在の方言地図が生成されていく様子をシミュレーションしてみる方が,よっぽど科学ではないかと.欧米の言語研究では実際に行われているはずだが...
- 深夜に帰宅.倒れるように就寝.

* 2007年 12月13日(木) 曇 [#gf6da8c0]
- 06:00 起床
-- N軒屋に立ち番はいなかったが,途中パトカーとすれ違った.多分,立番だろう.あちらが出る時間が私の出勤以降のようなので,もうカウント止める.
- 07:30 研究室 (整頓)
- 午前
-- 朝の片付けを少し過ぎた.腕やら腰やらが痛い...
-- 昨日のD大K先生の問い合わせと関連して,Windows版Rにおけるロケールをチェックしようと思ってR-helpのアーカイブを見たら,似たような質問として[[Sys.setlocale("LC_CTYPE","fr_FR.UTF-8"):http://tolstoy.newcastle.edu.au/R/e2/help/07/03/12266.html]]があった.これに対するRipley教授の返答は
>Your locale name is not valid on Windows: see the 'R Installation and Administration Manual', section 7.1 for more details.
<
-- 携帯に見知らぬ輩からの着信が増えた.さらす.
 12/12 23:33 O338501297
 12/11 17:46 O482538111
-- 中妻著 「入門 ベイズ統計」を眺める.入門書なので,できるだけ細かい数式は省こうというスタンスなのだろうが,私なんか,細かい式の展開なども気になる質なので,読んでいて落ち着かない.それに数式をかなり省いていて,ベイズの式の分母はパラメータに依存しないので削除できると,サクッと書いても,本当にベイズが初めて読者はすぐに飲み込めるのだろうか.あるいは入門なので,深く考えるなと言うことなのか.ついでながら,繁桝著「ベイズ統計入門」p.40を見ると,例えばベルヌーイ試行の尤度を示した上で,「尤度において母数パイに関係しない部分を除外することができる」として,もう少し丁寧に説明してある.こちらの方が対象読者はもう少し数学知識があることが前提とされているのだと思うのだが,逆にわかりやすいのではないか?
//関係しない部分とは,ブログ上では書きにくいのだが,ベルヌーイ試行の確率分布で,組み合わせを計算している (n x)  というような部分である.
-- ドイツからの郵便物が届かない.国際郵便交換局で調査してもらえると言う情報があったので,大阪国際郵便局のサイトを見たところ,「閉鎖しました.外国から到着する郵便物は 072-455-1390」へとある.閉鎖って民営化のせいか?
-- お昼.乾麺
- 午後
-- 12:50-14:20 演習.
-- 14:30-16:30 教授会
-- なかなか出張前の仕事に復帰できんなぁ.
-- Windows版Rでlocaleを変更する方法だが,utf8を意味する 65001を使って
 Sys.setlocale("LC_COLLATE", "Japanese_Japan.65001")
は通るのだが,
 Sys.setlocale("LC_CTYPE", "Japanese_Japan.65001")
は無視されている模様で,Sys.getlocale()を実行すると
 LC_CTYPE=Japanese_Japan.932
のままである.
日本語の文書をRを使って特異値分解するには,結局,[[こう対処>R_lsaで日本語]]するべきか...
-- H氏,K氏,T氏ら来訪.学務について相談.
- 定時帰宅,定時就寝

* 2007年 12月12日(水) 曇 [#s2ef4d4c]
- 06:00 起床
- 07:30 研究室 
- 午前
-- 朝一演習
-- Maria Rizzo の Statistical Computing with R が届いた.題名通りで,計算式とそのコードにあふれている.お手軽にデータを解析するための 本ではないが,こういう本も増えてほしい.少し時間もできたし,眺めてみる.
--  お昼.ヨーグルト.
- 午後
-- 12:00-12:30 会議(将来構想)
-- 12:50-16:05 講義.講義後,工学部食堂でスペシャル\400.チキンカツと目玉焼き.
-- D大のK先生からlsaパッケージをWindows版Rで実行するとエラーにならないかとお問い合わせ.
 Sys.setlocale("LC_CTYPE","C")
と,とりあえず応急的に実行すれば,警告は出るが,文書行列と特異値分解などはできます.
-- 16:10 - 18:00 大学院
-- 学生に課題として,MeCabをVBから利用する方法を調べさせている.私自身は,私はLinuxでC言語で呼び出す方法しか行ったことがない.学生の話では,Windows版には外部ライブラリがないというようなことだった.ではVBのShell関数かProcessクラスでなんとかならないのかと話していた.で,今日,実際に見本を作ってみようと思って初めてWindows版のMeCabのフォルダを見てみた.すると libmecab.dll がちゃんと用意されているではないか.SHELL関数だのProcessクラスだのを実行する際,引数をどう渡すかなど,ゴチャゴチャと悩む必要などない.
-- 定時帰宅,定時就寝

* 2007年 12月11日(火) 雨 [#l4c03c97]
- 06:00 起床
- 07:30 研究室 
-- 朝一で,また部屋の片付けをしてしまった.疲れた.
-- T氏来訪.学務について.
-- Rユーザー会で利用したスライド&ref(管理者/ishida07.pdf);を統数研に送る.
-- 統数研への共同研究申請書類作成
-- 新規のルータの設定を変えた.
-- お昼.乾麺
- 午後
-- H氏来訪.学務について.
-- 総務に共同研究承諾書の申請
-- 14:30-16:05 演習
-- 出張前の仕事に戻ろうと思うんだけど,すぐには詳細を思い出せない.
//-- H大のK先生より返信もらう.
- 定時帰宅,定時就寝

* 2007年 12月10日(月) 晴 [#g3c643db]
- 06:00 起床
-- N軒屋の立ち番が今日は4人だった
- 07:30 研究室 (整頓)
- 午前
-- 事務連絡などのメール書きに追われる
-- 学外の研究者方との事務連絡などのメール書きに追われる
-- 先週届いていたルータのセッティング.マニュアルをチラッと見ると,設定のためのURLは192.168.0.1.が,アクセスできない.はて?とおもってルータの接続など再確認するが,同じ.何気なく192.168.1.1としたら,アクセスできた.これってマニュアルのミスなのか,あるいは,WANにつないだハブに,二つのルータを接続しているからか(そんなの関係ないと思われるけど)?
-- Springerから,新刊が届いた.訳者あとがきに誤植を発見.私のミスではなく,編集部の方で生じた誤植の模様.
-- お昼.乾麺
- 午後
-- H氏,来訪.色々と相談.
-- 共同研究の内容を検討する
-- 研究室の本の一部を箱詰めした.疲れた
-- H氏来訪.学務について.
- やや送れて帰宅し,定時に就寝


* 2007年 12月9日(日) 東京 晴 [#o1b3231c]
- 07:00 起床.
* 2007年 12月9日(日) 東京 晴 [#x7e71e5e]
- 07:00 起床
--08:15 部屋で和定食.
- 午前
--- 10:30 秋葉原に寄る.
--11:30 空港
- 午後
--- お昼.空港5Fの kihachi で豪州肉のステーキ.あまりうまくない.
-- 16:00 自宅に戻る.
- 寿司取って,どっと寝る.

* 2007年 12月8日(土) 東京 晴 [#v2398b65]
* 2007年 12月8日(土) 東京 晴 [#ce067856]
- 06:00 起床
- 午前
--08:15 部屋で和定食
-- 09:30 統計数理研究所着
--- 午前はゲノム研究所の樋口先生らの講演.
- 午後
-- 広尾駅近くの蕎麦屋で鴨南蛮
-- 14:20 より発表
--- 質問をいくつか頂いたのだが,右耳難聴なので,例によってトンチンカンな返答をしたようである.反省.いい加減に補聴器が必要かなと思い始める.
-- 幾つか講演のご依頼を受ける。また共同研究などのお誘いを幾つか頂く。とてもありがたい。
-- ホテルに戻り,またまた赤坂プリンスのレストランへ.メニューは白子のかぶら包,京ネギの緑ピューレとトマトの赤ピューレがけ.ゼラチン質控えめのテリーヌ.京野菜をふんだんに使った鯛,鴨肉など.だいぶ散財したもよう.
- 就寝したのは12時ぐらい.

* 2007年 12月7日(金) 晴 [#cfc1d57f]
* 2007年 12月7日(金) 晴 [#lb4eb0fa]
- 06:00 起床
- 午前
-- 朝9時の飛行機で東京に出発。
-- 10時半羽田着
-- その足で神田に出て,まつ屋でお銚子にそばと天丼
- 午後
-- 秋葉原へ寄ってから赤坂のホテルに。
-- 14:30 統計数理研究所に到着. LeischとTierny の講演を聞く.
-- 18:00 の終了後、赤坂プリンスのレストラン。メニューは,覚えているのはパスタ風の京ニンジンにカニをのせたオードブル.かぶら包のフォアグラ,スープ風の甘鯛と野菜の煮物,メインは北海道鹿と黒トリフのステーキ.デザートはチョコレートとムース.
- 就寝したのは12時ぐらい.

* 2007年 12月6日(木) 晴 [#gaa21289]
* 2007年 12月6日(木) 晴 [#l10f4c51]
- 06:00 起床
- 07:30 研究室(整頓)
- 午前
-- 統数研に書類を返送.
-- 今日も Ubuntu のアップデートが24個あった.
-- あー,統計関連の英語メールが読まないままに溜まっていく...
-- 明日から東京へ出張する.東京生まれの東京育ちなのだが,その後地方暮らしが長く,何となく東京に出るとなるとキンチョーする.東京メトロの路線図など眺めてみる.この歳になって親に車で迎えに来させるというのもあれだし.
-- Dickens の六つの長編小説をつなぎ合わせた約166万語のテキストをトークンにして,ベクトルオブジェクトにするという処理を R で[[こうしておこなう>R_tokenizer]]と6秒強かかる.同じ処理を[[JavaのStringTokenizerクラスとVectorクラス>Java_tokenizer]]を使って行うと1秒程度.
-- 教えて君のために,[[繰り返しのない二元配置分散分析の計算手順をRで実行したソース>R_二元配置の分散分析計算式]]を作成
--  お昼.乾麺
-- Springer  から電話.最終確認について.
- 午後
-- 12:50-14:40 演習
-- ついでなので C++ でもテキストのトークン化とベクトルオブジェクトの作成を行って時間を測ろうと思って[[プログラム>CPP_boost_tokenize]]を組んだ.コンパイルしようとしたらboostがないとエラー.Synaptic でさっそくインストールした.実装がストレート過ぎるせいか,Javaヨリも遅い...
-- 新たにレポジトリ作成
 local$mkdir Program/trunk branches tags
 local$ ssh -l mi 127.0.0.0
 server$ svnadmin create /usr/local/ubuntu/research/Program
 server$ exit 
 local$ svn import -m "from Ubuntu New Program Dir"  
    /home/mi/research/Program 
    svn+ssh://127.0.0.1/usr/local/ubuntu/research/Program
 local$rm -Rf Program
 local$svn checkout 
   svn+ssh://127.0.0.0
   /usr/local/ubuntu/research/Program/trunk Program


* 2007年 12月5日(水) 晴 [#r93bec15]
* 2007年 12月5日(水) 晴 [#ld79a1b9]
- 06:00 起床
- 07:30 研究室
- 午前
-- 朝一で Ubuntu のアップデートが23個もあった.ほとんどが OpenOffice 関係.
--  朝一で演習
-- スライド見直し.本当は,自分でパッケージでも作成して,その話でもした方が喜ばれるんだろけど,私のところでは,「ソフト」は業績にしてもらえないので,いまの立場では,どうしてもソフト開発の優先順序は下がってしまう. たとえ,せこい内容であっても,論文として発表したほうが,ここでは評価されるし.
-- お昼.乾麺.
- 午後
-- 古いマシンの第二ハードディスクからcorpus2006というディレクトリをまるごとコピーした.ここには,各種解析関係の自作 java あるいは Perl プログラムがある模様.
-- makeBase.plという自作のPerlスクリプトがあったので,なんじゃらと思って実行してみたら,基礎的な言語解析と,他プログラムへの入力となるファイルを全部作成してくれた.一応,チェックしよう.
--  makeBase.pl .我ながら凄いの作ってるなぁ.このうちPerlで作成した分については,以下を付記して,UTF-8化しておこう.
 use utf8;
 binmode(STDIN, ":utf8");
 binmode(STDOUT, ":utf8");
 use open ':utf8';
--[[ブログ地図BLOGRANGER TG:http://ranger.labs.goo.ne.jp/]]って面白い.要するに[[自己組織化マップ>WikiPedia.ja:自己組織化マップ]]だ.
-- 先月はじめにドイツに発注した離散分布に関する古書がまだ届かない.向こうは航空便で送ったといっている.確認のメールを送ったら,税関で止められているのではないかと言ってきた.税関でチェックされるの?
-- 18:00-19:30 大学院
-  通常より遅く帰宅し,一杯やって通常より遅く就寝

* 2007年 12月4日(火)  晴 [#fe36bcb9]
* 2007年 12月4日(火)  晴 [#od768783]
- 06:00 起床
-- N軒屋の立ち番確認
- 07:30 研究室(整頓)
- 午前
-- 教えて君.出張前に弱ったな.
-- スライドの最終調整終了.
-- さて,一ヶ月位前から中断していた作業を再会するかな.しかし,そもそも何をしていたか,あまりよく思い出せない.当ブログを検索して探すか.
--- TreeTagger の出力を編集し,Rに取り込むプログラムを作成予定だったのだ.ここ数年書いてきたプログラムコードを収めているmyprogramディレクトリを見てみたら,大量のファイルとフォルダがあって,ゲッソリ...
--- 最初から整理しようか.えーと,目的はドイツ語テキスト解析で,ドイツ語テキストを扱うのは,これが最後にするつもりと.
--- 大昔に書いたプログラムメモがあった.my2006Corpus.html.無いよりはマシという感じで,眺める.
--- TreeTaggerは,句の単位に分割するには

 tagger-chunker-german  kafka.iso.txt > kafka.iso.kekka

--- 単語単位に分割するには

 tree-tagger-german kafka.iso.txt > kafka.iso.kekka
-- お昼.クーとか言う妙な食堂に行った.1500円.
-- 統数研から講演の振込関係の書類が届いた.
- 午後
-- 教えて君のため,分散分析表を,[[久しぶり修正項を利用した手計算:http://koko15.hus.osaka-u.ac.jp/members/yoshida/shokabo/chap8.html]]で作成してみた.Rでやると,まずT1,T2,T3に水準ごとのデータを入れて

 T1N <- length(T1)
 T2N <- length(T2)
 T3N <- length(T3)
 
 CT <- (sum(T1,T2,T3))^2 / sum(T1N,T2N,T3N)
 SST <- sum(T1^2,T2^2,T3^2) - CT
 SSW <- sum(T1^2,T2^2,T3^2) - (sum(T1)^2/T1N +
       sum(T2)^2/T2N + sum(T3)^2/T3N)
 SSB <- (sum(T1)^2/T1N + sum(T2)^2/T2N 
     + sum(T3)^2/T3N) - CT

もちろん,普通は aov() 関数を使って解きます.
-- ps/2 -> USB 変換ケーブルが届いた.さっそく使ってみる.マウスとキーボードを,パソコン側では一つのUSBにつなげる.満足.
--- 快適なんだけど,結局,DELLオリジナルのペコペコキーボードに戻してしまった.慣れというのは恐ろしい...
-- TreeTagger の出力に戻る
--- 素直に解析すると,
 tree-tagger-german kafka.iso.txt 
 &#187;	$(	&#187;
 Was	PWS	was
 ist	VAFIN	sein
 mit	APPR	mit
 mir	PPER	ich
 geschehen	VVINF	geschehen
 ?	$.	?
 &#171;	$(	&#171;
 dachte	VVFIN	denken
 er	PPER	er
 .	$.	.
と言う結果になる.$を含む行は記号類と判断してよろしいか?また,こっちは
 tagger-chunker-german  kafka.iso.txt
 &#187;	$(
 <NC>
 Was	PWS
 </NC>
 <VC>
 ist	VAFIN
 </VC>
 <PC> 
 mit	APPR
 mir	PPER
 </PC>
 <VC>
 geschehen	VVINF
 </VC>
 ?	$.
 &#171;	$(
 <VC>
 dachte	VVFIN
 </VC>
 <NC>
 er	PPER
 </NC>
 .	$.
どっちが出力として扱いやすいというか,便利というか...
-- やっぱり後者の出力を使って,一度に得られるだけの情報を得るというのが普通だろうなぁ.
-- [[Gutenbergのドイツ語系テキスト:http://www.gutenberg.org/browse/languages/de]] には,ISO-8859-1によるテキストファイルと,ウムラウト類を &amp;auml; に変換したhtmlファイルの2種類があるのだが,自分の UTF-8環境で一番トラブる可能性がより少ないのはどちらだろうか?
--- [[Java で文字種が大文字小文字の判定をする方法:http://sdc.sun.co.jp/java/docs/j2se/1.4/ja/docs/ja/api/java/lang/Character.html#isLowerCase(char)]].これは特殊文字にも対応しているんだろうか?
-- ウムラウトの処理などのための[[役立ちそうなpdfファイル:http://informatik.unibas.ch/lehre/ws05/cs101/folien/06_ZeichenKetten.pdf]]を見つけた.
- 定時帰宅,定時就寝

* 2007年 12月3日 (月) 雨のち曇 [#l2c5363d]
* 2007年 12月3日 (月) 雨のち曇 [#gea1be09]
- 06:00 起床
-- 兄弟と思しき小学生二人が登校していた.二人とも透明のビニール傘をさしている.自宅から出てきたはずと思うのだが,黄色い通学傘とか,そんなものをさしていても良さそうな気がするのだが.ビニール傘はないだろう.大きなお世話であるが...
- 07:30 研究室(整頓)
- 午前
--  スライド作り直し.冗長な部分多すぎ.削れ,削れ!
---  そうとう思い切って削った.今度は時間が余りゃしないか?
--  お昼.乾麺
- 午後
-- Springer から新刊の発行部数の連絡.さすがにR本よりは多いな.
--  スライド見直し終了.これで,まあ,いいだろう.
-- 名刺作ろう.
--- Canonの古いインクジェットプリンタを使っているのだが,初回の印刷時は,ガチャガチャ激しくウォームアップをやってくれる.
--- 作成した名刺を印刷してみると,何となくいまいち.モニタ上の色合いとかなり異なる色で出力されていたりする.まあ名刺そのもののデザインが問題なのではなく,プリンタの問題だということにしておこう...
---   名刺は自宅のプリンタで印刷した方が良さそう...
-- 15:00 スライドの口頭部分を抜き出して印刷.結局一日かかった.
---  作成されたpdfの容量は約800KB.まあ,こんなものかな.アニメーション効果をもう少し検討しても良いかもしれない.もっともprosperで利用可能なのは Split Blinds Box Wipe Dissolve Glitter Replace だけで,最後の Replace というのは,確か何もしないということだった.
-  いま気がついた.今日は私の誕生日ではないか.あー,歳喰った.
-- 早めに帰ってワイン空けよう.
-- 少し前に図書紹介で,数理心理学とか言う本があったと思うのだけど,Amazonで検索して出てきた「数理心理学―心理表現の論理と実際 (心理学の世界 専門編 16) (単行本)」 というのは,違う気がするなぁ.確か,以前学会でお会いした時,鋭い質問を寄せてくださったC大学のC先生が書いていたように思うのだけど,こちらで検索しても出てこない.おもしろそうだなと思ったら,その場で発注しておくべきだった.
#ref(wine20071203.PNG,nowrap,right,nolink,Volnay Clos Des Chenes)
- 定時より早めに帰宅
-- 自宅でスライドチェック.また名刺を作成.
- wine Volnay Clos des Chenes 1966, No.0259*
- その他,白鶴など飲むだけ飲んで,遅れて就寝.

* 2007年 12月2日 (日) 晴 [#l5cb8dc3]
* 2007年 12月2日 (日) 晴 [#m3650825]
- 06:50 起床
-- プレゼンを一通り眺めてみた.長い.長すぎる.
- 飲むだけ飲んで定時就寝.

* 2007年 12月1日(土) 晴 [#i0bde7d3]
* 2007年 12月1日(土) 晴 [#r83c8a52]
- 06:00 起床
-- 12月になってしまった...
- 07:30 研究室着 (整頓)
- 午前
--  昨日の業務日誌で触れた[[生態学会>http://hosho.ees.hokudai.ac.jp/~kubo/ce/EcoSj2008.html]]とは別に,やはりRの講習会が,さる学会でも実施される模様.まだまだユーザーが増えていくのは確実だと思われるので,来週の[[統数研での報告>http://jasp.ism.ac.jp/meetings/R2007/]]が終わったら,改めてRの仕事に手をつけるかな.
-- T 氏来訪.雑談
-- お昼.乾麺.
- 午後
-- 統数研での発表に関連して ''tm パッケージ''を再度チェック.[[tmパッケージ>R_tmパッケージの使い方]]には [[Reuters-21578:http://www.daviddlewis.com/resources/testcollections/reuters21578/]] のサブセットが含まれているが,そのサイズをチェック.tmパッケージを作成したFeinererは,Reuters21578のサブセット,約1,700の文書を対象にカーネルストリングを計算している.その実行にRを使っているわけだが,その計算時間が2時間だったそうな.
--  スライド完成.46枚.これで約40分何とかなるかな?
--  冷蔵庫に残っていたヨーグルト食べた.賞味期限が11月13日であった...発酵食品だから問題ないと自分に言い聞かせる.
-- スライド微調整.一部のタームの字体を変えたり,文字色を黄色くしたり,赤くしたり.ついつい色をつけすぎて,何だかゴタゴタしたスライドになってしまうのが落ちなのだが...
-- prosper で作成したTeXソースをスライド部分と,そのコメント部分に分けるperlスクリプトと,処理を一括するbashスクリプトを作っておいた.
--  何気なく[[こういうPukiwikiページ:http://www.cas.dis.titech.ac.jp/~higo/wiki/study/index.php?FrontPage]]を見ていたら,'' [[CRF(conditional random field):http://www.inference.phy.cam.ac.uk/hmw26/crf/]] ''による日本語解析についての[[わかりやすいプレゼン資料(ppt):http://chasen.org/~taku/publications/nl161-slide.ppt]]を発見した.CRFについては,9月の行動計量学会の際に,ゲノム科学研究所の樋口さんに教えてもらっていた.
-- また[[Conditional Random Fieldsを用いた日本語形態素解析(解析):http://ci.nii.ac.jp/naid/110002911717/en/]]と言う論考もある.以下は''そのレジュメの引用''である.
> 本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.

-- これをRで実現するには,どうするかなぁ.
-- うーーん,勉強しなければならないことが山ほどあるのに,自由に使える時間はわずかしかない.
- 定時帰宅,やや飲みすぎて就寝.