日録2007_9月 のバックアップの現在との差分(No.16) - アールメカブ

アールメカブ


日録2007_9月 のバックアップの現在との差分(No.16)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
*2007年 [#t594d519]
*2007年 [#cb46bfde]
** 09月30日 (日) 雨 [#fd89224d]
- 06:00 起床
- 午後
-- サボテンの子吹きを別の鉢植えに植えた.一週間日陰で干せとあったが,なんだか干からびたようでもある.本当に根付くのか?
-- DELL の VMPlayer の調子が悪い.先日 VMPlayer の 2.01アップデートを行った際,設定ファイルを修正したのだが,どちらが原因か.VMplaye を2.00 にダウングレードしてもおかしい.設定ファイルを見直すと,floppy0.startConnected = "FALSE" の部分が間違っていた.このせいか?
-- TreeTagger を Ubuntu on WinXP に入れる.実行しても, file not found のエラー.妙だな.パスはあっているはずなのだが.
- 20:00 月桂冠を飲んで就寝 
** 09月29日 (土) 曇 [#n4e0c0d8]
- 06:00 起床
- 07:30 研究室(整理)
- 午前
-- 何だかメーラーの調子がおかしい.妙だなぁ.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- 昨日から [[Design パッケージ>R_Designパッケージ]]を使った回帰分析の節が続く.標準パッケージの lm() 関数による分析結果に anova() を適用した場合は &color(red){Sequential な Anova 表};,つまり表の上に位置する要因を次々と階層的に組み込んでいき,それぞれの段階での予測子の効果を計っている.これに対して ols() 関数の結果にanova()を適用した結果は &color(red){Non-Sequential な Anova 表};を出力する.つまり,他の変数がすべてモデルに組み込まれている場合の当該予測子の効果を見ることができる.すなわち他の要因を全て定数とした場合の &color(red){Partial Effect}; を調べることができる.実例を[[ここ>R_Designパッケージ]]に記した.
--- p.194 に &color(red){spline()};の仕組み,インターバルの数の選択方法の詳しい説明がある.[[ここ>R_Designパッケージ#spline]]で使わせてもらいます.余計なことだが,英書などでは spline などの説明になると "somewhat wriggly in center"などの分かるような分からないような表現が出てくる.想像はつくのだが,ついつい辞書に手を伸ばしてしまうなぁ.
-- 大学のメールも全て [[GMail>WikiPedia.ja:Gmail]] で受信可能とする設定をした.自宅や携帯で迷惑メールを受信することがなくなって便利.Gmailの設定で,他のアカウントを追加するだけで済む.サーバに残すという設定を忘れないようにする.
-- 何だか妙に腹が減ったのでおやつ.土曜日によくカップ麺に手を出してしまう.そのほか
- 昼食.コヒーとカンパン.
- 午後.
-- Baayen 続き
--- p.200. 重回帰における多重共線性について,行列計算との関係で説明がある.R では kapp() で[[条件数>R_ConditionNumber]] &mathml(\kappa); を求めるが,Baayen では ''languageR'' パッケージの collin.fnc() が利用できる.余談だが,このパッケージ,導入時に大量の別パッケージをロードしてくれる.必要な時だけロードするよう改良して欲しいものだ.
--- 多重共線性に対するストラテジーとして,クラスタリングを行い,その図を参考にクラスターごとに主成分分析を行って,直交する変数を得ると言う方法の紹介とその手順がある.これらの処理を手作業で行い,Design パッケージの fastbw() 関数で,バックワード型の変数選択を行う.
--- モデルから外れ値を特定する &color(red){DFFITS};について面白い比喩が.p.207. ''「羊の群が北へ進んでいるのだが,1頭だけが西に進んでいる.羊は北に進んでいると報告したいのだが,モデルは北西に進んでいるとみなしてしまう.正しいモデルを得るには,どの羊が連隊をくずしているかを特定する必要がある」''と.
-- [[和布蕪:http://mecab.sourceforge.net/]]のバインディングについて[[メモ>Prog_Mecab]]を整理した.
-- 日本語係り受け解析器 [[CaboCha:http://www.chasen.org/~taku/software/cabocha/]] のインストール.
//progSource/Cabocha/cabocha.etc.install.txt
--- まず required の [[TinySVM:http://chasen.org/~taku/software/TinySVM/]] [[YamCha:http://chasen.org/~taku/software/yamcha/]] をインストール.茶筌,和布蕪はインストール済み.これでようやく CaboCha をインストールできる.CaboChaのコンパイルは Memory map のステージで,Making Double-Array と Making TRIE  にやたらと時間がかかった.30分以上はかかった.以下は実行例.
 $ cabocha -f1
 太郎は次郎が持っている本を花子に渡した.
 * 0 5D 0/1 0.99338196
 太郎 タロウ 太郎 名詞-固有名詞-人名-名 B-PERSON
 は ハ は 助詞-係助詞 O
 * 1 2D 0/1 1.53968550
 次郎 ジロウ 次郎 名詞-固有名詞-人名-名 B-PERSON
 が ガ が 助詞-格助詞-一般 O
 * 2 3D 0/2 1.32524483
 持っ モッ 持つ 動詞-自立	五段・タ行 連用タ接続 O
 て テ て 助詞-接続助詞 O
 いる イル いる 動詞-非自立 一段 基本形	O
 * 3 5D 0/1 3.55888895
 本 ホン 本 名詞-一般 O
 を ヲ を 助詞-格助詞-一般 O
 * 4 5D 1/2 0.00000000
 花 ハナ 花 名詞-一般 O
 子 コ 子 名詞-一般 O
 に ニ に 助詞-格助詞-一般 O
 * 5 -1O 0/1 0.00000000
 渡し ワタシ 渡す 動詞-自立 五段・サ行 連用形 O 
 た タ た 助動詞 特殊・タ 基本形O
 . . . 記号-句点 O
 EOS

** 9月24日(月) 曇 朝方 雨[#v0560259]
#ref(wine20070929.JPG,right,nowrap,around,nolink,Veuve Clicquot)
- 18:45 帰路
- 19:00 [[The Distribution of Word and Sentence Length:http://www.amazon.de/Distribution-Word-Sentence-Length/dp/3884762761/]]が届いていた.早いなぁ.
- 23:15 シャンパン(Veuve Clicquot)やら月桂冠やら,飲むだけ飲んで就寝.
#clear

** 09月28日 (金) 晴 [#b3716f88]
- 06:00 起床
- 07:30 研究室
-午前
-- 充電.
-- ドイツの古本屋の片方からメール.注文した本は売り切れており,掲載されていたのは手違いであると.まあ,ちゃんと連絡が来ただけましか.stornieren 「キャンセル」という単語を始めてみたような気がする.やむなく http://www.zvab.com/ で探すと,一点あった.早速発注する.支払いは [[PayPal>WikiPedia.ja:PayPal]] とした.後は本屋からの連絡を待って,PayPal で支払いの手続きをすることになるのだろうが,日本まで送ってくれるかなぁ.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- p.172 に 
 we cannot use this opiton
 (lda の CV = T のこと)
 here because the orthogonalization
 of our output
 (元データの各説明変数間の相関が高いので
 主成分分析の結果を変数としたこと.
 つまり変数は互いに直交する)
 takes the data from all authors
 (目的変数) and all texts (サンプル)
 into acount.
とあるのだが,何でもないことなのかもしれないが,ちょっと意図が良く分からない...と考えてみて,すぐに分かった.lda のインプットとする主成分が,そもそも全データを解析対象として得られたものであるから,leave-one-out をちゃんと実行するには,主成分分析そのものについても,データを一つ除いてから,その結果をインプットとして lda を実行しなければならないということ.&color(red){orthogonalization};という単語に気を取られて,余計な推測をしてしまった.
--- p.177 で &color(red){baseline classifier}; と出てきたが.これは元データでのカテゴリの割合をとり,割合がもっとも大きなカテゴリを分類候補とする単純な方法のこと.ちょっと戸惑った.
- 昼食:砂糖まぶしヨーグルト,カンパン,砂糖ミルク入りコーヒー
- 午後
-- [[Ubuntu 7.10 (Gutsy Gibbon) Beta:http://cdimage.ubuntu.com/releases/gutsy/beta/]]がリリースされている.来週からは「雑用」で忙しくなるから,その合間にDELLのセッティングを進め,Ubuntuを迎えよう.
-- 15:00 来客.レンタルサーバーに関する情報を頂いた.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- pp.183-185 の説明が何を意図しているのか分かりにくかったのだが,要するに,交互作用を含むモデルでは主効果を必ずモデルに含めなければならないということを,実例から読者が納得できるように話を展開しているだけのようだ.でも,ちょっと分かりにくい(うーん,昼前の例といい,語学力が落ちてるのかなぁ).しかし主効果を含まずに,交互作用だけを明示的に指定してモデル化(lm(X ~ Y*Z + I(Y^2):Zのごとく)するとどうなるかについて,実際に解析をしてみて,そのモデルの summary() や anova() から,そのモデル化の意味するところを説明している点は面白いのではなかろうか. 
--- 回帰分析の話に移り,[[Design という使い慣れないパッケージ>R_Designパッケージ]]が出てきた.線形モデリングのツールのようだが,data distribution object というのは初めて見る.ところで,つい最近,回帰分析の仮定は「誤差というよりは,残差が正規分布していることである」と[[誤差>WikiPedia.ja:誤差]]と残差をはっきり区別していた本を読んだのだが,それがどの本であったか,それどころか日本語か英語かも覚えてない.8月ぐらいの話であるのに,ひどい記憶力です.うーん,気になるなぁ.
-- 今朝方発注したドイツの古本屋から,「本をキープした,代金を振り込め」といってきた.PayPal経由で16,30 ユーロ.日本式に小数点を書き直せば 16.30 ユーロ.本そのものは,前回依頼した本屋での金額の1/3で,特に送料は半額以上安い.船便で来るのかな.PayPalは2年前に使ったままだから,カードなどの情報を入れ替えねばならない.
- 18:45 帰路。
-- PayPalで旧アカウントを無効化し、新アカウントを作成。「新規アカウント確認のためのメール」というのが届きやせん。主メールを変更し,こっち宛に確認メールが送られるよう環境設定を行った.すると,こちらにはちゃんと確認用のメールが送られてきた。無効化した旧アカウントと同じアドレスを使っていたせいなのかもしれないが,だったら,旧アカウントを無効化した直後のウィンドウで,「同じアドレスを使って新規アカウントを作れます.ここをクリック」などと表示するなよ...このメール確認とか言う作業に30分以上も費した.
- 22:30 断酒就寝。

** 09月27日 (木) 雨/曇 [#wdc8e24e]
- 06:00 起床
- 07:30 研究室 (整理)
-午前
-- pukiwiki.ini.php の $edit_auth_pages を一部変更.ここの認証設定に矛盾する指定があった場合,どうなるのだろうか?一番最後の項目が優先されるのかな?
-- WinXP につないだ三菱のディスプレイは1時間ほどで安定して,画面のちらつきが減っていくよう.
-- 足立の本の最後に,マハラノビスの距離を標準化と[[相関>WikiPedia.ja:相関]]の観点から説明している.説明としては面白いのだが,文章が極めて分かりにくい.特に筆者独自の記号があって,意味を斟酌するのに疲れる.説明も,まわりくどく,何の話だろうと思ってページをめくると,何のことはない「標準化」のことだったりする.でも「標準化」の話かと思って読み直すと,それなりに面白く参考になる.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- 階層分割型の Divisive Clustering を言語データに当てはめた例がある.[[R_Divisive_Clustering_diana関数とnj関数]].しかし,代入記号として = を使ってくれていると,コードが分かりにくい.
#ref(lunch20070927.JPG,left,nowrap,nolink,around,特別定食)
- お昼.図書館に行く用事があるので,ついでに工学部食堂へ.特別定食420円.20円値上がりした模様.コロッケと豚カツ,目玉焼き.

昼過ぎで,一通り食べ物が出てしまった後らしく,味噌汁は具を追加したばかりらしい.玉ねぎとニンジンがやたらと入ってくれているのだが,どうも生煮えでえがみがあり,なかなか乙ではある.今日は写真を撮った.その足で図書館へ.
- 午後.晴れて蒸し暑くなってきた.
-- Baayen 続き.
--- Divisive Clustering の分類結果を Bootstrap によって確認する方法の説明あり.その他,Consensus Tree の実例もある.これらを[[ここ>R_Divisive_Clustering_diana関数とnj関数]]にまとめた.これはブートストラップによるTreeに観察されないサブグループを collapse させる手法である.その結果としてmultichotomy であるTreeが得られる.''multichotomy = 多項的分類法''.たまにしか見ない単語なので,一瞬,辞書をひこうとしてしまう.Clustering に続いて [[Classification And Regression Trees>R_ClassificationAndRegressionTrees]] の説明.
- Amazon.de に発注したドイツの古本屋から,今日航空便で送ったという返事が来た.もうひとつの古本屋に頼んだ本の方が,実は重要なのだが.
- 17:40 整理
- 18:45 帰路
- 22:00 断酒就寝

** 09月26日 (水) 快晴 [#ge71e38d]
- 06:00 起床
- 07:35 研究室 (整理)
-午前
-- 結局,ディスプレイを交換した.三菱はWinXPに接続.横方向の白い線が上へ下へと激しく動いている.しばらくして,気がつくと,正常に表示されていた.どうも,温まると安定するらしい...
-- [[Rの基礎とプログラミング技法:http://www.amazon.co.jp/gp/product/4431712186/]] が,またAmazon で売り切れている模様
-- 足立の本で[[外積>WikiPedia.ja:外積]]の表記法として [&mathml(\vec{a}), &mathml(\vec{b})] があると書いてあるが,私は見たことない.しかし外積を,[[内積>WikiPedia.ja:内積]],[[ユークリッド距離>WikiPedia.ja:ユークリッド距離]],[[ミンコフスキー距離>WikiPedia.ja:ミンコフスキー距離]],[[マハラノビスの距離>WikiPedia.ja:マハラノビスの距離]]と関連させた説明は参考になるだろう.
-- ところで [[MathML]] を使うと,時々「XML パースエラー: 定義されていない実体が使用されています。」とエラーが出る.上段の数式もエラーが出るので,あえてディレクティブをそのまま表示している.これは,どうもMozilla 系のブラウザの問題らしい.IE ではエラーとならず,ちゃんと表示される(MathPlayerをインストールしていれば).
-- 日本統計学会からメール.昨日のお昼に書類を送ったばかりなのだが,既に届いたもよう.
--- 日本の郵便局は偉いなぁ.片手に砂糖をたっぷりまぶしたドーナツを,もう片方にコカコーラを持ちながら,余った指先で人様の手紙を扱う某国の郵便局とは違う.
-- 頼んでおいた [[Hyper-pascal 分布についての論文>#hyper]] が届いた.
-- ドイツの本屋に[[日曜日の注文>#bestellung]]について照会のメールを送った.英語で書くべきか,独語で書くべきか迷ったが,とりあえず独語で書き送った.事務処理なので,ローカルな言語は避けて英語すべきだったかもしれない.
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- Baayen が独自に実装した対応分析の関数 corres.fnc を使い,テキストの種類と年代を分析した例があった.pp.139. 非常に便利そう.
- おやつ:カンパン5かけ
-- D大学のK先生よりメール.今月始めの行動計量学会での[[Rセッションの発表スライドを集めたページ:http://mjin.doshisha.ac.jp/R/2007BR/index.html]]が公開されたとのこと.
-- Baayen 続き.分析は興味深いのだが,どうも[[synset>WikiPedia.ja:WordNet]]に疎いので,その計量的根拠が実感できない.以下 [[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]]  p.150 より.

 The ubiquitous effect of word frequency
 in a reaction time experiments has often
 been interpreted as reflecting the processing
 load of word's form. But if word frequency
 happens to be more tightly correlated with
 semantic measures, this would suggest that
 it might be useful to reconceptualize
 frequency as a measure of one's familiarity
 with word's meaning. In an experimental task
 such as lexical decision, it might the be
 thought of as gauging, at least in past,
 semantic processing load.

#ref(wine20070926.JPG,right,nowrap,around,80%,ワイン)
- 18:30 帰路
- 23:00 イタリアワイン (Rosso di Montalcino, denominazione di origine cotrollata, 2004)、月桂冠飲んで就寝

** 9月25日(火) 雨/曇 [#t249025f]
- 06:00 起床
- 07:30 研究室
- 午前
-- 何だか RDT178V ディスプレイの調子が悪い.バックライト辺りか?この間届いたDELLのセッティングを急いで行わないといけないだろうか.Ubuntu 7.10 が正式リリースされるのを待とうかと思っているんだけど.
-- W-Zero3[es] の設定.gsGetFile.dll, runner, reset を miniSD に入れる.また tcpmp+flv.plugin を再インストール.
--- ところで,runner などのzipファイルを解凍すると,ARMRel, MIPSRel, SHx の三つのフォルダがある.これらは CPU の違いなので,ARMRel (=Xscale)のみ利用する.これについてはあまり情報がないようで,私が探した限りでは[[ここ:http://d.hatena.ne.jp/asterisk-a/]]ぐらいしかない.
-- Amazon.jp に [[Rの基礎とプログラミング技法:http://www.amazon.co.jp/gp/product/4431712186/]]3 刷りがようやく入荷したよう.2,3週間在庫なしの状態だった.
-- 足立を参照.もうすぐ講義も始まるし,その準備.この本,かなり数式の間違いが目につく.とはいえ,固有値・固有ベクトルの幾何学的意味の説明などは改めて参考になる.
-- [[統計学会:http://www.jss.gr.jp/]]への事務連絡を投函するため外に出た.そのまま工学部食堂へ.
- 昼食:スペシャル400円.写真撮ればよかった.うまくもまずくもなく,でもお腹いっぱいに.案の定,後で眠くなって困った.
-- さて [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] . 他にすることあるんだけどな...
--- サンプル数と回帰分析の係数のp値,決定係数についての解釈の注意点をBaayen が述べている.特に言語実験の結果として得られるデータに対する回帰分析とその係数の p 値,また決定係数については,仮に個別の検定で統計的に有意と認めがたい結果が得られても(そして実際に認めがたい値となるのだが),繰り返し同じ結果が得られるのであれば,実質科学的に意味ある係数が得られたと解釈すべきとしている.
-- ディスプレイの調子があまりに悪い.隣のWinXPマシンをつないでみてもおかしい.そこで WinXPマシン用の LCD-AD172C と取り替え,/etc/X11/xorg.confを手作業で修正.

 # www.iodata.jp/prod/display/lcd/2003/lcd-ad172c/        
     Identifier   "Monitor0"
     VendorName   "Monitor Vendor"
 #       ModelName    "RDT178V"
     ModelName    "LCD-AD172c"
      DisplaySize  340        270
 # Comment all HorizSync and VertSync values to use DDC:
 #       HorizSync    31.0 - 81.0
 #       VertRefresh  56.0 - 75.0
     HorizSync    31.5 - 80.0
     VertRefresh  56.3 - 75.0
     Option      "dpms"
で,RDT178V の方を改めてWinXPマシンの方につないでみたら,今度はちゃんと表示される.そこで,また取り替えた.しばらく様子みようか.ディスプレイを久しぶりに掃除したせいで,直ったとか? 疲れた.
- 17:45 遅いけど,ちょっと整理.
- 18:45 帰路
- 22:30 断酒就寝
 
** 9月24日(月) 雨/曇 [#w9fc3db7]
- 06:30 起床
- 08:00 研究室(整理)
- 午前
-- Wiki ページの整理
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
-- 足立の本の固有値の幾何学ベクトル的説明を参考にする.
-- Best の続き
--- いきなり「Teilsaetze と clauses は似ているが,若干違う」と出てきた.ん?と思って見返すと,表紙のレジュメに Teilsatz &mathml(\asymp); clause ともある.しかし正確な定義には触れられていない.余談だがここで「近似」を意味する記号を &mathml(\approx) としたらエラーになった.ので \asymp を使った.
-- Menzereth-Altmann-law の考え方からすると,文長,語長 etc の言語統計量の Interaction を検討に入れる必要がある.つまりこれらの統計量は独立でない.さらにこれらの統計量はそれぞれ時系列にそった変動を見せている可能性がある.つまり自己相関がある.これらを検討する必要性は分かるが,適当なサンプルを用意するのは至難だな.
--- Menzereth-Altmann-law の考え方からすると,文長,語長 etc の言語統計量の Interaction を検討に入れる必要がある.つまりこれらの統計量は独立でない.さらにこれらの統計量はそれぞれ時系列にそった変動を見せている可能性がある.つまり自己相関がある.これらを検討する必要性は分かるが,適当なサンプルを用意するのは至難だな.
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- Multiple Comparrisons の注意として,p.114に
 1 - pbinom(0, 3, 0.05)
すなわち確率 0.05 で起こる試行を3回実施し,一回も起こらない確率の計算.はい,使わせていただきます.
--- TukeyHSD の使い方の説明があるのだが,ふっと 9月2日に担当させていただいた[[行動計量学会のRチュートリアル:http://150.59.18.68]]で,TukeyHSD の出力から,ペア比較の有意確率が表示されないと質問があった.え,そうなの?と思ってその場で出力する方法を試したが,分からなかった.今,改めて見ると,普通に実行してちゃんと有意確率も表示されているではないか.
--- 統計学で検定の結果について ''conservative''と言うことがあるが,表現が分かりにくい.Baayen の pp.115-116 に,レベル数が三つの分散分析で,単純に lm を使った場合の p 値と,TukeyHSD を使った場合の adjuested p の出力が左右のページに並んで掲載されている.はい,これも使わせて頂きます.
- 18:45 帰路
- 22:00 断酒就寝


** 9月23日(日) [#q444007b]
** 9月23日(日) 快晴 [#ldad5801]
- 05:00 起床
- 午後
-- Amazon.de また Abebooks.de で[[下記二冊>#books]]を発注した.どちらも古書のようだが、本当に届くのか?Abebooks.de の方は,サーバー(jsp仕様)がうまくいってないようなので不安.注文状況を確認すると通ってはいるようなのだが,なにせヨーロッパ人の事務処理は信用できない.
-- この春だったか 100 円ショップで寂しそうに放置されていたサボテンを買い取った.緑烏帽子とか言う種類らしいが,これが大量に子吹きしている.
#ref(saboten20070923.jpg,left,nowrap,around,緑烏帽子)
もとは真ん中のくすんだ3葉(葉で良いのかな)しかなく,自宅に持ち帰った当初は今にも枯れそうだった.プラスティックのやたらと小さな鉢に刺されていたのだが,さすがにこれはないだろうと,植え変えてやった.しかし子吹きして,何だか頭の部分が重そうなので,上部の五つの子吹きを切り離した.切る前にグーグってみると,指でひねって切り取れば良いとある(意外).さらに切り口はアルコールで消毒して,2週間ほど日陰で乾燥させよともある(ますます意外).来週,別の鉢に植えよう.
-- &aname(bestellung); Amazon.de と Abebooks.de で[[下記二冊>#books]]を発注した.どちらも古書店が出品しているようなのだが、本当に日本まで届くのか?
Abebooks.de の方は,サーバー(jsp仕様)がうまくいってないようなので不安.注文状況を確認すると通ってはいるようなのだが,なにせヨーロッパ人の事務処理は信用できないからなぁ.
-- この春だったか 100 円ショップで寂しそうに放置されていたサボテンを買い取った.なんとか烏帽子とか言う種類らしいが,これが両横から,さらに上からも子吹きしている.&aname(saboten);
#ref(saboten20070923s.JPG,left,nowrap,nolink,around,緑烏帽子)
もとは真ん中のくすんだ3葉(葉で良いのかな)しかなく,自宅に持ち帰った当初は今にも枯れそうだった.プラスティックのやたらと小さな鉢に刺されていたのだが,さすがにこれはないだろうと,植え変えてやった.しかし子吹きして,何だか頭の部分が重そうなので,上部の子吹きを切り離すことに.切る前にグーグってみると,指でひねって切り取れば良いとあって,あまりの手軽さに意外な気が.さらに切り口はアルコールで消毒して,2週間ほど日陰で乾燥させよともあって,ますます意外.エチルアルコールはあるのだが,[[マキロン:http://ja.wikipedia.org/wiki/%E3%83%9E%E3%82%AD%E3%83%AD%E3%83%B3]]でも良いのだろうか?ともかく,ひねって切り取る.ついつい五つともひねり取ってしまった...この五つの子吹きは,来週,別の鉢に植えよう.
- 22:00 ビール2缶飲んで就寝.

** 9月22日 [#zfcbe344]
** 9月22日 [#db9b56fd]
- 06:10 起床
- 07:30 研究室 (整理)
- 午前
-- R,Tex,Linux に関して,これまで html ファイルとして書き留めていた私的なメモを wiki に移行する作業を始めた.とりあえずメモのhtmlファイルからタグを削除し,テキストファイルに変更
-- 例によって足立の本を参考にする.自由度に関連して,&mathml(\sum x_{i}^2); が correction factor と n - 1 個の射影ベクトルに分解されるという説明部分がそのまま使えそう
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
-- Best の続き
--- Kant の平均文長(語数)は 26.1 だそうな
--- 言語変化のモデルとして Piotrowski-law があり,モデル式&mathml(P_t = \frac{C}{1 + ae^{-bt}}); が立てられ,実証的な研究が行われている.このモデル式のパラメータの意味を知りたいが(多分 Menzerath-Altmann-law と同じ発想なのだろうが),原論文はスラブ系言語らしい...
--- 上記のモデル式の適合の指標として Determinationskoeffizient D が使われている.何だろうと一瞬思ったが,決定係数 &mathml(r^2); だと思われる.でも D > 0.8 と言う根拠は何だ?ただ,各種の分析で19世紀前半の50年が文長減少に対する反動期として位置付けられ,この期間を除くと適合度が改善するというのは面白い
--- 上記のモデル式の適合の指標として Determinationskoeffizient D が使われている.何だろうと一瞬思ったが,決定係数 &mathml(r^2); だと思われる.でも D > 0.8 と言う根拠は何だ?ただ,各種の分析で19世紀前半の50年が文長減少に対する反動期として位置付けられ,この期間を除くと適合度が改善するというのは面白い
- おやつ:カンパン5かけ
-- Baayen に移る
#ref(wine20070923s.JPG,right,nowrap,nolink,around,Yves Louvet)
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]]  に移る
--- 単語のペアの分布について bivariate lognormal-Poisson 分布が当てはまる場合についての記述あり(p.109)
- 18:30 帰宅
- 23:00 ロゼ・シャンパン(Yves Louvet),月桂冠などかまわず飲んで就寝

** 9月21日 [#z178e653]
** 9月21日 [#p94106ba]
- 06:00 起床
- 07:25 研究室
- 午前
-- 東工大の [[間瀬先生:http://www.is.titech.ac.jp/%7Emase/index-j.html]] から [[統計数理研究所:http://www.ism.ac.jp/]] での講演依頼のメール.予定は12月7日が日本人ゲストで,8日が海外ゲストとのこと.海外ゲストは Luke Tierney と  Friedrich Leisch の二人. お引き受けすることにした
-- T 大の M 先生
// [[間瀬先生:http://www.is.titech.ac.jp/%7Emase/index-j.html]] 
から [[統計数理研究所:http://www.ism.ac.jp/]] での講演依頼のメール.予定は12月7日が日本人ゲストで,8日が海外ゲストとのこと.海外ゲストは Luke Tierney と  Friedrich Leisch の二人. お引き受けすることにした
-- 昨日の会議の資料を関係者に送付
-- 例によって足立の本を眺める.平方和分解と直交行列との関係を丁寧に説明しているところは使えそう.pp.147
-- 井関さん.[[中澤先生:http://phi.med.gunma-u.ac.jp/index.html]] がブログで紹介されていた
-- 井関さん.
//[[中澤先生:http://phi.med.gunma-u.ac.jp/index.html]] 
G 大の N 先生がブログで紹介されていた
[[数学ガール:http://www.amazon.co.jp/%E6%95%B0%E5%AD%A6%E3%82%AC%E3%83%BC%E3%83%AB-%E7%B5%90%E5%9F%8E-%E6%B5%A9/dp/4797341378/]]
が届く
-- [[シュプリンガー・ジャパン:http://www.springer.jp/]] 編集部より和書 [[メジャーリーグの数理科学〈上〉〈下〉:http://www.amazon.co.jp/%E3%83%A1%E3%82%B8%E3%83%A3%E3%83%BC%E3%83%AA%E3%83%BC%E3%82%B0%E3%81%AE%E6%95%B0%E7%90%86%E7%A7%91%E5%AD%A6%E3%80%88%E4%B8%8A%E3%80%89-%E3%82%B7%E3%83%A5%E3%83%97%E3%83%AA%E3%83%B3%E3%82%AC%E3%83%BC%E6%95%B0%E5%AD%A6%E3%83%AA%E3%83%BC%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0%E3%82%B9-J-%E3%82%A2%E3%83%AB%E3%83%90%E3%83%BC%E3%83%88/dp/4431710167/]] の献本が届く.原著者は
最近 [[Bayesian Computation with R:http://www.amazon.co.jp/Bayesian-Computation-R-Use/dp/0387713840/]]   を出版した Jim Albert
- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
-- 統数研の中野先生からメールを頂く.徳島ご出身とのことで,ちょっと恐縮
-- Baayen にとりかかる
-- 統数研の N 先生からメールを頂く.徳島ご出身とのことで,ちょっと恐縮
--  [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] にとりかかる
--- p.102  のオブジェクト animals は ''cluster'' パッケージのデータ名とぶつかっている.それはともかく,確かに計量言語学の入門書ではあるのだけど,単語のカテゴリごとの分布の差はこれほどはっきりしているのかと感心.wikiでの画像挿入の練習をかねて,表示してみる.
#ref(baayen101.png,center,nowrap,80%, lmreg による画像)
--- 回帰分析に 2 次の項を含める意味が丁寧に書いてある
-- Best の Satzlaenge im Deutschen を参照する.テキスト数が 20 でそれぞれの n が 28 - 89 というのはいかにも少ない.例によって解析ソフトは Altmann-Fitter.途中で,Hyper-pascal 分布へ当てはめるには区間幅を相当大きくする(従って自由度を減らす)必要があると指摘しているが,これは当方の日本語での解析結果と一致する.例によって係数 C < 0.01 が登場する.カイ二乗値を N で割った値. ドイツ系の計量言語学者が持ち出すこの Diskrepanzkoeffizient C  と Jacob Cohen の Statistical Power Analysis for the Behavioral Sciences, p.222 の contingency C の「関係」がいまいち分からない.Peter Grzybek / Emmerich Kelih / Gabriel Altmann
の Graphemhaeufigkeiten.In: Anzeiger feur Slavische Philologie
(XXXIII) 2005 の註 8 に

>Die Guete der Anpassung wird ueblicherweise mit dem Chi^2-Anpassungstest geprueft;
in der Linguistik wird bei grossen Stichproben statt des Chi^2-Werts in der Regel
der relativierte Diskrepanzkoeffizient C = c
chi^2/N verwendet, wobei ein Wert von C <
0.02 als Indiz einer guten, von C < 0.01 einer sehr guten Anpassung angesehen wird.
Es muss aber bemerkt werden, dass bei extrem grossen Stichproben auch C seine
Schwaechen hat.

とあるが,私は形式的な根拠を知りたい.Grzybek は別の論文で Grotjahn & Altmann:Modelling the Distribution of Word Length: Some Methodological Problems を典拠としているが,後者の論文では(正当なのだが) カイ二乗値に変わる判断としてCohen のオメガ係数を引用しているに過ぎない
- 18:15 帰宅.途中寄り道.シュプリンガーから事務連絡がきていた.
- 23:00 シャンパン(Mumm Cordon Rouge Brut)、麦焼酎、月桂冠などを飲み散らして就寝
#ref(wine20070921s.JPG,right,nowrap,nolink,around,緑烏帽子)

** 9月20日 [#uf913699]
** 9月20日 [#g9323803]
- 06:10 起床
- 07:30 研究室 (そして整理)
-- [[WordPress:http://wordpress.xwd.jp/]]  をいじってみる
- 10:00 会議 (将来構想) と思ったら 10:30 からだった
- 12:30 会議終了
- 昼食はとらず,[[tDiary:http://www.tdiary.org/]] などをいじる
-- 15:00 来客.雑談
-- 17:00  [[pukiwiki詳細設定など:http://www.wikihouse.com/typhoon/index.php?%CA%D4%BD%B8%A4%CE%BC%EA%B0%FA%A4%AD#w664754d]]続き
-- 18:00 来客.今朝の会議について雑談 
- 19:00 帰宅
- 22:00 酒飲まず就寝

**9月19日 [#c5846c27]
**9月19日 [#m21cd747]
- 06:10 起床
- 07:25 研究室(そして整理)
- 午前

-- George E. Bardwell, Edwin L. Crow 論文名 [[A Two-Parameter Family of Hyper-Poisson Distributions:http://links.jstor.org/sici?sici=0162-1459(196403)59%3A305%3C133%3AATFOHD%3E2.0.CO%3B2-D]]資料名Journal of the American Statistical Associationの複写を図書館に依頼
-- &aname(hyper); George E. Bardwell, Edwin L. Crow 論文名 [[A Two-Parameter Family of Hyper-Poisson Distributions:http://links.jstor.org/sici?sici=0162-1459(196403)59%3A305%3C133%3AATFOHD%3E2.0.CO%3B2-D]]資料名Journal of the American Statistical Associationの複写を図書館に依頼
-- 10:00 足立の本を眺める

- 昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
- 午後
-- 例によって Baayen
-- 例によって [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] 
--- 単語リストを作成し,リストの各語について二つのテキストから頻度を求め,それぞれのベクトルを比較するのは「対応のある検定」だと.t 検定の説明としては分かるのだが.t.test で信頼区間の確率幅を調整できるのだった.引数 conf.level = 0.99 .すっかり忘れていた
--- 全部のコードを実行しているわけではないが,p.84のコードと掲載されたプロットとが一致しないことに気がついた.対数化するコードが抜けている模様

- おやつ:カンパン5かけ.手が汚れないので楽
- 14: 44:Dell のパソコンが到着.Inspiron, Core 2 Duo, 320GB, 2GB, WinVista, 19inch Monitor, これで105,240円.別注の内蔵 SATA も到着.Vistaを使う気はないけど,せっかく入っているので,Ubuntu との Dualbooting を構築する予定.これを機会に Fedora から乗り換える.またUbuntu 上では WinXP をヴァーチャルにインストールする.Ubuntu は10月末に 7.10 Gutsy Gibbon が出て,Ghostscripit も 8.60 にアップされているらしいのだが,一月以上先なので,とりあえず 7.04 を構築しようか
- 思い立って pukiwikiをサーバーに構築.CMSにしようかとも思い,[[xoops:http://jp.xoops.org/modules/news/]] を検討したが,このサーバーのMySQL は文字コードが latin-1 なので,文字化けに対処せねばならない.面倒なので pukiwikiに.といってもファイルを展開しただけ.サーバーに chasen と kakasi をインストールしておいた.これまで蓄積してきた R, Linux, TeX, Programming の極私的メモをすべてここに移行しようと思う
- 引き続き Baayen
-- ks.test (p.79) や cor.test (p.98) の説明で,データに tie がある際の warning を消すためにデータに jitter すれば良いというのは.何というべきか...
-18:30 帰宅 
- 23:00 過ぎ:飲むだけ飲んで就寝


**9月18日 [#k1b71e16]
**9月18日 [#rff1bd1e]
-    6:10 起床
-    8:00 前:研究室 (そして整理)
-    午前
--        Best の論文の複写を手配しようとしたが,本人からファイルが送られていたのに気がつく
-- &aname(books);       [[Haufigkeitsverteilungen in Texten:http://www.amazon.de/H%C3%A4ufigkeitsverteilungen-Texten-Karl-H-Best/dp/3933043085/]] と[[The Distribution of Word and Sentence Length:http://www.amazon.de/Distribution-Word-Sentence-Length/dp/3884762761/]]を何とか入手したい
--        足立 著 [[多変量解析入門:http://www.amazon.co.jp/%E5%A4%9A%E5%A4%89%E9%87%8F%E8%A7%A3%E6%9E%90%E5%85%A5%E9%96%80%E2%80%95%E7%B7%9A%E5%BD%A2%E4%BB%A3%E6%95%B0%E3%81%8B%E3%82%89%E5%A4%9A%E5%A4%89%E9%87%8F%E8%A7%A3%E6%9E%90%E3%81%B8-%E8%B6%B3%E7%AB%8B-%E5%A0%85%E4%B8%80/dp/4884122801/]]を眺める(講義準備)
--    昼食:砂糖まぶしヨーグルト,砂糖ミルク入りコーヒー
-    午後
-- [[Baayen:http://www.mpi.nl/world/persons/private/baayen/]] の[[Analyzing Linguistic Data:http://www.amazon.co.jp/Analyzing-Linguistic-Data-Introduction-Statistics/dp/0521882591/]] の続きを眺める
-- [[Bayesian Computation with R:http://www.amazon.co.jp/Bayesian-Computation-R-Use/dp/0387713840/]] もそうなのだが,代入記号に = が使われている.ちょっと気に入らない.
--  Best の論考 Wie viele Woerter enthalten Saetze im Deutschen を読む.やはり Hyper-pascal 分布では無く,負の二項分布,より好ましいのは Hyper-poisson 分布であるとしてる.さらに区間は 5 間隔でまとめても,調整しなくとも結果に影響しないともある.もっとも Best の使っている解析ソフト Altmann-Fitter は,期待度数が 1 未満のセルは,単純に切捨てている.開発者の Altmann 自身から,そう聞いた).したがって自由度は単純に n - パラメータ数 - 1 ではない
--  例によってHyperな離散分布が出てきた.RSitehelp でも見当たらない.とりあえず文献を調べて,自分で実装し,実験してみねば.そう思って,Google 調べていたら来客(17:00).学務について雑談.途中 X 氏加わる.
-    19:00 帰宅
-    22:00 過ぎ: 酒も飲まずに就寝