日録2008_1月 のバックアップの現在との差分(No.9) - アールメカブ

アールメカブ


日録2008_1月 のバックアップの現在との差分(No.9)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
[[過去の日録]]

http://www.okada.jp.org/RWiki/Rlogo-newYear.png
//http://www.okada.jp.org/RWiki/Rlogo-newYear.png
//[[RjpWiki>岡田先生:index.php]] のお正月版ロゴをしばらく拝借

[[RjpWiki>岡田先生:index.php]] のロゴを拝借
* 2008年 1月 31日(木) 晴 [#f057826f]
- 06:10 起床
-- 07:30 研究室着
- 午前
-- ベイズに関する調べごと.
-- 学生のVBAプログラミングについて.
-- 黒マックLeopardでは latex2htmlのconfigureを実行する際,あらかじめconfig.plをいじってなくとも,しっかりGhostscriptの設定を感知してくれる模様.ただしnetpbm等はいれなければならない.
- 午後.乾麺
-- 12:50-14:20 演習
-- R から 暗号化された ssh コネクションを開いて,サーバー上のファイルを読み込む方法がありそうな気がするのだが. 
-- 本屋さん
// 本屋より 87129.向こうへ 8000
-- H氏来訪
-- VB についての質問客.
- 定時帰宅,3合ほどのんで定時就寝




* 2008年 1月 30日(水) 曇 [#s136661b]
- 05:40 起床
-- 07:00 研究室着
- 午前
-- 08:35-10:10 演習
-- 研究室のUbuntuでも昨晩自宅で行ったのを同じ手順でlatex2htmlをコンパイルしてみた.インストールまでは実行しなかったが,問題なさそうである. [[latex2html-2002-2-1.tar.gz:http://takeno.iee.niit.ac.jp/~shige/TeX/latex2html/data/170/latex2html-2002-2.tar.gz]] (revision 1.70; 1122706 Byte)  と [[l2h-2002-2-1+jp1.7.patch.gz:http://takeno.iee.niit.ac.jp/~shige/TeX/latex2html/data/l2h-2002-2-1+jp1.7.patch.gz]] (22887 Byte; 展開後 94953 Byte)  を以下を実行してコンフギュアだけしてみる.
 $ gunzip -c latex2html-2002-2-1.tar.gz | tar xf -
 $ gunzip l2h-2002-2-1+jp1.7.patch.gz
 $ cd latex2html-2002-2-1
 $ patch -p1 < ../l2h-2002-2-1+jp1.7.patch
 $ cp /Users/ishida/config.pl config/
 #手作業で修正した config.plにおきかえた
 $ ./configure
-- ビショップの『パターン認識と機械学習 上』が届いた.中身を眺めて,いい本だなと思う.
- 午後.ヨーグルトとカロリーメイト.
-- 12:50-16:05 講義
-- 16:05 - 17:30 大学院
-- 大学院留学生の成績について相談される.
- 定時帰宅,定時就寝

* 2008年 1月 29日(火) 雨 [#hbc296c1]
- 06:10 起床
-- 07:30 研究室着
- 午前
-- Ubuntu のサーバー版をダウンロード.インストールは学生に任せようかと思っていたが,どうも信用しかねるので,自分でやることに決める.ただサーバー機を箱から出すのが面倒なので,実際の作業は少し先に行う.他にCのプログラム作成の仕事もあり,バイト代を捻出できないこともないのだが,やはり自分でやるしかない.もちろん,自分には日当など出ない.
- 午後.乾麺
-- Ubuntu に変えてから latex2htmlを使ったことが無かった.改めてインストールしたのだが,後で調べたら,前に一度インストールしていたことをすっかり忘れていた.ところがエラーが出る.
  [japanese]Note: Loading .latex2html-init
  Error: No such image type ''.
       This installation supports (first is default): 
netpbm は入っているはずなのだが...
--- configure の結果を見ると
 checking for ghostscript version... no
 Error: could not determine gs version
 Warning: Will not be able to generate images
        due to above failure.
 checking for pnmflip... /usr/bin/pnmflip
とある.Ghostscript の設定が読み込めていない様子.config/config.plを手作業で変更してもよいが,とりあえずオプション付きでコンフギュアする.
 ./configure --prefix=/usr/local
   --with-gsdevice=pbm
    --enable-png
-- 14:35-16:05 演習.
-- latex2html の続き.どうもよく動かない.結局,すべて削除した.
 $ sudo rm /usr/local/bin/latex2html
 $ sudo rm -Rf  /usr/local/lib/latex2html
 $ sudo rm -Rf /usr/local/bin/texexpand
 $ sudo rm -Rf /usr/local/share/lib/latex2html
その他,(/usr/local/teTeX/share/texmf/tex/latex/html)以下にもいろいろインストールされているのだが,こっちはそのままにしておく.

-- ところが,.latex2html-init ファイルをいじったら,Ubuntuの管理パッケージ版である/usr/bin/latex2htmlが動くようになった...
-- ただ単に,ポアソン分布の最尤推定の説明をするための資料を書くために,latex2html が必要だったのだが,結局,半日無駄にしてしまった...

--- 自宅のUbuntuにしつこくlatex2htmlをインストールしてみる.
[[latex2html-2002.tar.gz:http://takeno.iee.niit.ac.jp/~shige/TeX/latex2html/data/latex2html-2002.tar.gz]] (1075625 Byte)  と[[l2h-2002-2+jp1.6.patch.gz:http://takeno.iee.niit.ac.jp/~shige/TeX/latex2html/data/l2h-2002+jp1.5.patch.gz]] をダウンロード.
次に展開し,パッチをあて,configディレクトリの
config.pl にGSのバジョンを設定しても次のエラーが出る. 
 checking for ghostscript library and font paths... no
 Warning: Could not determine GS_LIB path.
   Ghostscript may not work due to missing startup files.
   You need to set the value of GS_LIB manually in cfgcache.pm.
 Hint:    Search for the file 'gs_init.ps'. This directory and the 'fonts'
   directory (usually same level) should be set in GS_LIB.
   Separate the entries with the ":" character. The current
   directory "." should be included, too.
 checking for /usr/bin/pnmcrop -verbose ... no
 checking for pnmcrop -verbose ... no
 checking for pnmcrop... /usr/bin/pnmcrop
//まず cfgcache.pm の 
// $cfg{'GS_LIB'} = q'';を
// $cfg{'GS_LIB'} = q'/usr/share/ghostscript/8.61'; に変える.
そこでさらに次の修正を行った.
config.pl で
  $newcfg{'GS_LIB'} = '/usr/share/ghostscript/8.61';
 
  if($gs) {
 #    my @gs_devs;
    my @gs_lib_path;
 #    my $gs_version;
    my @gs_devs=qw(pnmraw ppmraw);
    my $gs_version=8.61;
さらに 
 #        my $gs_lib = 0;
 #        my $gs_fonts = 0;
	my $gs_lib = 1;
        my $gs_fonts = 1;
と変える.自宅には netpbmも入っていなかった.つまりpnmcrop などがない.Synaptic で netpbmを入れて,実行すると成功して,/usr/loca/bin/latex2htmlが使えるようになった.
- 定時帰宅,定時就寝

* 2008年 1月 28日(月) 曇 [#tb5e6847]
- 06:10 起床.相変わらず寒し.
-- 07:30 研究室着(整頓)
- 午前
-- [[Rと和布蕪のインターフェイスのC++版>RへCから名前付きベクトルを要素とするリストを返す]]を追加.RInternals.hをインクルードしたソース内で<iostream>を使うとエラーを起こすので,とりあえず出力部分を別のクラスにまとめるという回避策を行った.
-- C++で const属性を与えた変数からconst属性を外す方法を忘れてしまった.const_cast <Hoge::hoge *> (hoge_var) であった.
- 午後.お昼乾麺 
-- 学生アルバイトに[[ファイル処理手順]]を.
-- 黒マックまたUbuntuとも /usr/local/teTeX/share/texmf-dist/bibtex/bst/natbib に jecon.bstとmy_jecon.bst を,念のためUTF-8に変換してからコピーしておいた.
- 定時帰宅,定時就寝
 
* 2008年 1月 27日(日) 晴 [#ne3c3d1f]
- 07:00 起床.
- 午後.
-- [[分割コンパイルを説明するためのファイル>C++とヘッダ]]を作成.
- グビグビ飲んで定時就寝.

* 2008年 1月 26日(土) 曇 [#m3dd19ca]
- 07:00 起床.相変わらず寒し.
-- 08:30 研究室着(整頓)
- 午前
-- Mac でソフトのインストールに使われる&color(blue){pkgパッケージ};をハッキング(というのも,大袈裟だが)...
-- 昨日インストールした小川版TeXを一括アンインストールするスクリプトを作成して,実行.黒マックから小川版TeXを取り除いた.
- 午後.お昼乾麺.
-- 一般化線形モデルで負の二項分布を誤差項とする場合の検討
- 定時帰宅,定時就寝

* 2008年 1月 25日(金) 晴 [#g4743f1f]
- 06:10 起床.
-- 07:30 研究室着
- 午前
-- 学外から借り出した Yule を複写.
-- [[黒マックいぢり>hidden_Black_Mac]]
-- 小川さんのGhostscriptをインストール.続けて小川版TeXと小川版OTFのdmgを,それぞれダブルクリックでインストール.
-- 土村版TeXを構築.上で小川版TeXのdmgをインストールしてみたけど,文字コードがデフォで sijis らしく(小川さんのサイト見ると,はっきりShiftJis版と明記してあったのだけど) ,dvi,pdf で文字化けする.文字化け対策が何となく面倒.小川版のインストール先を Library/Receipts/ 以下の som ファイルで調べると,/usr/local/share 以下だけではなく,/ur/local/bin にも大量のファイルをコピーしている.スクリプト作って,一括削除してもいいけど,とりあえずは面倒.小川版はそのまま残して,土村版を"export CFLAGSを-O2"と立てて make install し,その上で bash_profile の設定で優先を /usr/local/teTeX/ の土村版とした.
-- CarbonEmacsをインストール.yatexはヘルプのパッケージのインストールを展開していくと,yatexインストールというメニューがあった.ESS だの xdvi だのは,どうやらすでに入っているらしい.
-- R のdmg版をインストール.
-- dmgってのは要するにisoイメージらしい.
- 午後.お昼は来客と外食.
-- ssh .例によってパーミッションの設定で混乱.
-- svn を利用可能に.
-- bash_profile を作成.
-- 16:00-18:30 ゼミ。う〜ん...
-- gcc4.3 から core2duo に最適化できるオプション (-march=core2) が付くらしい
- 定時帰宅、四合飲んで定時より遅れて就寝
 
* 2008年 1月 24日(木) 曇 [#r7ad3b64]


- 05:40 起床.
-- 07:10 研究室着(整頓)
- 午前
-- 一般化線形モデルとポアソン分布についてまとめておく
- 午後.お昼乾麺.
-- 12:50-15:00 演習.残業だよ.疲れたなぁ...
-- [[黒マックいぢり>hidden_Black_Mac]]
-- K氏,H氏来訪.Mac作業中断
- 定時より遅れて帰宅,定時就寝

* 2008年 1月 23日(水) 雨 [#v5c4b4a1]
- 06:10 起床.凍りそうである.
-- 07:30 研究室着
- 午前
-- Ubuntuのアップデートがまたある.最近多い.何気なくOK押そうとしたら,Ghostscriptのアップデートがある.マイナーチェンジのようだが,日本語まわりは大丈夫なんだろうな?
-- 08:35-10:10 演習.
-- 黒マックいぢり.
- 午後.お昼は乾麺.空模様,晴れてきた.
-- 12:50-16:05 講義
--さて,黒マックに,まずはEmacsとTeXとRをいれなければならない.Emacsは,Leopardにもとから入っているEmacsが[[Carbon対応らしい:http://www.gifu-nct.ac.jp/elec/deguchi/deguchi/leopard/]]のだけど,[[ここ:http://homepage.mac.com/zenitani/emacs-j.html]]から取ってきていれようか.MacのTeX環境整備は,要するにフツーのLinuxと同じだろうと思うけど,一応[[MacWiki:http://macwiki.sourceforge.jp/wiki/index.php/%E3%83%AA%E3%82%B9%E3%83%88/TeX]]で確認しておく.
-- 16:30-18:00 会議(将来構想)
- 定時帰宅,定時就寝

* 2008年 1月 22日(火) 曇/雨 [#s5dd8e97]
- 06:10 起床.寒い.
-- 07:30 研究室着
- 午前
-- 昨日引き続き,一般化線形モデルとMCMC計算法についてチェック.
- 午後.乾麺
-- 14:35-16:05 演習
-- Perlのモジュールが足りない.ものすごく久しぶりに
 $ su
 Password:
 # perl -MCPAN -e 'install hoge::hoge'
 #  とか
 # perl -MCPAN -e 'install hoge_module'
なんて作業をした.
-- あまり見かけないT氏来訪.誰だか分からなかった.
- 定時帰宅,定時就寝

* 2008年 1月 21日(月) 曇 [#t1364cd5]
- 07:30 起床.寒い.
-- 09:00 研究室着(整頓)
- 午前
-- 充電.
-- 依頼されたデータベースとPHPの処理
- 午後.お昼乾麺
-- G大のN先生より献本[[Rによる保健医療データ解析演習>書籍検索:Rによる保健医療データ解析演習]]を賜る.内容も充実しているが,カバーデザインも綺麗.医学系を思わせるタイトルになっているけど,もちろん,医学分野以外の研究者,学生にも躊躇なくお勧めすることができる本.
-- いま手をつけている論文での,データに対するモデリングについて,根本的に見直そう.ちょっと面白いこと考えた.説明変数を幾つか検討する.ただし,期待通りの結果が得られるは分からん.

-- H氏来訪.LeopardでのTeXの設定について雑談.
-- Rで何気なく install.packages("hoge")としたら,いきなり「ダウンロード先を選べ」とメッセージが表示されるが,肝心のリストが出てこないままで,反応も返ってこない.何度かやっても,やはりフリーズしてしまい埒があかないので,
 options(repos="http://cran.md.tsukuba.ac.jp")
を実行してから,install.packages("hoge") として,何とかパッケージをインストールした.原因は何だろう.
-- 一般化線形モデルでの仮説についてちょっと検討.
- 定時帰宅,定時就寝

* 2008年 1月 20日(日) 雨 [#o657363d]
- 07:00 起床.寒い.
- 午後
-- 英語データの収集.
- 鯛鍋で過ごし過ぎてダウン.定時より遅れて就寝.

* 2008年 1月 19日(土)  晴 [#pe1ae282]
- 06:10 起床
-- 07:30 研究室着(整頓)
- 午前
-- 10:30 頃まで,こまごまとした片付け.
-- 共立の『生物科学のための現代統計学』を参照.
--- 13章に分割表の検定についての話があって,これに関連して「分割表に対するカイ2乗値は片側検定として用いられるものであって」と述べられている.ん,片側?青木先生の[[関連ページここ:http://aoki2.si.gunma-u.ac.jp/lecture/Cross/cross.html]]と[[ここ:http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc031/04837.html]]を参照.
さらに,その章のp.254下に次のような課題があって,両側検定している.つまり1 から,ポアソン分布で0あるいは1が出る確率を引いた結果をさらに2倍しているのだけど,その必要があるのかな?
//帰無仮説は書いてあって,「無作為」とはあるが,それは,その後に続く「2以上の...」という文言と一致しないような気もするし.
本をペラペラとめくって,たまたま,この部分だけ目に入ったので,前後のつながりを見落としているのかな?
>...ほぼ同じ規模の町での発症の平均値は0.5人である.2人という数は0.5人に比較して有意に大きいと判断していいであろうか.帰無仮説は「この病気の発症は...どこでも無作為に起る」というものである..つまり発症は平均0.5のポアソン分布に従うと考えることになる.では,2以上の値を観測する確率はいくらだろうか?
<
- 午後.お昼に乾麺とヨーグルト
-- Sichel の論考に移る.
- 定時帰宅,お酒三号ばかりで定時就寝.

* 2008年 1月 18日(金)  曇 [#z72c185b]
- 06:10 起床.粉雪が舞っている.
-- 07:30 研究室着
- 午前
-- Ubuntuのアップデート.[[boostライブラリ>CPP_regex]]関係が大量にあった.
-- さて和布蕪インターフェイスを少しずつ改良していこう.
--- とりあえずR上で日本語テキストファイルを指定すると,和布蕪に解析を行わせ,結果をリストにまとめるインターフェイスを作成した.このリストの各要素は,元トークンとその解析情報を要素とするベクトルである.
特定の品詞が必要な場合,R側で次のように処理する.リストオブジェクト kekka に解析結果が代入されているとして
 for(i in 1:length(kekka)){
   if(kekka[[i]][2] == "名詞"){
     print(kekka[[i]])
   }
 }
こうした処理はベクトル単位で検索するRの方がCよりも早いんじゃないかな?
-- 昨日,青木先生のサイトでゼロ打ち切りの離散分布を,vglm でモデル診断すると言う話題があることに気がついた.私も3年前ぐらいに,テキストから抽出したカウントデータについて,AICを基準に適合するモデルを探すという作業を行ったことがある.ちょっと,やり直してみよう.テキストからのカウントデータ,例えば文長は独立でないのだが,とりあえず古い古いファイルGakubuKeihi.forUni/buntyo.R をコピーして見直す.
- 午後.乾麺一個
-- VGLMのことであれこれ考えているところに発注していた黒マック5台がくる.頭が別のところにあったので,業者が持ってきたメモリがこれで良いのか,混乱.ともかく,まあ,よしと.しかし,しばらくいじる暇はない.
-- 16:30 会議(将来構想)
-- 会議中に,出版社より電話.途中抜け出て,その後,会議に戻るも,18:30には中座.
-- [[『最短経路の本』:http://www.springer.jp/japan/math/j10011.html]]が売れ行き好調らしく,安堵.その他,別の仕事の話.
--  結局,今日一日はなんの仕事もできなかった.
- 定時よりやや遅れて帰宅,定時就寝.

* 2008年 1月 17日(木)  曇 [#va06f30f]
- 07:40 起床.霰がパラパラと降っている.
-- 体調は回復した模様.
-- 09:00 研究室着
- 午前
-- Ubuntuのアップデートにcups関連のファイルが数個.二三日前にもcupsはアップデートがあった.前回のアップデートには不具合があった模様.そうだろう.昨日,Ubuntuから印刷しようとして苦労した.
-- A. Q. Morton の "The Authorship of Greek Prose"に目を通し始めたのだが,面白い一節があった. 
> The subjective analysis of literary style is a highly developed art, but one which suffers from two limitations. The first is its essential subjectivity. A critic draws up a list of genuine works, using literary style as an important criterion in his judgement. Asked how he knows the work to be genuine, he can only reply, "I see in them the mind and style of the author and the external evidence agree with this judgement". If you the ask him how he knows the mind and style of the author he can only say, "I see them in the genuine works". So a large part, and it may be the decisive part, of his analysis is founded upon a circular argument.
<
-- 青木先生の[[統計学関連なんでもあり:http://aoki2.si.gunma-u.ac.jp/taygeta/statistics.cgi]]2008/01/07に 「0項の切れた分布」という話題があって,面白い.
- 午後
-- 12:50-14:20 一年生向けの演習.ゼミの学生より真剣に取り組んでいる.
-- 15:00 データの解析をやり始めたところで H 氏来訪。プログラム作成の途中であったが中断し、学務について雑談。
-- 17:00 あまり時間もないが仕事の残りを片付ける。
- 定時帰宅、定時就寝

* 2008年 1月 16日(水)  曇 [#sc740452]
- 06:00 起床.寒い.
-- お腹が痛く,体がふらつく.インフルエンザなのか?あるいは日曜日に食べた生牡蠣か?
-- 07:30 研究室着
- 午前
-- 和布蕪に日本語解析を渡すライブラリだが,トークンをC++のベクトルクラスで処理したいと思うのだが. error: invalid conversion from ‘int’ to ‘SEXPREC*’というエラーがなかなか解決つかん.
-- [[RjpWiki>岡田先生:index.php]]に[[.Call/.Externalで使用するDLLの作成方法について:http://www.okada.jp.org/RWiki/?%A3%D1%A1%F5%A3%C1(%B5%EC1)#content_1_6]]
という記事を見つけた.
-- 疲れた.そもそも Writing R Extensions に
>
Using C++ iostreams, as in this example, is best avoided. There is no guarantee that the
output will appear in the R console, and indeed it will not on the R for Windows console.
Use R code or the C entry points (see Section 5.5 [Printing], page 59) for all I/O if at all possible.
< 
ともあるしなぁ.
-- 要はRとC言語(C++やJavaではなく)のインターフェイスで配列を可変長にできれば良いのだが,なにせテキストは読み込みを終わるまでトークンの数が分からないので,実行時にただちに要素数を指定できるわけでもないのがネックなのだ.
[[同じような悩み:http://tolstoy.newcastle.edu.au/R/devel/05/04/0474.html]]があるようで.
-- lengthgets()を使う?どれどれ.[[このコード:http://rgonzui.nakama.ne.jp/R/markup/R-2.6.0/src/main/attrib.c?q=lengthgets#l690]]を参考にしてと...
--- おお,素晴らしい.まだよく理解していなんだが,これは良さそう.[[RへCから名前付きベクトルを要素とするリストを返す]]に追記しておこう.
- 午後.お昼は来客と外食.
-- 14:00-15:00 紀要発送の事務仕事.自分は書いていないのだけど,紀要委員なので...
-- 16:00-18:30 ゼミ.ほとんど進んでいない.みな何考えているんだ.そのうち,こっちの堪忍袋も切れるかな. 
- 定時帰宅,体調悪いので,定時よりやや早く就寝.

* 2008年 1月 15日(火)  曇 [#g831f1f4]
- 06:10 起床.寒い.
-- 07:30 研究室着
- 午前
-- [[Javaと和布蕪]]をバインディングしようとして,同じ愚を繰り返してしまった.
-- C言語でRとのインターフェイスを書いているのだが,リストやベクトルの要素数は,初期化時に決めなければならないんだろうか.R的にはc()関数を使えば,次々と追加,つまり要素数を増やしていけるが,Cのソースとなると,そうはいかんか.
-- 和布蕪の出力を,まず形態素と,その情報を一つのベクトルにまとめる.文章あるいはテキストをインプットとすると,膨大な数のベクトルが出来上がるわけだが,これをすべて一つのリストの要素としてまとめる?
-- 和布蕪の場合, mecab_sparse_tonod()関数の出力の構造体メンバであるstatに,文の開始を表すBOSと終わりを表すEOSがある.とりあえずsurfaceとfeatureを二元配列の要素として保存し,処理が全部終わったら,その要素数をとって,ループでリストを作成していく?何だか,スマートじゃないなぁ.
-- とりあえず,和布蕪が抽出した形態素にその品詞情報を「名前」としたベクトルを要素とするリストオブジェクトを返す[[プログラムの雛形>RへCから名前付きベクトルを要素とするリストを返す]]はできた.
--- マニュアルがほとんどないので,作業が遅々として進まん...
-- [[R_alloc():http://www.ualberta.ca/CNS/RESEARCH/Rdoc/R/doc/manual/R-exts.html#Memory%20allocation]]てのは,どういうもんなんだ?[[ここ:http://www.mail-archive.com/r-help@stat.math.ethz.ch/msg22321.html]]とか[[ここ:http://tolstoy.newcastle.edu.au/R/help/04/03/0061.html]],さらには[[ここ:http://archives.devshed.com/forums/development-94/r-c-memory-leaks-2231514.html]]も参考にしよう.
--- [[ここ:https://stat.ethz.ch/pipermail/r-devel/2003-November/028115.html]]に関連する話題があるので,見てみる.
> All R strings should be null-terminated, so strncpy will only copy the number of characters present (plus the null terminator) if less than n.
Quite true; I'd forgotten strncpy stopped at null.
I can see that writeChars might write rubbish out, but not why it should  segfault.  
Ok, I've just had a poke at it with ddd.  The above example
faults in the memset() call (line 2772 connections.c) in both
R versions.  I think the problem is underallocation of buf:
<
    len = 0;                            /* line 2757 */
    for(i = 0; i < n; i++) {
	tlen = strlen(CHAR(STRING_ELT(object, i)));
	if (tlen > len) len = tlen;
    }
    buf = (char *) R_alloc(len + slen, sizeof(char));
>
which sets len to the longest string in object (in this
case, 0 bytes), then allocates len+slen to buf.  gdb
confirms len=0 and slen=1 at this point.  But a little later
<
    len = INTEGER(nchars)[i];           /* line 2770 */
    s = CHAR(STRING_ELT(object, i));
    memset(buf, '\0', len + slen);
    strncpy(buf, s, len);
>
len is now set to [the first element of] nchars, which
hasn't been checked, and is 10000000 (gdb confirms).  So the
call to memset() copies way over the end of allocated buf.
Does that sound rational?  I'm not very familiar with R's
internals.  I guess small overruns might not actually fault,
because buf is within R's existing heap?
<

- お昼.乾麺一個.
-- H氏来訪.カリキュラムについて.
-- あれこれ検索していたら,strtok()の挙動についてまとめている[[サイト:http://kmaebashi.com/programmer/object/shigoto.html]]を見つけた.
--定時帰宅,定時就寝

* 2008年 1月 14日(月)祝日 曇  [#n261be28]
- 07:10 起床.かなり寒い.
-- 08:30 研究室着(整頓)
- 午前
-- 農業環境研究所の三中先生の[[ブログ:http://cse.niaes.affrc.go.jp/minaka/diary.html]]を見ていたら,[[ベイズ洗脳ツール:http://www.eeb.uconn.edu/people/plewis/software.php]]なるものがあることを知った.
-- Wakeの論考のチェックを済ませる.四分位点の標準誤差推定に関しては,今のコンテキストでは特に重要でないので,ペンディング.
- 午後.お昼乾麺1個.
-- Clayman 1980のチェックに入る.
--- 古典ギリシャ語による詩に関してではあるが,文長をシラブルや音で測る場合,その分布が内容に大きく影響されるというのは面白い.とりあえずClaymanのチェックは完了.
-- 面倒がらず,[[NTCIR Project:http://research.nii.ac.jp/ntcir/index-ja.html]]から[[日本語テストコレクション:http://research.nii.ac.jp/ntcir/permission/perm-ja.html]]を入手する手続きをとろう.
-- おやつ.乾麺一個.
-- [[和布蕪:http://mecab.sourceforge.net/libmecab.html]]の出力をRに取り込んで,様々な解析オプションを行うパッケージを,そろそろ本気でつくろう.まずは[[基本>Rと和布蕪]]をまとめた.
--- それで和布蕪の出力は,Rにはリストオブジェクトとして返すべきだろうから,まずはCインターフェイスを使ってRにリストを返すプログラムを書いてみる.
---  その前に[[C側で文字ベクトルを生成して,それをRに返す>RへCから文字列]].
--- では[[文字ベクトルと数値ベクトルを含むリストをC側で作成し,Rに返す>RへCからリスト]].
-- さて,和布蕪の出力のうち,さしあたって必要なのは,char  *surface;             // 形態素の文字列情報  と char  *feature; // CSV で表記された素性情報の二つだけだろう.すなわち「太郎は...」を入力とすれば,例えば
surface は「太郎」で feature は「名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー」という文字列.前者は[[ここ:http://mecab.sourceforge.net/libmecab.html]]によれば NULL terminateしていないらしいが,何か特別な目的ないし意味があるのかな?
- 定時帰宅,定時就寝
 
* 2008年 1月 13日(日) 曇/晴 [#g4336059]
- 07:00 起床
- 午後
-- 英語データの整理
- 生牡蠣をさかなに白ワインと日本酒三合で就寝 

* 2008年 1月 12日(土) 曇/雨 [#r0c955c9]
- 06:10 起床
-- 07:40 研究室着(整頓)
- 午前
-- 昔(と言っても10年前),BMIR-J1,J2という日本語テキストのテストコレクションがあったと思うのだけど([[関連ファイルpdf:http://voice.fresheye.com/sakai/adbs98.pdf]]),今検索すると出てこない.[[NTCIR:http://research.nii.ac.jp/ntcir/index-ja.html]]に完全に取って代わられてしまった,と言うことであろうか.
-- Wakeの論考の前に,C.B.Williamsが1940にBiometrikaに発表した論考を確認する.
-- で,Wakeの論考に移る.意外に?厳密な議論が展開されているので,こちらも腰を落ち着けて読む.
--- Wake が Yuleを批判して,第3四分位点の標準誤差の見積りがおかしいと述べているのだが,その後でWakeが計算に持ち出している数値の一つ,14.5が,Yuleの論考のどこにあるのか,あるいはYuleの表からどのように導いたのか,よく分からない.
--- ちょっと整理しよう.第3四分位点は,Yuleによれば サンプルAで53.2,Bで49.9.Totalの場合51.3.この値は語数である.
Wakeは,この分位点の頻度数を,この分位点の「平均座標(mean ordinate)」と考えると,それは14.5/5と書いている.しかしこの分位点は連続補正をしたものなので,対応する頻度というのは存在しない.
//ここでmean ordinate というのは,正確には何を意図しているのだろうか?
-- こういうときは,まずは先に進んで,後で戻るに限る.
- 午後.お昼乾麺.
-- Wakeを続けて読む.
-- ディスプレイの設定
- 定時帰宅,三合で定時よりやや遅れて就寝.

* 2008年 1月 11日(金) 曇/雨 [#o9f607df]
- 06:00 起床
-- 07:30 研究室着
- 午前
- 『Rでクラスタ』.p.109で非階層的クラスタを求めるために,EMアルゴリズムを実際に適用した例を丁寧に説明してあって,とても参考になると思うのだが,ただRのコードも掲載されていたらよかったと思う.学生が自分自身でやってみると,掲載されている分散の値と,Rのvar()関数で求めた分散の値とが異なっているので,戸惑うのではないかと思う.不偏分散でない分散を求めるコードを自分で書くのは難しくないが,説明があれば,もっと親切だと思う.
//-- Springer からのご依頼について,一人で勝手に色々検討.
- 午後.来客と外食.
-- 行動計量学会での発表ネタに関する作業.
-- 16:00 ゼミ.全員まるで進んでいない模様.何か特別な理由があるのか,はたまた,やる気がないのか,あるいは能力がないのか,判断に迷う.
- 定時帰宅,熱燗三合で,定時よりやや遅れて就寝.

* 2008年 1月 10日(木) 曇 [#ff7f4873]
- 06:00 起床
-- 07:30 研究室着
- 午前.
-- 『Rでクラスタ』を眺める.小技がちょこちょこ紹介されていて,役に立つ.例えばp.52-53にある,matrix market 形式を扱う readMM()関数や,スパースな行列を''Matrix''ライブラリで扱うためにas(x,CspareMatrix)で変換するというのは,知らなかった.
--- ''mclust''ライブラリで Mclust()関数で混合分布を扱う場合の分散共分散行列を推定するモデルについて,p.105以下にかなり詳しく説明されている. 
--- 読んでいて時々疑問に突き当たるので,宮本『クラスター分析入門』なども参照する.
-- この時期,何だかんだと書類を出せといわれるのだが,書類を見ても,提出先と指定されている部署が,広いキャンパス内の,どの建物にあるのかまでは書いていない.特に事務系部署は毎年のように引越ししているで弱る.大学のHPで探そうとしたが,そもそも大学HPはひどく分かりにくく,探し当てようがない.
--- 面倒になったので,学内便で送った.
- 午後.お昼乾麺一個.
-- 12:50-14:20 演習.
-- 16:00 H氏来訪.バーチャルな空間で行う実験に必要な経費について,現実世界の研究費からの支出が可能かどうか?という面白いお話をうかがう.この後,T氏来訪.
-- Springerより依頼のメール.
- 定時帰宅,定時就寝

* 2008年 1月 9日(水) 曇 [#l6340eed]
- 06:40 起床.少し寝坊.
-- 交差点で信号を待つ小学生たちの前を,高校生やらが平気で信号無視していく.私の生まれ育った街では,そんなことはあり得なかった.地域差なのか,それとも今の時代,どこでもそうなのか.
-- 07:40 研究室着
- 午前
-- 8:35-10:10 演習.
-- 自分で考えよう,あるいは情報を探そうとする意志が希薄,というよりは完全に欠落した学生が多くなった.
-- 今日は午後はすべて授業でつぶれる.それまで『Rで学ぶクラスタ解析』を眺める.
//誤植発見.p.77下の行列計算はsqrt(2 &color(red){*}; (1 - X %*% t(X)))  .
//また,行列計算の結果について平方根をとるのが距離行列だが,正規化されている場合は
-- 冊子を発送.
- 午後
-- 12:50-16:05 講義.その後部屋で乾麺一個.
-- 16:10-18:00 大学院.
- 定時帰宅、定時就寝

* 2008年 1月 8日(火) 曇 [#od2b9962]
- 06:00 起床.
-- 07:30 研究室着
- 午前
-- Yule の論旨のチェックを済ます.次はWake.
-- 文献参照にjecon.bstを使っているのだが,YaTeXモードのデフォルトの文献引用ディレクティブは \citeである.これで構わないのだが,括弧内では\citealpとかを使う必要もある.引用のディレクティブをコマンド実行時に選択できるようにするべきか?そのためには,emacs.elにキーバインドを追加するのが一番なのだが,ちょっと面倒...
- 午後.お昼乾麺.
-- 14:30-16:05 演習.年明け最初の授業だが,恐ろしく体が重く感じた.実際に重くなってるんだろうが,頭は切り替えられても,体が切り替わらん.
-- Yahooのニュースに,どっかの歌手が難聴を告白したら励ましメールがたくさん来たとあった.私も医学的には「難聴」なんだが,日常生活にあまり支障がないので,「告白」しようがない.会議では,こっそり内職として本を読んでいるから,もともと話を聞こうとしていないし.せいぜいTVニュースがよく聞き取れず,やたらとボリュームを上げてしまい,家人から文句を言われるぐらい.
-- ただ日常生活以外では,耳が遠いと困ることもある.学会などでの発表や講演である.発表は,こっちが勝手に喋るだけだから良いけど,質問が毎回聞き取れないでトンチンカンなことを答えてしまう.
//--- 非常に意外なことなのだが,T製薬の統計解析部のF先生が,私はプレゼンがうまいと褒めてくださっているらしい.でも私は話す方も非常に苦手であり,そういう機会はできるなら避けたいと望んでいる。が,仕事柄,止む得ない.そもそもF先生はプレゼンの非常に上手な方で,各方面で評価が高いので,過去2回,いつもF先生の直後に壇上に立つ羽目になった自分としては,まったく冷汗三斗の思いである.
-- 『Rで学ぶクラスタ解析』を眺める.
- 定時帰宅、定時就寝。

* 2008年 1月 7日(月) 雨 [#rc44aa7a]
- 09:45 起床.昨日の深酒が効いているというより,まだ正月気分が抜けていない模様.が,さすがにこれだけ寝ると,少しは頭を切り替えようと言うつもりになる.
-- 11:00 研究室着
- 午前
-- いくつか細々したメールを送る.一つは広大.もう一つは都立大.書くのに時間がかかってしまった.
- 午後.お昼は食べないつもりだったのだが,ふらふらと工学部食堂に行ってみると,準備中であった.結局,部屋で乾麺一個.
-- 体がだるく,喉が痛くなってきた.困ったなぁ.
-- とりあえず『Rでクラスタ』を眺めてから,Yuleへ.
--- 文長を調べるため,テキストからサンプルを選ぶ際の問題について,Yuleは以下のように述べている.趣旨は分かるが,それより,何だかもって回った言い方だなぁ...
> The notion that samples ought to be random is so firmly engrained in one's mind that it seems almost sacrilegious to object to the application of the rule in a particular case. But after all the problem surely is &color(red){not}; whether a tract passing under the name Jones does or does not resemble, in this particular characteristics, a random sample  from writings of Brown, &color(red){but}; samples from Brown's writing dealing, so far as possible, with same sort of material in the same sort of way. The method of "selected samples" is, from this standpoint, entirely justified and perfectly correct. 
<
-- 冊子を発送
-定時帰宅、定時就寝

* 2008年 1月 6日(日) 晴 [#e1a51fcd]
- 07:00 起床
- お昼後,近所の「森」を散歩.園瀬川というのが流れているのだが,ここに白に赤い水玉の大きな緋鯉が泳いでいた...マガモのオス一羽に,メス2羽が寄り添っていたが,これはどういうことだろう.
-- 帰宅後,&color(blue){Fortran};をいじってみる.自分でプログラムを書くことはないだろうが,昔の統計関係の論文でアルゴリズムが掲載されている場合,たいていはFortran形式でコードが書かれているので,ちょっとは慣れておこうと思う.
--- Ubuntuのgfortranを使ったのだが,コードの冒頭から7文字以降に,実行コードを記すというルールは,このコンパイラでも守らないとエラーになる模様.変だな.gfortranはfortran95じゃなかったっけ?fortran 95はC言語風(というのも変だが)「自由書式」を許しているのでは?
--- 解決.自由書式で書いたコードは,拡張子を .f90 あるいは .f95 にしないといけないようである.拡張子が .fだとfortran77形式とコンパイラは判定する模様.しかし今やfortranに関する情報は,グーグッて見ても少ないなぁ,さすがに.サクッと情報を得られるのは,[[このサイト:http://ryuiki.agbi.tsukuba.ac.jp/~shigefuji/note/fortran.html]]など,数件しかない.
--- 戸川隼人『ザ・Fortran90/95』p.30より
 PROGRAM p30_f90
 IMPLICIT NONE
 
   REAL :: X,Y
   WRITE (*,*) 'X='
   READ (*,*) X
   Y=((2.0*X+5.0)*X+3.0)*X+1.0
   WRITE (*,*) 'Y=', Y
 
   STOP
 END PROGRAM p30_f90
 
 $ gfortran -o p30 p30.f90

- 17:00 頃より,グダグダ飲酒.
- 23:00 頃就寝

* 2008年 1月 5日(土) 晴 [#q91d00fb]
- 08:10 起床.4時前に一度目が覚めて,その後,うとうとしつつ寝入ったら,こんな時間になってしまった.
-- 09:30 研究室着
- 午前
-- Windows マシンを久しぶり起動して,ウィルスバスター2006を削除.EasyCleanerでレジストリ掃除して,ウィルスバスター2008をインストール.
-- 新納浩幸『Rで学ぶクラスタ解析』を読む.良い本だと思う.ところで,データは[[新納先生のサイト:http://nlp.dse.ibaraki.ac.jp/~shinnou/books.html]]にあると書いてあるけど,私は巻頭から読んでいないので,そのサイトのURL情報を見ていない.パラパラと本をめくったのだけど,見つからない.グーグればいいだけだけど.
--- 行列計算の説明が,理系の学生には必要以上に丁寧なようで,かえって混乱を招くのではないかと心配する.逆に文系の学生は,そもそも線形代数の知識がないから,いくら丁寧に説明しても分からないと思うので,困ってしまう.
- 午後.お昼は食べないつもりだったのだが,結局,乾麺一個.
-- 来週月曜から授業だが,振替があった.
--- 1月15日は火曜日,月曜日の振替日
--- 1月16日は水曜日,金曜日の振替日
-- 第90回行動計量シンポジウムは2008年3月15日(土)13:00〜17:00 岡山理科大学 創立40周年記念館(25号館) 4F 22544教室だった.
-- 再び Yule の論考を検討する.
- 定時帰宅。帰宅後、風呂に入りながら、藤井美和他『福祉・心理・看護のテキストマイニング入門』を読む。一昨日ぐらいから読んでいたが、読み通した。
-- テキストマイニングの応用的方向としてはもっとも可能性があるのだろうけど、私個人は、心理学や社会学で「客観的」とか「科学的」として持ち出される「尺度」というのが、どう転んでも主観的なものにしか思えない。さらには、その尺度から求めた「統計量」に主成分分析や対応分析を施した結果の「グラフィックス」から、きわめて主観的な解釈が「読み取られ」、さらにその主観的解釈をも飛躍というか超越した「提言」まで持ち出されるのが、心理学や社会学の常なので、辟易する。それでも文学や史学,政治学よりはましなのだが。。。
--- もっとも、どんな分野であれ数量的な記述は、「解釈」や「叙述」の「科学風味のスパイス」と割り切るほうが精神衛生には良いのかもしれない。そもそも「統計」は数値を使ったレトリックという考え方も成り立つわけだし。
-- 年末29日ごろからずっと飲みとおし、今日も結構飲んだ。
- 定時就寝

* 2008年 1月 4日(金) 晴 [#qacadcc7]
- 07:30 起床
-- 09:00 研究室着
- 午前
-- まずはメールの整理.
--- 昨日自宅でブラウザ使ってGmailにアクセスしたら,12月31日より後,つまりは新年に入ってから受信が行われていなかった.手動で受信操作をしても,200通を残して,それ以上は受信してくれなかった.年末年始はGoogleの方で制限していたのだろうか.今日,大学で受信してみると,すべて受信が行われていた.といってもGmail経由なので,ローカルマシンが受信したのは15通程度.残りの約400通は一度Gmailで受信され,すべてが迷惑メールとしてGmailのサーバー側で分類されてブロックされている.ブラウザで確認すると,さすがに元旦の迷惑メールが多いなぁ.
--- applstat.gr.jp メーリングリストとか言うところから,自動送信の備忘通知というのが着ているのだが,何だこれ?と思ったが,日本統計学会であった.
-- yahoo にアクセスしたら,リニューアルだか何だか知らないが,WindowsかMacでアクセスせよと文句を言われる.やだよ.
-- さてさて,本を手に取る.今年は統計学入門のような本を一冊書きたいと思っているので,竹村 彰通「統計 第2版」共立出版を手に取る.その後,RozziのStatistical Computing with R .後者はお正月にも少し眺めた.
-- 来年も授業が多いのだが,そのうち一つ,Rを使って統計学を学ぼうという授業で情報処理室の予約がかち合っていた.それをいいことに,これは来年休講にすると,年末連絡していたのだが,今日,担当の方より「自然科学系」の教養科目が足りないので,何とか開講してくれと頼まれてしまった.
--- 開講時間の変更などして調整する.
- 午後
-- 今年は昼ご飯を完全に抜こうと思っている.
-- 3月に講演があり,テーマとして「テキストマイニング」をご指定頂いているので,その準備に入る.さすがに去年と同じネタというわけにはいかない.
--- Konchady の Text Mining Application Programming を読み直す.
-- Monte Carloシミュレーションのこと調べていたら,[[こんなサイト:http://yosuke3105.hp.infoseek.co.jp/]]や[[こんなサイト:http://www.geocities.com/yosuke3105/seminar/]]を見つけた.ここにこんな言葉があって面白い.
>計量経済学やその周辺の学問体系は、マルクス経済学に由来する学び方の「輪読」や「レジメ」学習法からは何も得るものはないので注意してほしい。自分の手で実際に動かしてその仕組みを知る他はない。
<
--- 別の意味で,私も,授業と称して「輪読」や「本の内容についてのディスカッション」などを行っても,ただの時間つぶしで,何の意味も効果もないと考えている.
-- Yule の論考を追う.Udny Yule の英語は,何だか私には曖昧なところがあって,意図をフォローしにくいところがある.無論私の語学力が問題なのだが。
- 定時帰宅,定時就寝

* 2008年 1月 3日(木) 晴 [#iccdd48a]
- 08:10 起床
-- 午前は箱根大学駅伝復路を見る。今年は順天堂、大東文化、東海大と3校も棄権が出ている。気象コンディションは良さそうなのだけど。天気が良すぎたのかな.観戦しながら,四季膳処をちびちび.
--- 駅伝を見ている間、NHKでは歌舞伎「小町村芝居正月」を放送しているので、録画しておく。
歌舞伎ってのは,そりゃ,豪華絢爛で眺めるだけでも楽しいかもしれないけど,やっぱり筋を知っていないと面白くない.[[こんなサイト:http://www2.rosenet.ne.jp/~spa/kabuki/html/ess/ess.html]]がある.
-- 駅伝が終わってから、参拝。金毘羅神社と天神様。
--- おとといの神戸吉兆の質の悪いおせちの後味がまだ残っているのようでもあり、口を変えたいと思うあまり、マクドナルドなどに寄ってビックマックなどを仕入れて帰った。何年ぶりかでマクドナルドを食べた。腹はふくれたが、余計後味悪くなった。
- 22:00 今日はおかゆと納豆で夕ご飯を済ませ、寝る。

* 2008年 1月 2日(水) 晴 [#kaf0b7a9]
- 07:15 起床。
-- 二日酔い気味。今日は飲みたくないが、いい酒をもらっているので、少し飲む。四季膳処。
#ref(daigin.PNG,nowrap,nolink)
今日は人丸花壇のおせち。
#ref(hitomaru.PNG,center,nowrap,nolink)
まずくはないのだが、昨日の神戸吉兆のお節の吐き気のするような後味がまだ舌に残っているようで、二日酔いもあり、箸が進まない。ほどほどに箸をつけて止めてしまった。
--- 酒の方,四季膳処は私にはちょっと甘い。
-- 半日、箱根駅伝をつらつら見て過ごす。
- 夜はNHK歌舞伎を見ながら、すき焼き。題目は“助六由縁江戸桜”團十郎,芝翫,梅玉,左團次,福助 ▽“沼津”藤十郎,我當,秀太郎 ▽“吉野山”藤十郎,三津五郎,橋之助
-- 「助六の股くぐり」は,通人が助六と兄の白酒売りの股をくぐる場面だが,いつも当時の流行りをパロディー化する.今回は,小島よしおの「そんなの関係ねえ!オッパピィー!」と花道でやったそうな.その時だけ,見逃してしまった.

- 22:00 就寝

* 2008 年1月1日 元旦(火) 晴 [#m2431e77]
- 07:00 起床。明けましておめでとうございます。
-- 朝一の食事まで,RozziのStatistical Computing with Rを眺める.
-- 朝、神戸吉兆の御節,酒は獺祭。吉兆のおせちはうまくない。いや、もっとはっきり言うと、ひどくまずい。
#ref(kityo.PNG,center,nowrap,nolink)
--- 信じられないほど,まずい。素材は悪い。味付けも手抜きとしか思えない。黒豆のゼリーよせ見たいな物体が入っているが,黒豆の味が台無しで,ゼリーにもちっとも合わない.煮アワビは,食感が悪い.からすみも何だか干からびていて,その上,ご丁寧に金粉をまぶしていやがる.野菜ときたら,こんなまずい にんじん や くわい を口にしたことがない.年末に倉庫に干からびて残っていた素材でも使ってるんじゃないのか?ここまできて,もう,鯛の三杯酢や甘鯛の焼き物など口にする意欲もなくなった.これで3万だそうなので,腹立つことこの上ないが,しかし仮に3千円だったとしても,不満だろう.不満で済むだけならマシで,実際に口にしてしまうと,不快になってくる。特に口中の気持ち悪さは我慢ならない.口を変えようと思って、はじかみを口にしたが,これまたショウガの風味がまったく抜けきっていて,得体のしれない物体である.もう話にならない.吉兆のお節はさっさとうっちゃって,代わりに,フツーの缶詰入りゆであずきを口に放り込み,コーヒーをやたらと飲んで少し落ち着く。
-- ただし獺祭はうまい。やたらとうまい.むろん、この酒と神戸吉兆とは何の関係もない。去年も飲んだのだが獺祭は本当に良い。炒った黒豆を肴にグビグビ飲む.
#ref(dassai.PNG,center,nowrap,nolink)
-- 午後はWiiなどして過ごす。
-- 夜はNHKのウィーン・フィル ニューイヤー・コンサート2008を聴きながら、かに鍋。
- 11:30 頃就寝