日録2008年_4月 - RとLinuxと...

RとLinuxと...


日録2008年_4月

過去の日録

テキストマイニングのためのツール: R から日本語形態素解析ソフトである MeCab (和布蕪) をバックグランドで操作するためのインターフェイス RMeCab ダウンロードのページ

_ 2008年 4月 30日 (水)

  • 06:00 起床
  • 07:30 研究室着
  • 午前
    • Moodle バックアップ設定
    • メモリが来たが,うっかりしていた両スロットルを埋めにゃならん...
    • 喉とその周辺が痛いので,エスエスの駆風解毒湯エキス顆粒Aという薬を飲んでいる.うがいしながら少しずつ飲めという,あまり気持ちよくない薬で,かつ非常にまずい.飲んだ直後は気持ち悪くなる位である.しかし,よく効くようである.
    • R のパッケージにhelloJavaWorld という,冗談みたいなパッケージがあるので,みてみたら,要するに jar を動かすデモであった.前に実行したことあるな.
  • 午後.麺
    • 原稿書き.だいぶ中身が充実してきた.
    • RMeCab? Windows版インストール用のバッチファイルを作成した
  • 定時帰宅,定時就寝

_ 2008年 4月 29日 (火)

  • 06:30 起床
    • 相変わらず喉痛し.
  • 08:00 研究室着,
  • 午前
    • N-Gram テスト用のデータを青空文庫からDL.
  • 午後.麺
    • 潜在的意味インデキシングの結果を rgl パッケージで三次元表示しようと思ったら,動作しない.変だなと思ったら,ここに情報があった.指示にしたがって,[システム][設定][外観の設定][視覚効果][効果なし]と設定する.
  • 定時帰宅,定時就寝

_ 2008年 4月 28日 (月)

  • 06:10 起床
    • 相変わらず喉痛し.
  • 07:40 研究室着,
  • 午前
    • 本の原稿書き
  • 午後.麺
    • 本の原稿書き
    • 久しぶり RMeCab をアップデートした.Ngram行列の作成を可能とした.
    • Windows 版のR-2.7.0を試してみた.Rconsole上では
      x <- c("桜", "餅")
      はとおるが,REditorの方で同じコードを書いて,右クリック,実行を選ぶと,RConsole側ではエラーが出るようなのだが...
      • 完全に範囲指定すれば,エラーなく実行できる.でも,前は,カーソル位置であれば充分だったような気がするんだが.
  • 体調不良ゆえ,定時より早めに帰宅し,早めに就寝

_ 2008年 4月 27日 (日)

  • 06:00 起床
  • 自転車などが来たので,そのセッティング
  • 定時よりやや遅れて就寝....
    • 何だか本格的に喉が痛くなってきた.鼻水も出るし,寒気はするし,頭は痛いし,正統な?風邪の症状だなぁ.

_ 2008年 4月 26日 (土)

  • 06:10 起床
  • 07:40 研究室着,
  • 午前
    • DELL SC1430 の調整を行った."Alert! Cover war previously removed" という警告が出て,F1 を押さないと起動シークエンスが始まらないのを修正した.
  • 午後.麺,ヨーグルト
    • 原稿書き
  • 定時帰宅,定時就寝...

_ 2008年 4月 25日 (金)

  • 05:30 起床
  • 07:00 研究室着,
  • 午前
    • 電話のセット
    • 咳が止まらんので病院に行く.何やら検査していたが,花粉症の鼻炎の影響で喉に炎症が出来ているそうな.「後鼻漏」とか言うらしい.大量に薬をくれた.
  • 午後.工学部栄養定食420トンカツ?キャベツ,冷や奴,みそ汁,ご飯.
    • 14:35-18:00 演習
  • 定時帰宅,定時就寝...

_ 2008年 4月 24日 (木)

  • 06:10 起床
  • 07:30 研究室着
  • 午前
    • 08:35-11:50 演習
  • 午後.麺,工学部で栄養420,えーと,親子丼?+冷や奴+メンチカツ+キャベツ千切り+みそ汁+ご飯
    • 原稿書き
    • R の biplot 関数なのだが,この出力の x 軸,y 軸それぞれの数値は何を意味しているのか,今更ながら,そんなことを疑問に思った.
x <- princomp(USArrests)
biplot(x)

とすると,Hawaiiが右下,上側 X 軸が 400 のあたり,右側 Y 軸が -500 あたりにプロットされているのだが,

> x$scores[rownames(x$scores) == "Hawaii"]
[1] 123.536106 -24.291208   3.724443   3.472849

と関係ない数値なんだが.loadings の方もグラフのメモリと一致していないんだが,なんか勘違いしているのか?

> caith.ca <- corresp(caith, nf = 4)
> biplot ( caith.ca)
> caith.ca

これも黒髪のスコアはblack 2.45 1.651 で,グラフ上にはちゃんとプロットされているのだが,グラフの目盛のどこを見ても 2 を越える範囲はない.

  • それで,冷静に考えて
> getS3method("biplot", "default")
> getS3method("biplot", "princomp")

の中身を検討した.見てみて,何だ,そうかと.

> t(t(USA$scores[, 1:2])/  (USA$sdev[1:2] * sqrt(USA$n.obs))  )
> t(t(USA$loadings[, 1:2]) *  (USA$sdev[1:2] * sqrt(USA$n.obs))  )

によって生成される得点による各州の座標は,下の X 軸,左の Y 軸と一致している.

  • 定時帰宅,定時就寝

_ 2008年 4月 23日 (水)

  • 06:10 起床
  • 07:30 研究室着
  • 午前
    • 連休明けには本を書き上げよう
    • 再びデータを入れ替え
  • 午後.麺
    • 12:50-16:05 講義
    • ひたすら原稿書き
  • 定時帰宅,定時就寝..,

_ 2008年 4月 22日 (火)

  • 05:40 起床
  • 07:00 研究室着
  • 午前
    • 原稿書きだが,データを修正
  • 午後.麺
    • 14:35-16:05 演習
    • その後,原稿書き
  • 定時帰宅,定時就寝

_ 2008年 4月 21日 (月)

  • 06:10 起床
  • 07:40 研究室着
  • 午前
    • バリバリと原稿書き.
  • 午後.麺
    • 13:30 学生の就職先の企業の方との応対.
  • 定時帰宅,定時就寝,

_ 2008年 4月 20日 (日)

  • 06:40 起床
  • 一日自宅で,.
  • 定時就寝,...

_ 2008年 4月 19日 (土)

  • 06:00 起床
  • 07:30 研究室着,.
  • 午前
    • 『テキストマイニング』の原稿を進める.
  • 午後.麺
    • 充電
    • 原稿を進める.
    • McNemar? test について調べていたら,なかなか参考になるサイトがあった.さらに調べていたら,青木先生のサイトで,Stuartのテストという耳慣れない方法が言及されていた.調べると,岩原の『ノンパラメトリック法』p.65に言及があった.Rでは concordパッケージに,stuart.maxwell.mh()という長ったらしい名前の関数が実装されている. その他,青木先生によれば,coin ライブラリに mh_test() という関数が実装されているそう.
    • 16:00-17:00 S氏来訪.
  • 定時帰宅,定時就寝

_ 2008年 4月 18日 (金)

  • 05:40 起床
  • 07:10 研究室着,
  • 午前
    • 学内公募予算の書類を書く
  • 午後.来客と弁当
    • 科研の書類書き直す.提示された額の30%を,大学当局がピンハネしていることを反映させなければならない.ちなみに,この30%は,補助金の申請すらしたことないような教員にも分配されるとか...
    • 14:35 - 16:05 演習
  • 定時帰宅,定時就寝....

_ 2008年 4月 17日 (木)

  • 06:00 起床
  • 07:20 研究室着
  • 午前
    • 朝一で演習.
    • 図書2冊を送付
  • 午後.お弁当
    • Moodle の調整
    • 16:00-18:00 S氏,S氏来訪.
  • 定時帰宅,定時就寝..

_ 2008年 4月 16日 (水)

  • 06:00 起床
  • 07:20 研究室着
  • 午前
    • 今日はフルに授業がある
    • 合間をぬって原稿書き
  • 午後.麺
    • 12:50-16:05 講義.この後,また麺をかっこんでしまった.
  • 定時帰宅,定時就寝

_ 2008年 4月 15日 (火)

  • 06:00 起床
  • 07:20 研究室着
  • 午前
    • 結局,科研の交付申請書書きでつぶれてしまった.
  • 午後.お菓子
    • 14:35- 16:05 演習
    • 図書を送付するため郵便局へ
  • 定時帰宅,定時就寝

_ 2008年 4月 14日 (月)

  • 06:00 起床
  • 07:20 研究室着,
  • 午前
    • 『テキストマイニング』の原稿を進める.
  • 午後.工学部で焼きたて定食.420.何かと思ったら,作りおきでなく,その場で豚の生姜焼きを作るということであった.時間がかかるだけである.この時期,混雑していて学生もうるさいし,近辺の食堂を開拓しなければいかんな.
    • 引き続き『テキストマイニング』の原稿を書き進める.
    • 同僚のHさんに依頼されて,数年前にFedora Core上に構築したBNCWebを調整した.ここに自分が行った手順をまとめていたのだが,すっかり忘れてしまっている.ここも参考にした. BNCwebのユーザー追加は,/home/BNCweb/bncpass にユーザ名と
      $ perl -e 'print crypt("password", "AB")'
      で表示される暗号化パスワードを追加する.ここで第二引数のABは暗号化のタネである.
  • 定時帰宅,定時就寝,

_ 2008年 4月 13日 (日)

  • 06:00 起床
  • やや遅れて就寝.....

_ 2008年 4月 12日 (土)

  • 06:00 起床
    • よそ見をして運転している自転車がいて,危ないなぁと思っていたら,こっちにぶつかって来た.転倒などしていないが,こっちの自転車の前輪がひん曲がってしまった.ついてない.
  • 07:20 研究室着,
  • 午前
    • 代替自転車を買うべく,近所の自転車屋に見に行ったが,どうも常連がやたら出入りしていて入りづらい.適当に話を聞いて出た.別の店に行くのも面倒だし,ネットで買うか...
  • 午後.麺
    • 昨日か一昨日から郵便ボックスに,事務から送られてきた妙な透明ケースの封筒が入っているなぁと思いつつ,また書類仕事かと放置していた.今日,何気なく取り出して,開けてみたら科研が当たったという連絡であった.そういう書類なら喜んで書きます.
  • 定時帰宅,かなり遅く就寝....

_ 2008年 4月 11日 (金)

  • 06:00 起床
  • 07:20 研究室着,
  • 午前
    • 「テキストマイニング」の原稿を書き始める.
  • 午後.来客とお弁当
    • 14:35-18:30 演習
  • 定時帰宅,シャンパンなど飲みながら定時より大幅遅れて就寝...

_ 2008年 4月 10日 (木) 雨

  • 06:00 起床
  • 07:20 研究室着
    • 08:35 - 11:30 朝一で演習。Moodleから携帯に送るメールは文字化けすることが判明。 対策として、こんなページ1ページ2を見つけた.インストールした Moodle 1.8 では奥村さんのここに設定説明がある.moodlelib.php はいじらず,[管理]欄の[サーバー],[Eメール]で文字セットをISO-2022-JPに変更.
    • ついでに Cron設定忘れていた
    • 11:30 S病院に花粉症の薬をもらいにいく.
  • 午後.工学部でスペシャル.400.
    • 学会三つ分(日本統計学会\8000,行動計量学会\8000,計量国語学会\4000)まとめて払う.窓口で支払うと手数料が一件につき120円かかるのね.
  • 定時帰宅,定時就寝.またロゼシャンパン.

_ 2008年 4月 9日 (水) 晴

  • 06:00 起床
  • 07:20 研究室着
  • 午前
    • 朝一で Moodle に学生アカウントを登録
    • 08:35-09:10 大学院授業の説明.今年は日本語処理
  • 午後。麺
    • 12:50 - 16:05 講義二こま。
  • 提示帰宅、ロゼシャンパンで就寝
jacobs.PNG

_ 2008年 4月 8日 (火) 晴

  • 06:00 起床
  • 07:20 研究室着
  • 午前
    • 授業の準備. 設置した Moodle をいじってみる.
  • 午後.パンとヨーグルト
    • 授業の準備
  • 定時帰宅,定時就寝,

_ 2008年 4月 7日 (月) 雨

  • 06:00 起床
  • 07:20 研究室着
  • 午前.RMeCabのコロケーション関数に T-scoreやMI-score,G^2を出力する関数を試作して,追加.
  • 午後.麺
    • 16:30-17:30 会議(将来構想)
    • 帰宅しようとしたら,自転車のチェーンカバーが壊れて,チェーンが絡まった.修理に手間取った.
  • 定時より遅れて帰宅,定時就寝.

_ 2008年 4月 6日 (日) 晴

  • 06:00 起床
  • お昼過ぎ,自転車で散歩した.
  • 充電
  • 定時就寝...

_ 2008年 4月 5日 (土) 晴

  • 06:00 起床
    • 自転車に空気入れたら,入れすぎたらしく,空気入れ金属部内部の黒いゴムパッキンが外れて,空気が一気に吹き出してしまった.パッキンを取り付け直して,再び空気を入れる.
    • 07:20 研究室着
  • 午前.
    • 気がつくとRMeCabをいじくり回してしまう.現在ヴァージョン 0.44
  • 午後.麺
    • 正面の先生から,学生のアカウントのパスワードを外してくれと...
    • 花見のため,15時半頃帰宅
    • 近所のB公園を小一時間ほど散歩.
    • 自転車のチューブはパッキンがもろくなっていた.これを交換.
    • 寿司と獺祭で乾杯
  • やや過ごして就寝
dassai.PNG

_ 2008年 4月 4日 (金) 晴

  • 06:00 起床
    • 07:20 研究室着..
  • 午前.
    • RMeCabにコロケーション計算の関数を追加.
  • 午後.ヨーグルト
    • RMeCabの操作中,存在しないファイルを開こうとした時,C++ソース側で fopen ==NULL でチェックしているのだけど,Rが落ちてしまう.仕方ないので R 側で file.exists() でチェックする.
  • 定時帰宅,定時就寝.sakura ワインとカルバドス.

_ 2008年 4月 3日 (木) 晴

  • 06:00 起床
    • 07:20 研究室着
  • 午前.
    • 一日,RMeCab
    • CMS の件で学生がくる.
  • 午後.学生と弁当
    • RMeCabにN-gram計算のための関数を追加.
  • 定時帰宅,sakura とかいうワインを飲む.他に日本酒で定時就寝.3
sakura.PNG

_ 2008年 4月 2日 (水) 晴

  • 06:00 起床
    • 07:20 研究室着..
  • 午前.RMeCab に N-gram を作成する機能を加える予定だが,R のメモリのことを考えると,かなり効率的な処理が必用である.そこで C言語で実装したプログラムがないかぐーぐって見ると,あまりヒットしないが,ただ中国語テキストを対象にしたこんなものを見つけた.
  • 定時帰宅,定時就寝.sakura とかいうワインを飲む.

_ 2008年 4月 1日 (火) 晴

  • 06:00 起床
    • 07:20 研究室着
  • 午前
  • 午後.ヨーグルト
    • ひたすら RMeCab の調整.最大のバグの調整は付いた.
  • 定時帰宅,定時就寝 4.
 
添付ファイル: filejacobs.PNG 363件 [詳細] filesakura.PNG 361件 [詳細]
 
Link: RMeCab(10d) 過去の日録(2220d)
Last-modified: 2008-05-02 (金) 08:41:46 (3314d)