日録2007_12月 のバックアップ(No.5) - アールメカブ

アールメカブ


日録2007_12月 のバックアップ(No.5)


過去の日録

新刊です.『最短経路の本』シュプリンガー・ジャパン

最短経路の本ーレナのふしぎな数学の旅

_ 2007年 12月1日 晴

  • 06:00 起床
    • 12月になってしまった...
  • 07:30 研究室着 (整頓)
  • 午前
    • 昨日の業務日誌で触れた生態学会とは別に,やはりRの講習会が,さる学会でも実施される模様.まだまだユーザーが増えていくのは確実だと思われるので,来週の統数研での報告が終わったら,改めてRの仕事に手をつけるかな.
    • T 氏来訪.雑談
    • お昼.乾麺.
  • 午後
    • 統数研での発表に関連して tm パッケージを再度チェック.tmパッケージには Reuters-21578 のサブセットが含まれているが,そのサイズをチェック.tmパッケージを作成したFeinererは,Reuters21578のサブセット,約1,700の文書を対象にカーネルストリングを計算している.その実行にRを使っているわけだが,その計算時間が2時間だったそうな.
    • スライド完成.46枚.これで約40分何とかなるかな?
    • 冷蔵庫に残っていたヨーグルト食べた.賞味期限が11月13日であった...発酵食品だから問題ないと自分に言い聞かせる.
    • スライド微調整.一部のタームの字体を変えたり,文字色を黄色くしたり,赤くしたり.ついつい色をつけすぎて,何だかゴタゴタしたスライドになってしまうのが落ちなのだが...
    • prosper で作成したTeXソースをスライド部分と,そのコメント部分に分けるperlスクリプトと,処理を一括するbashスクリプトを作っておいた.
    • 何気なくこういうPukiwikiページを見ていたら, CRF(conditional random field) による日本語解析についてのわかりやすいプレゼン資料(ppt)を発見した.CRFについては,9月の行動計量学会の際に,ゲノム科学研究所の樋口さんに教えてもらっていた.
    • またConditional Random Fieldsを用いた日本語形態素解析(解析)と言う論考もある.以下はそのレジュメの引用である.

      本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.

  • これをRで実現するには,どうするかなぁ.
  • うーーん,勉強しなければならないことが山ほどあるのに,自由に使える時間はわずかしかない.