日録2008_3月
R から日本語形態素解析ソフトである MeCab ( めかぶ ) をバックグランドで操作するためのインターフェイス RMeCab ダウンロードのページ
_ 2008年 3月31日(月)
- 06:00 起床
- 07:20 研究室着..
- 午前
- RMeCab の調整
- 午後.麺
- 本を読みかけたが,結局, RMeCabの調整
- 東京から電話
- 定時帰宅,定時就寝したのだが,RMeCabが気になって寝られず,0時に布団から抜け出し,2時前までソースコードを書いた.
_ 2008年 3月30日(日)
- 06:00 起床
- 読売新聞の書評にP. グリッツマン/R. ブランデンベルク 著『最短経路の本---レナのふしぎな数学の旅』シュプリンガー社,2007.12が紹介されていた
- 定時就寝 4
_ 2008年 3月29日(土)
- 06:00 起床
- 07:30 研究室着
- 午前
- K 先生からRMeCabの docMatrix()関数に不具合があるとのご連絡を受けた.さっそく修正.
- 午後.麺
- RMeCab の処理が遅いので,C++のコードを見直したら,デバッグ用の余計な処理を消し忘れていた.
- 定時より遅れて帰宅,定時より遅れて就寝 3
_ 2008年 3月28日(金)
- 06:00 起床
- 07:30 研究室着..
- 午前
- RMeCab のマニュアル(英文)をちゃっちゃと作成した.
- 午後.麺
- ここらでRMeCab以外のことも再開しようと思う.
- と思っていたら,通じたのか,近所の S 氏来訪.色々ご相談方々,話し込む.
- 定時帰宅,定時就寝 3
_ 2008年 3月27日(木)
- 06:00 起床
- 07:30 研究室着
- 午前
- Rで日本語文書ターム行列を作成する関数を実装.日本の場合,stopword ではなく,品詞で除外対象を設定すべきか.
抽出する品詞としてRソース内にデフォルトで”名詞","形容詞","動詞"と定義すると,R CMD check で,「不正なマルチバイト文字があります」と怒られてエラーになってしまう.うーーん.Linux上では問題無いのだがbuild はでき,インストールも可能なのだが,RMeCab?をロードする時点でまた「不正なマルチバイト文字があります」と,エラーになってしまう.うーーん,回避方法あるのかな?
- 上の記載間違い.単に,RソースをWindows上での文字コード Shift Jisに変換しないまま build しようとしていただけであった.
- しかし data フォルダに日本語が入っていると build 時にエラーを言ってくるのは変わりない.
- 続いて,文書行列の重み付け関数の作成に入る.
- しかし欧米のRパッケージ開発者の方々のコードを見ていて思うに,それほど厳密には,エラーチェックをしていないのね.
- 午後.ヨーグルト
- 一応,RMeCab にごく基本的な機能は加えたと思う.ので,この先は同業者の意見を仰いでいきたいなぁ.
- 英文マニュアル整備せにゃならん...
- 一応,RMeCab にごく基本的な機能は加えたと思う.ので,この先は同業者の意見を仰いでいきたいなぁ.
- 定時帰宅,定時就寝 3
_ 2008年 3月26日(水)
- 06:10 起床
- 裁判所中庭の桜が満開になっていた.
- 07:40 研究室着
- 充電
- 午前
- RMeCabだが,人柱の皆様のご協力のおかげで,実装の方向性は見えてきた.
- 何だか,このところネットワークの調子が悪いなぁ.
- 午後.麺
- テキスト作成用の資料をチェック
- ターム文書行列を作成する関数を自作することにする
- 定時帰宅.咳が止まらず,体調悪し.
_ 2008年 3月25日(火)
- 06:10 起床
- 07:40 研究室着
- 午前
- 実装方法のアイデアをえるべく,Writing R Extensions を再読.
- R_Cソースでデータフレームを生成して返す方法
- RMeCab で頻度情報をデータフレームとして返す関数の実装完了.
- 午後.乾麺,ヨーグルト
- RMeCab?.cpp で fopen を使っているのだが,実行時に落ちる.Rでのデバッグ環境が整備されていないので色々試行錯誤すると,ファイルが存在しない場合の処理が十分でなかった.で,ファイルのエラー処理を修正したつもりなのだが,今度はファイルが開かない.ファイルがないというエラーがでる.うーーーん,と2時間近くあれこれやったが原因がつかめん.と,操作しようとしていたファイルを確認したら,ファイル名を半角英字で作成したつもりが,一字だけ,なぜか全角英字になっていた...
- とりあえずRMeCab ヴァージョン0.32 として保存しておく.
- 定時帰宅したのだが,咳が止まらず,夜中寝付かれなかった.
_ 2008年 3月24日(月)
- 06:10 起床
- 07:40 研究室着
- 午前
- 統数研から書類が送られてきた.
- RMeCab の作業の続き
- 午後 麺
- 引数にテキストファイルを指定すると,Cの側で頻度表を作成し,結果を返すプログラムを作る.難しくはないのだが,Rに返すオブジェクトの形式は何が適当なのだろうか.
- 独自にクラスを作成して,各形態素とその頻度情報をクラスのメンバとして返すのが良いのかな?
- 引数にテキストファイルを指定すると,Cの側で頻度表を作成し,結果を返すプログラムを作る.難しくはないのだが,Rに返すオブジェクトの形式は何が適当なのだろうか.
- 定時帰宅,定時就寝
_ 2008年 3月23日(日)
- 06:30 起床
- ごんごうで定時より遅れて就寝
_ 2008年 3月22日(土)
- 06:00 起床
- 07:20 研究室着
- 午前
- RMeCabダウンロード用のページを作成した.
- 午後.麺
- 風邪がだいぶひどいらしく,咳が止まらず,胸が圧迫されるような気がする.
- 定時帰宅したものの、だいぶ遅く就寝 4
_ 2008年 3月21日(金)
- 06:00 起床
- 07:20 研究室着
- 午前
- RMeCabのWindows用パッケージにめどが付いたので,機能の追加を検討する.とりあえず,知己の人たちに使ってみてもらおう.
- 09:00-12:20 会議二つ
- 午後.麺
- RMeCab の調整.製作に成功しつつも,色々疑問点があったのだが,これを少しずつ解消していった.
- fptex とMicrosoft Help compiler を入れて,R CMD build --binary を実行すると,なるほど,ちゃんとした(当たり前だが)パッケージを作ってくれた.
- Macintosh 版作成のため,まず和布蕪のインストールを試みたらsudo make install で install-sh への Permission エラーが出る.要するに実行権限がないだけなのだが,何で?ともかく,chmod 700 install-sh を実行後,sudo make install でインストール.続けて,辞書をインストール. 手順はLinuxもMacも一緒.以前和布蕪他インストールにまとめた.
- 定時帰宅,定時就寝
_ 2008年 3月20日(木)
- 06:00 起床
- 07:20 研究室着
- 午前
- どうも,Windows用のRパッケージを,Windows上で作成するのがうまくいかない.ダイナミックライブラリは作成できるのだが,R CMD check が通らないのだ.そこでLinux上でクロスコンパイルすることに切り替えた.だが,コンパイルに成功したり,しなかったりと,ムラが出てしまう.
- 午後.麺
- ようやく,Windows環境でWindows用Rバイナリパッケージの作成に成功した.要するに R.lib の作成コマンドが悪かったらしい.多分,忘れるだろうと思うので,詳細をまとめておいた.疲れた.
- 定時帰宅,定時就寝 3
_ 2008年 3月19日(水)
- 06:00 起床
- 07:20 研究室着
- 午前
- Rと和布蕪を連携させる自作RMeCabパッケージのWindows用バイナリzipの作成を続ける.ダイナミックライブラリファイルのコンパイルに成功したので,後は気楽.
- 一応パッケージ作成はできるのだが,日本語UTF-8のファイルを含んでいると,ASCIIファイルだけにしろと,警告が出まくる.
- 午後.麺.ヨーグルト
- ひたすらコンパイル
- 定時帰宅,定時就寝
_ 2008年 3月18日(火)
- 06:00 起床
- 07:20 研究室着
- 午前
- 朝一でRMeCaB?ウィンドウズ版のコンパイル
- うーん,リンカがR_NamesSymbol? が undefined reference だと怒ってくるなぁ.
- Rinternals.hの LibExtern? をとれば、コンパイルはできるが、
//LibExtern SEXP R_NamesSymbol; /* "names" */ SEXP R_NamesSymbol; /* "names" */
今度は実行時のエラーになる。/* Rtools27 On Windows > gcc -I../include -Wall -O2 -c RMeCab.c -o RMeCab.o > ar cr RMeCab.a *.o > g++ --shared -s -o RMeCab.dll RMeCab.def RMeCab.a -Lc:\workhome -llibmecab -lR あるいは RCMD SHLIB RMeCab.c -llibmecab */ setwd("c:/workhome") dyn.load("RMeCab.dll") `RMeCab` <- function(str, mypref = 0, myint = 512){ .Call("RMecab", as.character(str), as.integer(mypref), as.integer(myint)) }
- 朝一でRMeCaB?ウィンドウズ版のコンパイル
- 午後.麺.
- 定時就寝,定時帰宅
_ 2008年 3月17日(月)
- 07:00 起床
- 09:00 研究室着
- 午前
- 朝一で書類作成
- 充電
- 午後
- R と和布蕪 ( めかぶ ) をつなぐ パッケージのWindows版を作成する準備に入る.春休み中にある程度完成させて,その後,知り合いの方々に使ってみて頂こうかと思う.
- 先月作ったRtoMecab?パッケージは,テキスト名を引数として渡されると,そのテキストを頭から最後まで一気に解析する関数しか用意していなかった.しかし例えばアンケートの集計で,エクセルのシート上の列に,自由記述の解答が登録されているような場合もあるだろう.
- そこでセルに書き込まれている文字列を直接渡して,和布蕪の解析結果を得られる関数を追加した.もとは行動計量シンポジウムの発表用に作成していた関数である.TextMining2.pdf ついでにパッケージ名をRMeCab?と改めた.
- Windowsマシンにここに紹介されている環境を設定しようかと思う. ここなども参考にしなければならない.結構大変そう.Linux上でクロスコンパイルと言う手もあるようだ.しかし,今回はWindows上に和布蕪がインストールされているか,されているとして,そのフォルダはどこかをチェックする必要もあるので,Visual Studio でコンパイルしてみようかと思う./R-2.6.1/src/gnuwin32のMakefile.packagesを丁寧に読もうか.ここも参考になりそう.
- R と和布蕪 ( めかぶ ) をつなぐ パッケージのWindows版を作成する準備に入る.春休み中にある程度完成させて,その後,知り合いの方々に使ってみて頂こうかと思う.
- 定時帰宅,定時就寝
- TEiotqUEtaSj? -- udtiajmbmr? 2008-03-21 (金) 15:03:03
- oVkVHETqL -- wigznmzfx? 2008-03-23 (日) 11:28:52
_ 2008年 3月16日(日)
- 06:00 起床
- 07:00 二階の和食屋にて朝食.雑穀がゆがおいしかった.
- 帰りの列車は夕方なので,岡山城と後楽園に足を伸ばした.ただ,これまでにも何度も来たことはあるので,別に観光するわけでもなく,ただぶらぶら歩くだけ.園内に鳩がたくさんいるのだが,その中に,頭が真っ黒で,目や口まわりの赤や頬の緑色がやたらと鮮やかな鳩がいた.携帯で写真を撮ってみる.画像では小さすぎて分からないか.
- グランビア19階のレストランで洋食.
- 16:00 岡山を出て19:00 前に自宅についた.
- 岡山で買い込んだ惣菜類を肴に晩酌.干しエビのおこわがとてもおいしかった.
- やや遅れて就寝
_ 2008年 3月15日(土)
- 06:00 起床
- 09:00 岡山に向けて出発
- 11:30 高松を経由して岡山着
- 12:45 岡山理科大着
- 会場にて久しぶりにお会いする方おおし,13:05 より講演開始.なぜか,入り口があけはなされており,寒くてしょうがない.皆さん,寒くないのだろうか.
- 15:00 ああ,こりゃ風邪ひくなと考えているうちに,順番が回ってきた.頭がボーとしつつ,40分,早口でしゃべくった.お二方から,貴重なご意見を賜った.
- 17:50 分のバスにて岡山駅に出て,いったん,ホテルグランビアに寄る.その後,駅近くの居酒屋にて懇親会.10時前に散会して,ホテルに戻る.
- 部屋にルームサービスを取って,ビール2缶さらに飲んで就寝
- 午前
- スライド調整.これで準備はいいだろう.
- 午後.麺.
- できたスライドをここにさらしておく.
- 最近,Googleの迷惑メールフィルタの判定が厳しくなったような気がする.
_ 2008年 3月14日(金 )
- 06:00 起床
- 07:30 研究室着
- 午前
- スライド調整.これで準備はいいだろう.
- 午後.麺.
- できたスライドをここにさらしておく.
- 最近,Googleの迷惑メールフィルタの判定が厳しくなったような気がする.
- 定時就寝,定時帰宅
_ 2008年 3月13日(木)
- 06:00 起床
- 07:30 研究室着..
- 午前
- 一応,ここでの発表スライドを仕上げた.
- 午後.麺
- まずいな,風邪でもひいたのか,喉が痛くなってきた.
- 定時帰宅,定時就寝
_ 2008年 3月12日(水)
- 06:00 起床
- 07:30 研究室着..
- 午前
- 依頼されて,対応分析の簡単なスクリプト corresp.Rを用意した.
- 午後.麺
- Rでベクトルの要素を別の集合の要素と比較するなど書いてみた.
- K先生からBaayenのlanguageRパッケージにミスがあるのではないかというご報告を頂いた.
- 本を送付
- 定時帰宅,定時就寝
_ 2008年 3月11日(火) 晴
- 06:00 起床
- 07:30 研究室着
- 午前
- 日本語アンケート解析
- 10:15-11:30 情報系企業であるF 社の支店長らの話を聞く.
- 午後.お菓子でごまかす.
- 本を発送.
- S氏T氏らと方言データの解析などの話で盛り上がる
- 定時帰宅,定時就寝
_ 2008年 3月10日(月) 晴
- 06:00 起床
- 07:30 研究室着..
- 午前
- 一日,日本語アンケート解析
- 途中,花粉症の薬をもらいにいく
- 午後.麺
- ひたすら分析
- 定時帰宅,定時就寝
_ 2008年 3月9日(10) 晴
- 07:00 起床
- 充電
- 家のパソコンのUbuntuで,Rで作成した日本語を含む eps を dvipsにかけるとエラーがおこる.学校のと同じ環境のはずなんだけど,変だなぁ.
- 定時就寝 4
_ 2008年 3月8日(土) 晴
- 06:00 起床
- 07:30 研究室着(整頓)
- 午前
- テキストマイニング分析の補足を継続
- 午後.乾麺,おやつにヨーグルト
- スライドのまとめ
- S氏用にepsファイルをbmpに変換する
- R で2種類のグラフィックスを作成するとする.片方にはカテゴリA,B,C,D があり,片方にはA,C,E があるとする.ここで両方に共通するカテゴリには同じ色を指定したい.もっとも簡単な方法は?もちろん,手作業でアドホックに処理するのはなしで.
- 前にやったことあるんだけどな.忘れた.も一回やってみるか.
- 定時帰宅,定時就寝 5
- スライドのまとめ
_ 2008年 3月7日(金) 晴
- 06:00 起床
- 07:30 研究室着
- 午前
- 朝一でMSDN関連の事務手続き.なぜ私がMicroSoft?との契約を斡旋せねばならんのか...
- 更新は生協を通せる模様.
- S社より電話
- 一通りスライド作成完了.ただ,「締め」ができていないけど.
- 朝一でMSDN関連の事務手続き.なぜ私がMicroSoft?との契約を斡旋せねばならんのか...
- 午後.お菓子とヨーグルトで.
- GLM関連の資料をあたる
- S氏,S氏,T氏来訪
- アンケートのとり方は重要。いただいた資料のアンケートは、ランダムサンプリングとは言いがたいので、その辺,難しいなぁ。
- 定時帰宅、定時就寝 5
_ 2008年 3月6日(木) 晴
- 06:00 起床
- 07:30 研究室着
- 午前
- 朝一で学務関係の資料を作成
- 午後.麺
- その後,ぶっ続けでスライド作り.大体仕上がった.
- CMS に 500GBのHD追加.
- ほぼ定時帰宅,定時就寝
_ 2008年 3月5日(水) 晴
- 06:00 起床
- 07:30 研究室着
- 午前
- スライド作り
- 午後.Y君とお弁当
- 今,気がついた.propser で,つまりpsで日本語が通らなくなっている.おかしいな,今の環境で昨年末の統数研でのスライドは作成したはずなのだが.とりあえず
/usr/share/fonts/truetype/ipamona$ ls ipag-mona.ttf ipagp-mona.ttf ipagui-mona.ttf ipam-mona.ttf ipamp-mona.ttf
を使うよう設定を始める. - 14:30-16:00 会議
- 退院したS氏が来訪.
- 今,気がついた.propser で,つまりpsで日本語が通らなくなっている.おかしいな,今の環境で昨年末の統数研でのスライドは作成したはずなのだが.とりあえず
- 定時帰宅,定時就寝
_ 2008年 3月4日(火) 晴
- 06:00 起床
- 07:30 研究室着
- 午前
- M氏から依頼された仕事を院生のY 君に回す.
- 岡山のスライド作り
- 午後.お菓子とヨーグルトでごまかす.
- 発表に関連して,忘れかけていたことをまとめる.tmパッケージ では日本語はそもそも処理できない が,lsa パッケージなら回避策?がある.
- Data Manipulation with R Phil Spector と言うのを見つけて,生協に発注
- 15:30-17:00 会議(将来構想)
- S氏は明日退院だそうで,まずはめでたい.
- 定時帰宅,定時就寝
_ 2008年 3月3日(月) 曇
- 06:00 起床
- 07:30 研究室着..
- 午前
- 10:00-11:30 将来構想WG会議
- 午後.麺
- 午後からS氏のお見舞いに行く予定.差し入れに「数学ガール」仕入れる.生協の本屋で買ったのだが,ニット帽とマスクでレジに立ったら,組合員証を見せろといわれてしまった.
- 岡山のスライド作りに入る.
- 15:30-17:30 S氏のお見舞い.喉の手術のため,喉仏のあたりに大きなガーゼが張ってあり,その背後には穴が開いているとのこと.
話せるのかと聞くと,喋れるし,食べることもできるということだが,話している最中にも,その喉の穴からシューシュー息が漏れる.本人は,「ダースベーダ状態です」と言っていたが,痛々しい.喉の穴は,自然にふさがるのを待つということらしい.
- お見舞いに『数学ガール』を持っていった.病室で気楽に読める本じゃないかな?
- 外に出ると,天気予報どおり,黄砂がひどい.K氏の車で病院まで行ったのだが駐車場に戻ってみると,車にだいぶ砂がかかっていた.
- 帰宅後,S社より電話.
- 定時帰宅,定時就寝
_ 2008年 3月2日(日) 晴
- 07:00 起床
- 午後.家の襖の修理で半日潰れてしまった.
- やや遅く就寝 5
_ 2008年 3月1日(土) 晴
- 06:00 起床
- 07:30 研究室着..
- 午前
- アルバイト書類の整理
- 午後.麺
- テキストマイニング続行.いったん,まとめよう.
- 頂いた日本語表現についてのアンケートだが,自由記述ではなく,インタビューの書き起こしなら,もっとおもしろい成果が得られるのではないかと思う.もっとも手間暇かかるが.
- テキストマイニング続行.いったん,まとめよう.
- 衛星の映画など見て,日が変わる直前に就寝 5
添付ファイル: hato.jpg 1563件
[詳細]
corresp.R 1796件
[詳細]
Link: RMeCab(669d)
R_Baayen(1278d)
R_Tips0(2519d)
和布蕪他インストール(4904d)
過去の日録(4964d)
hidden_R_Cソースでデータフレームを生成(5012d)
Rでベクトルの要素を別の集合の要素と比較する(5374d)
hidden_R_Packages(5432d)
software(5941d)
R_tmパッケージの使い方(6005d)
R_lsaで日本語(6095d)
管理者(6095d)
Tex_cidfmap(6109d)
Last-modified: 2008-04-01 (火) 16:18:42 (6089d)