ファイル処理手順 のバックアップ(No.2) - アールメカブ

アールメカブ


ファイル処理手順 のバックアップ(No.2)


日録

_ 下処理されたファイルは以下のように扱う

まず引用符で囲まれた明らかに会話文を思われる文は次のように変更する. すなわち <KAIWA> </KAIWA>ではさむ.<KAIWA>の後ろと</KAIWA>の前に半角スペースを挿入のこと.

"this is a pen." said he. ならば次のようにする
<KAIWA> This is a pen. </KAIWA> said he.

長い会話文は一行のままにしておく.

"This is a pen. 
That is a dog. 
it is a book" said he. 

というような箇所があったら,次のようにする.

<KAIWA> This is a pen. That is a dog. it is a book </KAIWA> said he.

文中で映画や本のタイトルなどで,強調表示のために引用符があるものは,引用符の前後にスペースをはさんでおく. 

I have read "The Space". ならば次のようにする
I have read " The Space ".

章や副題を表す文は<TITLE></TITLE>で囲む 

Chapter III
Episode 5
<TITLE>
Chapter III
Episode 5
</TITLE>

_ ファイル下処理の方法

まず

unzip hogehoge.zip

解答するとファイル名が変わる.例えば解答後のファイル名が unzipped.txtとすると,これをもとの zip ファイル名に近い名前に変える.Unix 系ならコマンドラインで

mv  unzipped.txt   hogehoge.txt 

ここで,ファイル hogehoge.txt を開いて,ヘッダとフッタを消して上書き保存.

hogehoge.txt はかなり適当に改行してあるので,一度,改行を取ってしまう.Emacs であれば

Esc-%         と入力しreplaceの候補として
C-q C-j        で一度 Enter,置換の対象を
SPACE         だけ入力してエンターキーを一度押す

これで,改行記号が半角スペースに変更される. その上で

./Sentence.pl hogehoge.txt

を実行. これで下処理が終わったファイル hogehoge.csv が作成される.