まず引用符で囲まれた明らかに会話文を思われる文は次のように変更する. すなわち <KAIWA> </KAIWA>ではさむ.<KAIWA>の後ろと</KAIWA>の前に半角スペースを挿入のこと.
"this is a pen." said he. ならば次のようにする <KAIWA> This is a pen. </KAIWA> said he.
長い会話文は一行のままにしておく.
"This is a pen. That is a dog. it is a book" said he.
というような箇所があったら,次のようにする.
<KAIWA> This is a pen. That is a dog. it is a book </KAIWA> said he.
文中で映画や本のタイトルなどで,強調表示のために引用符があるものは,引用符の前後にスペースをはさんでおく.
I have read "The Space". ならば次のようにする I have read " The Space ".
章や副題を表す文は<TITLE></TITLE>で囲む
Chapter III Episode 5
<TITLE> Chapter III Episode 5 </TITLE>
まず
unzip hogehoge.zip
解答するとファイル名が変わる.例えば解答後のファイル名が unzipped.txtとすると,これをもとの zip ファイル名に近い名前に変える.Unix 系ならコマンドラインで
mv unzipped.txt hogehoge.txt
ここで,ファイル hogehoge.txt を開いて,ヘッダとフッタを消して上書き保存.
hogehoge.txt はかなり適当に改行してあるので,一度,改行を取ってしまう.Emacs であれば
Esc-% と入力しreplaceの候補として C-q C-j で一度 Enter,置換の対象を SPACE だけ入力してエンターキーを一度押す
これで,改行記号が半角スペースに変更される. その上で
./Sentence.pl hogehoge.txt
を実行. これで下処理が終わったファイル hogehoge.csv が作成される.