ファイル処理手順 - RとLinuxと...

RとLinuxと...


ファイル処理手順

日録

_ 下処理されたファイルは以下のように扱う

まず引用符で囲まれた明らかに会話文を思われる文は次のように変更する. すなわち <KAIWA> </KAIWA>ではさむ.<KAIWA>の後ろと</KAIWA>の前に半角スペースを挿入のこと.

"this is a pen." said he. ならば次のようにする
<KAIWA> This is a pen. </KAIWA> said he.

長い会話文は一行のままにしておく.

"This is a pen. 
That is a dog. 
it is a book" said he. 

というような箇所があったら,次のようにする.

<KAIWA> This is a pen. That is a dog. it is a book </KAIWA> said he.

文中で映画や本のタイトルなどで,強調表示のために引用符があるものは,引用符の前後にスペースをはさんでおく. 

I have read "The Space". ならば次のようにする
I have read " The Space ".

章や副題を表す文は<TITLE></TITLE>で囲む 

Chapter III
Episode 5
<TITLE>
Chapter III
Episode 5
</TITLE>

_ ファイル下処理の方法

まず

cp rawTexts/hogehoge.zip uncheckde

にファイルを写し

unzip unchecked/hogehoge.zip

カレントディレクトリに解凍.zipとは異なるファイル名となるので注意.

開くと上に TITLE AUTHOR の欄がある.これは残す.またAUTHORの名前はチェックしておく.さらに末尾にピリオドを打っておき,これ以外のヘッド部分また目次は消す.

Title: Two months in the camp of Big Bear.
Author: Theresa Gowanlock and Theresa Delaney.

またフッタ部分は以下を残して消す.ピリオドを振っておく.

This file should be named unzipped.txt or cbgbr10.zip

unzipped.txt はかなり適当に改行してあるので,一度,改行を取ってしまう.Emacs であれば

Esc-%         と入力しreplaceの候補として
C-q C-j        で一度 Enter,置換の対象を
SPACE         だけ入力してエンターキーを一度押す

これで,改行記号が半角スペースに変更される.一度上書き保存し,その上で

./Sentence.pl hogehoge.txt

を実行. これで下処理が終わったファイル hogehoge.csv が作成される.

cp hogehoge.csv unchecked/authorname.txt

 

 
Link: 日録(2458d) 日録2008_1月(3673d)
Last-modified: 2008-02-12 (火) 09:54:52 (3662d)