トップ
新規
一覧
単語検索
最終更新
ヘルプ
ログイン
アールメカブ
Java_Concordancer
をテンプレートにして作成
開始行:
#contents
*Java による Corpus 言語学 プログラミング [#v192f2d0]
Oliver Mason Programming for Corpus Linguistics : how...
を用いた演習用です。
なお Mason のJava コードを C++ におきかえ、GUI 化し...
全て Java で作成しています。またコマンドラインから実行...
また実行結果はデフォルトではディスプレイに表示されます。...
ダウンロードリンク先のファイルはすべてjavaクラスファイル...
- 基礎プログラム1 SortedWFList
テキストを単語ごとに改行したデータを作成した後の段階で使...
- 基礎プログラム2 ConcordanceReader, および RingConcorc...
第一引数に与えられた node word を中心に, 前後のコンテキス...
(注意:テスト用に次のような短いファイルを与えると, スペー...
this is a cat.
that is an apple.
It is a dog.
motohiro.
実行結果
[ishida@amd corpus]$ java ConcordanceReader is < test.txt
this is a cat. that is an apple. It is a dog
this is a cat. that is an apple. It is a dog. motohiro.
this is a cat. that is an apple. It is a dog. motohiro.
- その1 FileTokeniser (Mason p.139)
小説や新聞などのテキストファイルから単語リストを作成しま...
文中のコンマ、文末のピリオドなどの記号は適時取り除きます。
実行方法:コマンドラインから, 引数をふたつ指定します.
(Pathの設定を済ませている場合)
c:\java FileTokeniser <path\テキストファイル名> <出力先フ...
- その2 WordLister (Mason p.143)
小説や新聞などのテキストファイルからアルファベット順単語...
c:\java WordLister <path\テキストリストファイル名> > <出...
- その3 FreqListCreator (Mason p.145)
小説や新聞などのテキストファイルから出現頻度情報つき単語...
文中のコンマ、文末のピリオドなどの記号は適時取り除きます...
c:\java FreqListCreator <path\テキストリストファイル名>
- その4 FreqList (Mason p.145)
その3で作成した 出現頻度情報つき単語リストから, 単語とそ...
c:\java FreqList <path\頻度情報ファイル名(***.frq)>
- その5 XMLTokeniser
小説や新聞などのテキストファイルから単語リストを作成しま...
その際、単語にタグ < > を付与します。
文中のコンマ、文末のピリオドなどの記号は適時取り除きます...
c:\java xml.XMLTokeniser <path\テキストリストファイル名>
- その5 Tagger
小説や新聞などのテキストファイルを読み込み、単語ごとに切...
その際、その単語の品詞情報をTagとして付記する。
また動詞、形容詞、名詞が活用している場合は原型に変換する。
c:\java Tagger <path\テキストリストファイル名>
- その6 Stemmer
指定された単語の原型を割り出します。(形態素分解ルール付き)
c:\java stemmer.Stemmer <patt\形態素ルールファイル> highest
c:\
highest > high
- その7 Collocator
ある node Word について, その前後に位置する単語と, それ...
ただし _ アンダーラインが語中にあってはいけない.
[ishida@amd collocate]$ java FreqListCreator verwandlung....
[ishida@amd collocate]$ java IndexCreator verwandlung.txt...
[ishida@amd collocate]$ java IndexConcordancer verwandlun...
27 lines found for 'zur'
[ishida@amd collocate]$ java Collocator 4 4 1 zur.cnc ver...
sich T: -0.9095751336459887 Z: -0.7153883887361375MI: -0....
die T: -0.5373849721893587 Z: -0.4900663542111958MI: -0.3...
終了行:
#contents
*Java による Corpus 言語学 プログラミング [#v192f2d0]
Oliver Mason Programming for Corpus Linguistics : how...
を用いた演習用です。
なお Mason のJava コードを C++ におきかえ、GUI 化し...
全て Java で作成しています。またコマンドラインから実行...
また実行結果はデフォルトではディスプレイに表示されます。...
ダウンロードリンク先のファイルはすべてjavaクラスファイル...
- 基礎プログラム1 SortedWFList
テキストを単語ごとに改行したデータを作成した後の段階で使...
- 基礎プログラム2 ConcordanceReader, および RingConcorc...
第一引数に与えられた node word を中心に, 前後のコンテキス...
(注意:テスト用に次のような短いファイルを与えると, スペー...
this is a cat.
that is an apple.
It is a dog.
motohiro.
実行結果
[ishida@amd corpus]$ java ConcordanceReader is < test.txt
this is a cat. that is an apple. It is a dog
this is a cat. that is an apple. It is a dog. motohiro.
this is a cat. that is an apple. It is a dog. motohiro.
- その1 FileTokeniser (Mason p.139)
小説や新聞などのテキストファイルから単語リストを作成しま...
文中のコンマ、文末のピリオドなどの記号は適時取り除きます。
実行方法:コマンドラインから, 引数をふたつ指定します.
(Pathの設定を済ませている場合)
c:\java FileTokeniser <path\テキストファイル名> <出力先フ...
- その2 WordLister (Mason p.143)
小説や新聞などのテキストファイルからアルファベット順単語...
c:\java WordLister <path\テキストリストファイル名> > <出...
- その3 FreqListCreator (Mason p.145)
小説や新聞などのテキストファイルから出現頻度情報つき単語...
文中のコンマ、文末のピリオドなどの記号は適時取り除きます...
c:\java FreqListCreator <path\テキストリストファイル名>
- その4 FreqList (Mason p.145)
その3で作成した 出現頻度情報つき単語リストから, 単語とそ...
c:\java FreqList <path\頻度情報ファイル名(***.frq)>
- その5 XMLTokeniser
小説や新聞などのテキストファイルから単語リストを作成しま...
その際、単語にタグ < > を付与します。
文中のコンマ、文末のピリオドなどの記号は適時取り除きます...
c:\java xml.XMLTokeniser <path\テキストリストファイル名>
- その5 Tagger
小説や新聞などのテキストファイルを読み込み、単語ごとに切...
その際、その単語の品詞情報をTagとして付記する。
また動詞、形容詞、名詞が活用している場合は原型に変換する。
c:\java Tagger <path\テキストリストファイル名>
- その6 Stemmer
指定された単語の原型を割り出します。(形態素分解ルール付き)
c:\java stemmer.Stemmer <patt\形態素ルールファイル> highest
c:\
highest > high
- その7 Collocator
ある node Word について, その前後に位置する単語と, それ...
ただし _ アンダーラインが語中にあってはいけない.
[ishida@amd collocate]$ java FreqListCreator verwandlung....
[ishida@amd collocate]$ java IndexCreator verwandlung.txt...
[ishida@amd collocate]$ java IndexConcordancer verwandlun...
27 lines found for 'zur'
[ishida@amd collocate]$ java Collocator 4 4 1 zur.cnc ver...
sich T: -0.9095751336459887 Z: -0.7153883887361375MI: -0....
die T: -0.5373849721893587 Z: -0.4900663542111958MI: -0.3...
ページ名: