トップ
新規
一覧
単語検索
最終更新
ヘルプ
ログイン
アールメカブ
hidden_C_N-gram
をテンプレートにして作成
開始行:
[[Programming]]
[[ここ:http://kazmuzik.net/lj/56356.html]]より引用
libtextcat
昨日は、Nutch の LanguageIdentifier で ja (日本語)も判別...
今回は C言語で記述されたライブラリの libtextcat を紹介し...
$ wget http://software.wise-guys.nl/download/libtextcat-2...
$ tar zxvpf libtextcat-2.2.tar.gz
$ cd libtextcat-2.2
$ ./configure --prefix=/usr
$ make
# make install
これで、ライブラリとコマンドの createfp が /usr/lib, /usr...
$ cd langclass
$ cat /tmp/sample.es.iso88591.txt | ../src/testtextcat co...
TextCat 2.2 (out of place)
Result == [spanish]
That took 4 ms.
$ cat /tmp/sample.ja.sjis.txt | ../src/testtextcat conf.txt
Result == [japanese-shift_jis]
$ cat /tmp/sample.ja.eucjp.txt | ../src/testtextcat conf....
Result == [japanese-euc_jp]
$ cat /tmp/sample.ja.utf8.txt | ../src/testtextcat conf.txt
Result == [japanese-shift_jis]
$
スペイン語と、日本語の Shift-JIS, EUC-JP は正しく判別され...
$ iconv -f sjis -t utf8 ShortTexts/japanese-shift_jis.txt...
$ createfp < ShortTexts/japanese-utf8.txt > LM/japanese-u...
$ echo "LM/japanese-utf8.lm japanese-utf8" >> conf.txt
$ cat /tmp/sample.ja.utf8.txt | ../src/testtextcat conf.txt
TextCat 2.2 (out of place)
Result == [japanese-utf8]
That took 1 ms.
$
今度は、正しく、日本語 UTF-8 と判別されました。
終了行:
[[Programming]]
[[ここ:http://kazmuzik.net/lj/56356.html]]より引用
libtextcat
昨日は、Nutch の LanguageIdentifier で ja (日本語)も判別...
今回は C言語で記述されたライブラリの libtextcat を紹介し...
$ wget http://software.wise-guys.nl/download/libtextcat-2...
$ tar zxvpf libtextcat-2.2.tar.gz
$ cd libtextcat-2.2
$ ./configure --prefix=/usr
$ make
# make install
これで、ライブラリとコマンドの createfp が /usr/lib, /usr...
$ cd langclass
$ cat /tmp/sample.es.iso88591.txt | ../src/testtextcat co...
TextCat 2.2 (out of place)
Result == [spanish]
That took 4 ms.
$ cat /tmp/sample.ja.sjis.txt | ../src/testtextcat conf.txt
Result == [japanese-shift_jis]
$ cat /tmp/sample.ja.eucjp.txt | ../src/testtextcat conf....
Result == [japanese-euc_jp]
$ cat /tmp/sample.ja.utf8.txt | ../src/testtextcat conf.txt
Result == [japanese-shift_jis]
$
スペイン語と、日本語の Shift-JIS, EUC-JP は正しく判別され...
$ iconv -f sjis -t utf8 ShortTexts/japanese-shift_jis.txt...
$ createfp < ShortTexts/japanese-utf8.txt > LM/japanese-u...
$ echo "LM/japanese-utf8.lm japanese-utf8" >> conf.txt
$ cat /tmp/sample.ja.utf8.txt | ../src/testtextcat conf.txt
TextCat 2.2 (out of place)
Result == [japanese-utf8]
That took 1 ms.
$
今度は、正しく、日本語 UTF-8 と判別されました。
ページ名: