Perlでのutf-8による日本語処理のバックアップ(No.2)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
Perlでのutf-8による日本語処理へ行く。
- 1 (2007-10-29 (月) 13:48:36)
- 2 (2007-10-29 (月) 14:15:53)

例えば日本語で次のようなスクリプトを用意しておくと

#!/usr/bin/perl

use utf8;
binmode(STDIN, ":utf8");
binmode(STDOUT, ":utf8");
use open ':utf8';

while(<>){
#	/(\w)/;
	/(\p{Han})/;
	print "$1\n";
}
# test.txt
これは試行です．

これで ./utf.pl < test.txt とすると，ちゃんと「試」を補足する．

あるいは，euc-jp で書いたテキストを読み込んで処理するには

#!/usr/bin/perl

use utf8;
binmode(STDIN, ":utf8");
binmode(STDOUT, ":utf8");
open(IN,"<:encoding(euc-jp)", $ARGV[0]);

while(<IN>){
	@char = split//;
	foreach (@char){
		print;
		print "\n";
	}
}

以下が参考になる．

http://module.jp/blog/regex_unicode_prop.html

_ 1. もくじ

1. もくじ

* 1. もくじ

アールメカブ

Perlでのutf-8による日本語処理 のバックアップ(No.2)

_ 1. もくじ

Perlでのutf-8による日本語処理のバックアップ(No.2)