トップ
新規
一覧
単語検索
最終更新
ヘルプ
ログイン
アールメカブ
Perlでのutf-8による日本語処理
をテンプレートにして作成
開始行:
例えば日本語で次のようなスクリプトを用意しておくと
#!/usr/bin/perl
use utf8;
binmode(STDIN, ":utf8");
binmode(STDOUT, ":utf8");
use open ':utf8';
while(<>){
# /(\w)/;
/(\p{Han})/;
print "$1\n";
}
# test.txt
これは試行です.
これで ./utf.pl < test.txt とすると,ちゃんと「試」を補足...
あるいは,euc-jp で書いたテキストを読み込んで処理するには
#!/usr/bin/perl
use utf8;
binmode(STDIN, ":utf8");
binmode(STDOUT, ":utf8");
open(IN,"<:encoding(euc-jp)", $ARGV[0]);
while(<IN>){
@char = split//;
foreach (@char){
print;
print "\n";
}
}
以下が参考になる.
http://module.jp/blog/regex_unicode_prop.html
終了行:
例えば日本語で次のようなスクリプトを用意しておくと
#!/usr/bin/perl
use utf8;
binmode(STDIN, ":utf8");
binmode(STDOUT, ":utf8");
use open ':utf8';
while(<>){
# /(\w)/;
/(\p{Han})/;
print "$1\n";
}
# test.txt
これは試行です.
これで ./utf.pl < test.txt とすると,ちゃんと「試」を補足...
あるいは,euc-jp で書いたテキストを読み込んで処理するには
#!/usr/bin/perl
use utf8;
binmode(STDIN, ":utf8");
binmode(STDOUT, ":utf8");
open(IN,"<:encoding(euc-jp)", $ARGV[0]);
while(<IN>){
@char = split//;
foreach (@char){
print;
print "\n";
}
}
以下が参考になる.
http://module.jp/blog/regex_unicode_prop.html
ページ名: