Unicode Block で日本語を tokenize
Perl 5.8 からは Unicode の Block 正規表現が使えます。
Plucene の Tokenizer では token_re というメソッドを定義すれば tokenize できるようなので、Unicode の Block を使って書いてみると、こんな感じになります。
sub token_re {
qr/
\p{InCJKSymbolsAndPunctuation}+|
\p{InHiragana}+|
\p{InKatakana}+|
\p{InKatakanaPhoneticExtensions}+|
\p{InCJKUnifiedIdeographs}+|
\p{InHalfwidthAndFullwidthForms}+|
\w+
/x;
}
漢字とかカタカナとかの境界で区切るだけのプリミティブなパーサですが、まあとりあえず動きます、ということで。
詳細は
Perl5.8 の Unicode サポートなんぞ。
Posted by miyagawa at February 4, 2004 11:27 PM
| Permalink
| Comments (0)
| TrackBack(0)