February 04, 2004

Unicode Block で日本語を tokenize

Perl 5.8 からは Unicode の Block 正規表現が使えます。

Plucene の Tokenizer では token_re というメソッドを定義すれば tokenize できるようなので、Unicode の Block を使って書いてみると、こんな感じになります。

sub token_re {
    qr/
    \p{InCJKSymbolsAndPunctuation}+|
    \p{InHiragana}+|
    \p{InKatakana}+|
    \p{InKatakanaPhoneticExtensions}+|
    \p{InCJKUnifiedIdeographs}+|
    \p{InHalfwidthAndFullwidthForms}+|
    \w+
       /x;
}
漢字とかカタカナとかの境界で区切るだけのプリミティブなパーサですが、まあとりあえず動きます、ということで。

詳細は Perl5.8 の Unicode サポートなんぞ。

Posted by miyagawa at February 4, 2004 11:27 PM | Permalink | Comments (0) | TrackBack(0)
Comments
Trackbacks
TrackBack URL for this entry: http://blog.bulknews.net/mt3/mt-tb.cgi/771
Post a comment