March 21, 2004

RSS の言語

Bulkfeeds に英語圏のRSSが大量登録されていたみたいで、手動で削除対応しました。まー別に登録するなってことはないんですが、一応日本のフィードを検索するというのがサイトの主目的でしたので。

というわけで、RSS フィードが日本語かどうかを自動的に判定する方法を考えてみる。

まず、Spec に厳密な方法での判定としては、以下。

1. RSS 2.0 では channel に language 要素があるのでこれで判定
2. RSS 1.0 では Dublin Core を使って dc:language
3. Atom Feed では、xml:lang="ja"

ホスティングサービスのプロバイダさんは以上のどれかをつけてほしいですな。

んでもってそれにマッチしない場合の liberal な判定方法としては、

1. URL が hard-wired に登録済みである (はてなダイアリー、ココログ、livedoor blog といった既知のホスティングサービス)
2. $domain =~ /\.jp$/
3. channel や item のエレメントにマルチバイト文字を含む

この辺かなあ。これにしても 3. で中国語や韓国語がマッチしてしまうという問題はありますが。。なにかいいアイデアあればご意見ください。

Posted by miyagawa at March 21, 2004 02:15 AM | Permalink | Comments (4) | TrackBack(1)
Comments

「あ〜ん」とか「ア〜ン」といった、
ひらがなやカタカナを一文字も含まないような
RSSをはじいてしまうというのはどうでしょう。
日本語である以上、これらの文字がひとつも
ないってのはありえないような。

Posted by: watanabe on March 21, 2004 05:30 PM

>>watanabeさん
それは 3. ですよね。

Posted by: miyagawa on March 21, 2004 05:36 PM

あ、、、こりゃ失礼しました。(^^;;;

Posted by: watanabe on March 24, 2004 01:11 PM

って、いや違くって、(^^;
「マルチバイト文字」っていうくくりじゃなくて
さらに細かいくくりとして、片仮名や平仮名を
含んでいるか否かによってそれが日本語かどうかを
判別してもいいんじゃなかろうかってつもり
だったのです。

Posted by: watanabe on March 24, 2004 01:14 PM
Trackbacks
TrackBack URL for this entry: http://blog.bulknews.net/mt3/mt-tb.cgi/858
なぜか、ここ3日くらい
Excerpt: 空の RSS feeds が頻繁に流れてきます。何が起きてるのでしょうか?
Weblog: 観測気球
Tracked: March 23, 2004 04:52 AM
Post a comment