December 23, 2003

Bulkfeeds: 全文検索ベータ版を公開

Bulkfeeds: いままでは RSS channel の title などからしか検索できませんでしたが、新しく RSS の item からの全文検索(ベータ版)を実装して公開しました。かなり便利ですよ。

現状かなり重いので RSS/OPML の出力はサーバの負荷を考慮し、出力していません。もう少し待ってください。

クローリングを30分間隔でおこない、バッチでインデクス化しています。マシンスペックがショボいので追いついていないことがありますが、ご了承のほど。年明けにはマシンスペック増強予定です。(いまどきメモリ256Mはないよ) 検索エンジンは Namazu を使用しました。微妙にコマンドラインにラッパーかけて検索しています。うまく検索できないときは適当に単語の分割とかしてみてください。

Posted by miyagawa at December 23, 2003 04:46 AM | Permalink | Comments (2) | TrackBack(1)
Comments

RSS って主に utf-8 で記述されることが多いと思うんですが、namazu は utf-8 をうまく扱えなかったはず。何か工夫をされてますか? それとも、euc に強制変換してるとか?

Posted by: sonic on December 25, 2003 09:53 PM

EUC な HTML に変換してからインデクシングしています。
RSS 用のフィルタをつくって mecab で UTF-8 をハンドルするのが美しいとおもいますが、現状は EUC です。

Posted by: miyagawa on December 25, 2003 09:58 PM
Trackbacks
TrackBack URL for this entry: http://blog.bulknews.net/mt3/mt-tb.cgi/643
memo
Excerpt: 夢が広がります。今後の展開に注目です。
Weblog: たつをの ChangeLog
Tracked: December 23, 2003 08:37 PM
Post a comment