Bulkfeeds: いままでは RSS channel の title などからしか検索できませんでしたが、新しく RSS の item からの全文検索(ベータ版)を実装して公開しました。かなり便利ですよ。
現状かなり重いので RSS/OPML の出力はサーバの負荷を考慮し、出力していません。もう少し待ってください。
クローリングを30分間隔でおこない、バッチでインデクス化しています。マシンスペックがショボいので追いついていないことがありますが、ご了承のほど。年明けにはマシンスペック増強予定です。(いまどきメモリ256Mはないよ) 検索エンジンは Namazu を使用しました。微妙にコマンドラインにラッパーかけて検索しています。うまく検索できないときは適当に単語の分割とかしてみてください。
RSS って主に utf-8 で記述されることが多いと思うんですが、namazu は utf-8 をうまく扱えなかったはず。何か工夫をされてますか? それとも、euc に強制変換してるとか?
Posted by: sonic on December 25, 2003 09:53 PMEUC な HTML に変換してからインデクシングしています。
RSS 用のフィルタをつくって mecab で UTF-8 をハンドルするのが美しいとおもいますが、現状は EUC です。