Google Blog Search や Ask.jp の参入で盛り上がりを見せている Blog 検索ですが、Bulkfeeds も地道にバージョンアップしています。
スケールや速度で Google などに真っ向勝負するのはちょっと無理があるので、
* ノイズのすくない検索結果を
* リーズナブルな速度 (エントリの反映は更新から1時間以内、検索レスポンスは 3秒以下)
で提供する、あたりをリーズナブルな目標にしようかなとチューニングしています。フィードリーダーでキーワードを追いかけたり、ちょっといま流行しているキーワードを調べる(安達, のまネコ など)といった用途に特化しようかな、と。
ということでいま一番力をいれているのがいわゆる Fake Blog や、SPAM Blog, API によるアフィリエイト自動生成 Blog への対策です。かなり経験則重視ですが、ドメイン名・URL・本文・リンク数・文字キャラクタセットなどをベースにしたフィルタルールをつくって、極力こうした Blog をはじくように先ほどバージョンアップしました。いまのところかなりイイ感じで動いています。
実際には、このフィルタの副作用として、SPAM ではない Blog も SPAM 判定されてしまうこともあるかと思いますが、先にあげた目標を実現するにはこちらの方針のほうがよいと判断しました。
また、上記の目標の実現のため、より多くの Blog をクロールするようにアグリゲータも改良していますが、ストレージの限界もあるため、1週間以上古いエントリはインデクスしないように修正しています。なので検索結果の件数だけで比較されると困ってしまうのですが、直近3日以内などの条件で比較してもらうとかなり有意な数字が出るのではないかと思います。