Bulkfeeds: パフォーマンス改善策
Bulkfeeds ですがパフォーマンスが明らかに落ちているので、以下の対策を施しています。処理は現在おこなっているところなので明日の朝ぐらいから反映されてくるとおもいます。
検索対象記事を1ヶ月以内に絞る
これはかなり悩みましたが、Blog 検索の特色上、基本的にはスピード命だろうと。1ヶ月以前の記事は google で工夫すれば検索できるはずなので、これははずすようにしました。テーブル上は残っているので Similarity Search とかは問題なく使えます。
Similarity Feed のキャッシュ更新を遅く
similarity feed は1回アクセスするとキューにいれてキャッシュを定期的にリビルドしてきましたが、現状でページ数が 50,000 近くになっていて、定期リビルドが1日じゃおわらなくなってきましたので、これも最新 3日間でアクセスがあったものだけを定期リビルド対象にするようにしました。もちろん古い記事でも再度アクセスされれば一応キャッシュキューには入ります。このアルゴリズムはイマイチ自信がないのでちゃんとできるかどうかは試してみないとわかりませんけど。
これ以外にも404エラーで消えているRSSのゴミ掃除とか、まだやることはあるのですがとりあえずこれで対策してみます。
クライアントの対策
いろいろチューニングしてみて、やはり検索自体は大して遅くないことがわかりました。もう古い記事のファイルは消しちゃったんですけど。。(再度作ろうと思えばつくれますが、ファイルシステム容量自体も結構やばかったんで、とりあえずこれでいきます)
直接的に重い原因とおもわれるのは、やはり Similarity Search による Apache の占有と、あとは無作法な RSS アグリゲータだろうということがわかりました。とくに Bloglines は同時に HTTP アクセスを 20個ぐらい投げてくれるので、ちょっとカンベンしてくれと。こちらは Inquiry から連絡して対応を待っています。
Posted by miyagawa at April 6, 2004 01:46 AM
| Permalink
| Comments (0)
| TrackBack(0)