September 16, 2005

SPAM / Fake Blog のデータ(暫定)

Bulkfeeds: Fighting with SPAMs で書いたとおり Bulkfeeds 向けの SPAM / Fake Blog フィルタの開発とチューニングにいそしんでいますが、とりあえずの途中結果でおもしろいデータがとれたので、暫定公開しておきます。

http://bulkfeeds.net/tmp/spams/fakeblog.txt
http://bulkfeeds.net/tmp/spams/englishblogs.txt
http://bulkfeeds.net/tmp/spams/affiliates.txt
(しばらくしたら消去します。直リンクはご遠慮を)

Bulkfeeds に Ping を送ってきたり、Blog サービスからアグリゲートしている Blog のうち、フィルタにひっかかったものを URL + 1st ディレクトリで正規化しました。

先のエントリにも書いたとおりちょっときびしめのルールになっているので、Fake Blog じゃない Blog までひろってしまっている可能性は大いにありますが、その辺は追い追い対応していきます。見た感じはかなりいい感じになっているんじゃないかと。とりあえずデータをとってみただけですが、これをベースに DNSBL サービスとかをするのも面白いかもですね。

というのも、Google Blog Search をマジメにつかってみたら、Sort by Date した場合には SPAM / Fake Blog にやられて使いものになってなかったからなんですね。Technorati は相変わらず重いし。超個人的なバイアスかかった意見では、Ask.jp の Blog 検索Bulkfeeds が同じぐらいのカバレッジを出してると思います (Ask の方がインデクスの反映が速いが、RSS/Atom でトラックできない)。 Feedster や NAMAAN もいい感じですが、やはりスパム被害が見受けられますね。(詳細な比較はまた今度。繰り返しますがかなりバイアスかかってますので、FUD だ!とかいわないでください)

まあ競合が増えて使い勝手や精度がお互い向上していくのは間違いなくユーザメリットなので、今後も Bulkfeeds を末長くよろしく、ということでひとつ。今日はデザイン(レイアウト)をひさびさにいじってみました。余計なサイドバーがなくなって使いやすくなったとおもいます。

Posted by miyagawa at September 16, 2005 08:13 PM | Permalink | Comments (2) | TrackBack(0)
Comments

NAMAANですってba!

Posted by: Yappo on September 17, 2005 01:03 AM

スイマセン修正しました

Posted by: miyagawa on September 18, 2005 12:20 AM
Trackbacks
TrackBack URL for this entry: http://blog.bulknews.net/mt3/mt-tb.cgi/1815
Post a comment