February 08, 2005

nofollow のついてない A タグリンクを抜き出す

HTML::RelExtor: blog.bulknews.net
rel タグを持っていないリンクはとれないので、「nofollow のない A タグを抜き出す」という用途には使えません。HTML::LinkExtor を拡張してつくってみようかな。

モジュールにはしていませんが、HTML::TokeParser をつかったサンプル。需要がありそうなので公開。

sub followed_links {
    my $html = shift;
    my $p = HTML::TokeParser->new(\$html);

    my @links;
    while (my $token = $p->get_tag('a')) {
        my $attr = $token->[1];
        unless ($attr->{rel} && $attr->{rel} =~ /\bnofollow\b/) {
            push @links, $attr->{href};
        }
    }
    return @links;
}
Posted by miyagawa at February 8, 2005 04:41 PM | Permalink | Comments (0) | TrackBack(0)
Comments
Trackbacks
TrackBack URL for this entry: http://blog.bulknews.net/mt3/mt-tb.cgi/1534
Post a comment