Blog Developer's Cookbook : genfeed - 汎用 RSS ジェネレータ

genfeed - 汎用 RSS ジェネレータ

サイトごとにカスタマイズされた正規表現を用意すれば、HTML を容易に RSS に変換することができます。ただ、サイトを1つ追加するごとに、スクリプトを作成するのは手間です。異なるのは正規表現のパターンだけですから、これを定義ファイル化して、汎用的に RSS を生成するツールを作ってみます。

クロールする URL

サイトの channel 定義(title や description)

マッチさせるパターン

ここで定義ファイルのサンプルは List 1 のような形とします。ここでは asahi.comを例としています。定義ファイルは RFC822 ライクなヘッダ形式で、

title	RSS channel の title
link	RSS channel の link
description	RSS channel の description
match	マッチした結果が item のどの要素にマッピングされるか

を定義し、空行をはさんでパターンを記述します。

サンプルコード

sub load_sites { my $dh = DirHandle->new($SiteDir) or die "$SiteDir: $!"; my @sites; for my $file (grep -f "$SiteDir/$_", $dh->read) { push @sites, load_site($SiteDir, $file); } return @sites; }

sub load_site { my($dir, $file) = @_; my $fh = FileHandle->new("$dir/$file") or die "$dir/$file: $!"; my %param; while (<$fh>) { chomp; last if /^$/; /^(\S+): (.*)$/ and $param{$1} = $2; } $param{match} = [ split / /, $param{match} ]; $param{pattern} = do { local $/; <$fh> }; $param{filename} = $file; return \%param; }

$site = { title => 'asahi.top', link => 'http://www.asahi.com/', description => 'Asahi.com', match => [ 'link', 'title' ], pattern => "<li>\n<a href="(.*?)">(.*?)</a>$\d\d:\d\d$</li>", };

sub crawl_site { my($ua, $site) = @_; my $cache = "$SiteDir/cache/$site->{filename}.html"; my $base = URI->new($site->{crawl} || $site->{link}); my $resp = $ua->mirror($base, $cache);

クロール先は、crawl というヘッダがあればそれを優先し、なければ link 要素を拾います。これは、サイトのトップページ(link)以外に、その日の記事一覧が取得できるページ(crawl)があるようなニュースサイトの場合、そのページから記事をマッチさせる方が効率が良いためです。

URI とキャッシュファイルを引数にして mirror メソッドを実行します。これはローカルのキャッシュファイルの mtime を利用して If-Modified-Since などを HTTP リクエストヘッダに付加するため、ネットワーク資源を有効活用することができます。

sub extract_charset { my($resp, $html) = @_; $resp->header('Content-Type') =~ /charset=([\w\-]*)/ and return $1; $html =~ /<meta .*?charset="([\w\-]*?)"/ and return $1; return guess_encoding($html); }

sub guess_encoding { require Encode::Guess; Encode::Guess->set_suspects(qw/Shift_JIS euc-jp/); my $data = shift; my $enc = Encode::Guess->guess($data); ref($enc) or die "Can't guess: $enc"; # idiom return $enc->name; }

my @whole_match = $html =~ /$site->{pattern}/g; my $match_num = @{$site->{match}}; while (my @match = splice(@whole_match, 0, $match_num)) { my %data; @data{@{$site->{match}}} = @match; $data{link} = URI->new_abs($data{link}, $base); $rss->add_item(%data); }

splice 関数を使用して、マッチ配列から順に要素をとりだし、ハッシュのスライスを用いて item 要素を構築します。またマッチした linkは相対パスとなっていることが多いため、URI->new_abs を利用して、クローリング元の URI からの相対リンクとして絶対 URI を構築します。

実行例

Listings

List 1: asahi.top

title: asahi.com
link: http://www.asahi.com/
description: Asahi.com
match: link title

<li>
<a href="(.*?)">(.*?)</a>\(\d\d:\d\d\)</li>

List 2: genfeed.pl

#!/usr/local/bin/perl -w
# genfeed - generic RSS feed generator

use strict;
use DirHandle;
use Encode;
use FileHandle;
use HTTP::Status;
use LWP::UserAgent;
use URI;
use XML::RSS;

our $VERSION = "0.01";
our $SiteDir = "sites";
our $OutDir  = "feeds";

mkdir "$SiteDir/cache", 0755 unless -e "$SiteDir/cache";
mkdir $OutDir, 0755          unless -e $OutDir;

my $ua = LWP::UserAgent->new();
   $ua->agent("genfeed/$VERSION");

my @sites = load_sites();
for my $site (@sites) {
    crawl_site($ua, $site);
}

sub load_sites {
    my $dh = DirHandle->new($SiteDir) or die "$SiteDir: $!";
    my @sites;
    for my $file (grep -f "$SiteDir/$_", $dh->read) {
        push @sites, load_site($SiteDir, $file);
    }
    return @sites;
}

sub load_site {
    my($dir, $file) = @_;
    my $fh = FileHandle->new("$dir/$file") or die "$dir/$file: $!";
    my %param;
    while (<$fh>) {
        chomp;
        last if /^$/;
        /^(\S+): (.*)$/ and $param{$1} = $2;
    }
    $param{match} = [ split / /, $param{match} ];
    $param{pattern} = do { local $/; <$fh> };
    $param{filename} = $file;
    return \%param;
}

sub crawl_site {
    my($ua, $site) = @_;
    my $cache = "$SiteDir/cache/$site->{filename}.html";
    my $base = URI->new($site->{crawl} || $site->{link});
    my $resp = $ua->mirror($base, $cache);

    $resp->code == RC_NOT_MODIFIED and return;
    $resp->is_success or do { warn "Error: ", $site->{title}; return };

    my $rss = XML::RSS->new(version => 0.91);
    $rss->channel(
        title => $site->{title},
        link  => $site->{link},
        description => $site->{description},
    );

    my $html = do { local $/; my $fh = FileHandle->new($cache); <$fh> };

    my $charset = extract_charset($resp, $html);
    $html = decode($charset, $html);

    my @whole_match = $html =~ /$site->{pattern}/g;
    my $match_num = @{$site->{match}};
    while (my @match = splice(@whole_match, 0, $match_num)) {
        my %data; @data{@{$site->{match}}} = @match;
        $data{link} = URI->new_abs($data{link}, $base);
        $rss->add_item(%data);
    }

    my $xml = "$OutDir/$site->{filename}.xml";
    open my $out, ">:utf8", $xml or die "$xml: $!";
    $out->print($rss->as_string());
}

sub extract_charset {
    my($resp, $html) = @_;
    $resp->header('Content-Type') =~ /charset=([\w\-]*)/ and return $1;
    $html =~ /<meta .*?charset="([\w\-]*?)"/ and return $1;
    return guess_encoding($html);
}

sub guess_encoding {
    require Encode::Guess;
    Encode::Guess->set_suspects(qw/Shift_JIS euc-jp/);
    my $data = shift;
    my $enc  = Encode::Guess->guess($data);
    ref($enc) or die "Can't guess: $enc"; # idiom
    return $enc->name;
}

List 3: cnet.japan

title: CNET Japan
link: http://japan.cnet.com/
crawl: http://japan.cnet.com/archive/headline.htm
description: CNET Japan
match: link title

<li><span class="j3"><a href="(.*?)">(.*?)</a></span>