US Presidential Speeches Tag Cloud が面白かったので日本の総理大臣版を3分ハッキング。コード自体は15分くらいでかけたんだけどデバッグやらデータの解析やらに時間がかかってトータルでは2時間くらいか。
Japanese Prime Minister Speeches Tag Cloud
首相官邸ホームページ からリンクをたどって HTMLをダウンロード、HTML::TreeBuilder で as_text して Text::MeCab に食わせ、名詞(代名詞などをのぞく)の頻度を YAML データとしてつっこみ、HTML::TagCloud でタグクラウド化しました。スライダーの JS などは元の US Presidential のほとんどパクリです。
IE だと行間がかなりつまってるのは HTML::TagCloud の生成する CSS の問題だとおもわれるので、解決策があれば教えてください。→ これ で解決しました。Thanks to mala
単語の全角半角で文字が違うようですが、
これは同一として見てもいいのではないでしょうか?
例)ASEAN ASEAN
米大統領演説タグクラウド ハック、楽しませていただきました。
首相本人以外の文言、括弧や句読点といったノイズをフィルタリングすれば、かなり面白い結果が出てきそうですね。色々と応用・発展できて面白そう..。
Posted by: ゆう on November 7, 2006 10:54 AM