November 06, 2006

日本の総理大臣の演説をタグクラウド化

US Presidential Speeches Tag Cloud が面白かったので日本の総理大臣版を3分ハッキング。コード自体は15分くらいでかけたんだけどデバッグやらデータの解析やらに時間がかかってトータルでは2時間くらいか。

Japanese Prime Minister Speeches Tag Cloud

首相官邸ホームページ からリンクをたどって HTMLをダウンロード、HTML::TreeBuilder で as_text して Text::MeCab に食わせ、名詞(代名詞などをのぞく)の頻度を YAML データとしてつっこみ、HTML::TagCloud でタグクラウド化しました。スライダーの JS などは元の US Presidential のほとんどパクリです。

IE だと行間がかなりつまってるのは HTML::TagCloud の生成する CSS の問題だとおもわれるので、解決策があれば教えてください。→ これ で解決しました。Thanks to mala

Posted by miyagawa at November 6, 2006 05:26 PM | Permalink | Comments (2) | TrackBack(0)
Comments

単語の全角半角で文字が違うようですが、
これは同一として見てもいいのではないでしょうか?
例)ASEAN ASEAN

Posted by: 通りすがり on November 7, 2006 04:37 AM

米大統領演説タグクラウド ハック、楽しませていただきました。

首相本人以外の文言、括弧や句読点といったノイズをフィルタリングすれば、かなり面白い結果が出てきそうですね。色々と応用・発展できて面白そう..。

Posted by: ゆう on November 7, 2006 10:54 AM
Trackbacks
TrackBack URL for this entry: http://blog.bulknews.net/mt3/mt-tb.cgi/2025
Post a comment