YAPC::NA で会った Fotango の Norman Nunley がつくってる Algorithm::RabinKarp モジュールが面白げです。
Rabin Karp 文字列探索アルゴリズム (wikipedia) を使って文字列のハッシュ(ダイジェスト)をチェックし、同一の値を示す部分を重複しているとみなしてレポートしてくれます。つまり、プロジェクト内のコードのコピーペーストを検出するツールとして使えるというわけ。
ためしに Plagger で試してみた結果は rabin.txt のようになりました。プラグインの register_hook や CustomFeed での Feed オブジェクトの生成など、イディオム的に使う部分が大半になってしまっていますが、いくつか実際コピペで再利用しているコードが検出できています。
cpan Algorithm::RabinKarp でインストールすると、rabin.pl というコマンドラインツールがインストールされるので、 rabin.pl \*.pm dir のように実行します。Enjoy!
CCFinderX というコード重複検出用のソフトがあります.
オープンソースでは無いですが,グラフィカルに見えるのが面白いです.
一度試されてみてはいかがでしょう.
(Perlコードもテキストとして解析させれば使えます)
http://www.ccfinder.net/ccfinderx-j.html
自分のコードを解析してみると結構重複が見つかったりして面白いです...