メールアドレスの抽出はやっぱり正規表現でしょでしょ

bonlifeです。Python関連の日記を流し読みして id:hataichi:20071226:1198747891 を見たところ、結構違和感があったのでメモ。
この方のやりたいことを理解しているかちょっと自信がないのですが、メールファイルの"From: "を含む行を抜き出して、"<"と">"の間にある文字列を抽出している様子。でも、これじゃあ水漏れしちゃう予感。Wikipediaのメールアドレスの"電子メールでのメールアドレスの使用"を見てもらえば分かると思いますが、"<"と">"にはさまれない正しいメールアドレスもあるわけでして。スパムメールアドレス検出が目的っぽいのですが、このままだと

From: spam@example.com

みたいな裸体がいつまで経ってもblacklistに入ってくれない罠。
というわけで、やっぱり正規表現でメールアドレスを切り出すのが正攻法っぽい。けど、メールアドレスの正規表現は奥が深過ぎて泥沼…。RFC 2822通りの正しさを追求するのも大変だし、追求したとしても誤ったアドレスが実際にあるので云々。正規表現厳しくし過ぎてスパムメールアドレスをスルーしちゃってもアレですしね。

ASPN : Python Cookbook : extract email addresses from files

コメントにて問題点が指摘されてたりするので、そのあたりも注意しつつ、少し改良して使ってみると良いかも。