質問:
類似性のない一連のWebサイトから電子メールアドレスを抽出できますか? Octoparseがサポートするワイルドカード文字のようなものはありますか?
回答:
異なるWebサイトから電子メールをスクレイピングすることは可能ですが、電子メールアドレスのXPathが異なる場合があるため、正確ではない場合があります。
次のように、そのメールアドレスへのハイパーリンクを含むメールテキストのみをスクレイピングできます。
以下のXPathでお試しても構わないです。
//a[contains(@href,'mailto')]