Webからメールアドレス、電話番号を抽出できますか?
フォローする
まず、各ウェブサイトを開くためのループを作成する必要があります。
ループを作成したら、ループのフレーム内で以下の手順を作成してください。
例URL:https://m.kuku.lu/
1.データを抽出ステップを追加します。
2.ページからソースコードを追加します
3.データフォーマットを選択し、正規表現によるマッチングを追加します
日本の電話番号は「0X0-XXXX-XXXX」という形式になっています。最初の0は市外局番を表し、次の数字は市内局番、最後の4桁は加入者番号です。また、携帯電話の番号は「090-XXXX-XXXX」または「080-XXXX-XXXX」のようになっています。
ここで、正規表現を使ってHTMLから日本の電話番号を抽出する方法を説明します。例えば、下記のHTMLの中から電話番号を抽出したい場合:
<div>
お問い合わせは下記の電話番号までお願いいたします。
<br>
TEL: 03-1234-5678
<br>
FAX: 03-1234-5679
</div>
正規表現を使って「03-1234-5678」と「03-1234-5679」を抽出するには、以下のようなパターンを使います。
(0\d{1,4}-\d{1,4}-\d{4})
この正規表現は、先頭が「0」で始まり、1〜4桁の数字が続き、「-」があり、その後にまた1〜4桁の数字が続き、「-」があり、最後に4桁の数字が続くパターンにマッチします。
同様に、電子メールアドレスを抽出する場合は、以下のような正規表現を使用します。
([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})
4.メールボックスにマッチさせることができる正規表現を入力します
[\w\-\._]+@[\w\-\._]+\.[A-Za-z]+
保存すれば、理論上、全ページのメールボックスデータのがマッチングされます。