まず、各ウェブサイトを開くためのループを作成する必要があります。
ループを作成したら、ループのフレーム内で以下の手順を作成してください。
例URL:https://m.kuku.lu/
ステップ 1. データを抽出ステップを追加します。
ステップ 2. ページからソースコードを追加します。
ステップ 3. データを再フォーマットを選択し、正規表現によるマッチングを追加します。
日本の電話番号は「0X0-XXXX-XXXX」という形式になっています。最初の0は市外局番を表し、次の数字は市内局番、最後の4桁は加入者番号です。また、携帯電話の番号は「090-XXXX-XXXX」または「080-XXXX-XXXX」のようになっています。
ここで、正規表現を使ってHTMLから日本の電話番号を抽出する方法を説明します。例えば、下記のHTMLの中から電話番号を抽出したい場合:
<div> お問い合わせは下記の電話番号までお願いいたします。 <br> TEL: 03-1234-5678 <br> FAX: 03-1234-5679 </div>
正規表現を使って「03-1234-5678」と「03-1234-5679」を抽出するには、以下のようなパターンを使います。
(0\d{1,4}-\d{1,4}-\d{4})
この正規表現は、先頭が「0」で始まり、1〜4桁の数字が続き、「-」があり、その後にまた1〜4桁の数字が続き、「-」があり、最後に4桁の数字が続くパターンにマッチします。
同様に、電子メールアドレスを抽出する場合は、以下のような正規表現を使用します。
([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})
ステップ 4. メールボックスにマッチさせることができる正規表現を入力します。
[\w\-\._]+@[\w\-\._]+\.[A-Za-z]+
保存すれば、理論上、全ページのメールボックスデータのがマッチングされます。