Webサイトからメールや電話番号を抽出することはできますか?
フォローするWebサイトからメールや電話番号を抽出することはできますか?
Octoparseを使用すると、同じ/類似のページ構造のWebページから簡単にメールと電話番号を抽出できます。メール/電話番号の抽出は、タスクを設定することで簡単に行うことができます。
どのような種類のメールまたは電話番号がOctoparseから抽出できますか?
Octoparseはデータを抽出すると、実際にソースコードから内容を解析して取り込みます。したがって、テキスト形式のメールまたは電話番号は正常に取得できます。
例えば「Krishnam Bio-tech」を抽出すると、Octoparseは実際に<span>ここのテキストを抽出する<span>という属性間のテキストを抽出します。
一部のWebサイトでは、クロール防止対策を使用して、イメージやその他のテキスト以外の形式でメールと電話番号を暗号化することがあります。(しかしそれはテキストフォーマットのように見える)。この場合、Octoparseは画像からそれらを抽出することも、テキスト形式にデコードすることもできません。
Octoparseはメールや電話番号をどのように抽出しますか?
対象メールや電話番号を取得するには、まず、その情報を直接クリックしてその場所を指定する必要があります。
例えばyellowpages.comからメールと電話番号を抽出するには、Webページ上の場所を選択して指定する必要があります。
(Yellowpage.comからセールスリストを取得するチュートリアルをご覧ください )
メールと電話番号をクリックし、「選択した要素のテキストを抽出する」を選択します。
データが正しく選択されると、選択が緑色で強調表示されます。
ページネーションなどの他の手法と組み合わせると、カテゴリまたはサイト全体でデータをスクレイピングすることができます。