該当URLループを追加する
フォローするURLリストでデータをスクレイピングする場合は、入力されたURLを他の情報とともにフィールドとして取得して、スクレイピングされたデータをURLリストと照合して、スクレイピングされていないURLがあるかどうかを確認できます。
ただし、開いた後のURLが変更される可能性があります。(例えば、一部のURLパラメータが変更される可能性があります。)または別のまったく異なるURLにリダイレクトされる可能性があります。 Octoparse 8.5に「該当URLループを追加する」という新機能により、このジレンマが完全に解決されます。その使い方は下記を見てみましょう。
「該当URLループを追加する」機能で取得できるURLは何ですか?
- 単一URL
1つのURLからデータを取得する場合は、「該当URLループを追加する」を使用すれば「Webページに開く]中のURLが取得されます。
- URLリスト
URLリストからデータを抽出する場合は、「該当URLループを追加する」を使用すれば、入力されたURLループが取得されます。
該当URLループを追加する方法
以下のリンクを例として取り上げます。
https://www.yachtall.com/en/fwd/go-to-builder?id=75&js=1
ブラウザで該当リンクを開くと、URLが別のURLにリダイレクトされていることがわかります。https://en.azimutyachts.com/
1. Octoparseに該当URLを入力して、抽出開始をクリックします。
2. 「データプレビュー」の右上の「フィールドを追加」ボタンをクリックして「該当URLループを追加する」を選択します。
3.入力されたURLがフィールドとして取得されます。
https://en.azimutyachts.com/ではなく、https://www.yachtall.com/en/fwd/go-to-builder?id=75&js=1 が取得されました。
ヒント! リダイレクト後のURLを取得することもできます。https://www.yachtall.com/en/fwd/go-to-builder?id=75&js=1 ではなく、https://en.azimutyachts.com/を取得したい場合は、「テキスト/URL/画像/HTML/属性値を抽出する方法」を確認してください。 |
もし何か不明な点等がございましたら、ぜひご遠慮なくお寄せください。