再試行
フォローする「再試行する」機能は、特定の条件に基づいてスクレイピングするWebページを再度読み込みます。
なぜ「再試行」を設定するのですか?
ページが正常に読み込まれない場合、ページからのデータ取得や次のアクションの実行においても問題があります。この場合、抽出を開始する前にページの読み込みを再試行する必要があります。
手順
- 「Webページを開く」もしくは「アイテムをクリック」をクリックし、再試行タブを選びます。
- 「再試行する場合」ボックスにチェックして、【条件を追加】をクリックすると、条件を設定できます。
Octoparseは特定の条件によって、ページが正常に読み込まれたかどうかを確認します。失敗したら再試行します。
- 「URL /コンテンツ/要素(XPath)」オプションと「次を含む/次を含まない」オプションを設定する
通常、読み込みが失敗したら、ページのURL /コンテンツに 「/ errors」、「500 Internal Server Error」、または「Too many requests」のようなメッセージが出てきます。テキストボックスにそのような特定の文字列を条件として入力し、「次を含む」を選択して、Octoparseは現在ページにその文字列を検出すると、読み込みを再試行します。
また、ページが正常に読み込まれたときにのみ存在する特定要素のXPathを入力もできます。この場合、「次を含まない」を選択してください。そうすると、設定されたXPathを検出できない場合は、読み込みを再試行します。
【条件を追加】をクリックすると、複数の判断条件を追加できます。
- 「回数」と「実行間隔」を設定する
ページを無期限に読み込むのを避けるためには、再試行の最大回数を設定する必要があります。最大再試行回数に達すると、読み込みが停止され次のステップに入ります。
- プロキシを切り替えながら再試行する
通常、短期間に同じウェブサイトに何度もアクセスすると、そのウェブサイトからブロックされる可能性が高くなります。このとき、プロキシサーバーにアクセスすることで、新しい端末を使ってWebサイトにアクセスすることと同じになります。