なぜ「次へ」をクリックした後にOctoparseが止めるのですか?
フォローする時々、Octoparseが止めるか、「次へ」ボタンをクリックした後に次のページを移動するのに時間がかかることがあります。これは、「次へ」ボタンで使用されるJavaScriptテクニック(特にAJAX、Asynchronous JavaScript and XMLの略)が原因で、OctoparseはAJAX設定なしでページの再読み込みを識別できません。
Webからデータをスクレイピングするとき、Octoparseは、「アイテムをクリックする」や「次のページをクリックする」など、アクションの実行を信号としてページの再読み込みを行います。AJAXを使用しているWebページでは、再読み込まれずに新しいコンテンツを更新します。再読み込みがないので、Octoparseは動作する信号を受信せず、最後のステップで止めます。その結果、データが抽出できないか、予想よりもはるかに少ないデータが得られる可能性があります。
この問題を解決するには、「アイテムをクリックする」アクションの「高級オプション」で「AJAX読み取り」タイムアウトを設定する必要があります。
ヒント! OctoparseのAJAXタイムアウト設定は、Webページの読む込み時間に基づいています。次のページを読み込むのに十分な時間があれば、より高い値を設定することもできます。 |
実際には、Amazon、eBay、GoogleなどのAJAX設定で新しいデータを読み込むWebサイトが数多くあります。アイテムをクリックしてOctoparseがデータをスクレイピングするのに時間がかかる場合は、AJAXタイムアウトを設定して、詳細ページを読み込むのに十分な時間があることを確認する必要があります。
AJAXに関する質問がある場合は、ここ をご覧下さい。
From: https://www.octoparse.jp/tutorial/octoparse-stops-after-clicking-next-button/