なぜOctoparseが最後のページでスクレイピングが停止しないのか?
フォローする多くの場合、取得するデータが複数のページにまたがっているため、ページネーションを使って複数のページからデータを抽出することは一般的です。
しかし、Octoparseが最後のページでスクレイピングを続けて停止しないことがあります。これは、最後のページで「次へ」ボタンがまだ表示され、ページネーションが無限ループになっている可能性があります。この問題に対処するために、ページネーションループアイテムの「高度なオプション」で「ループ終了時」条件を設定するか、XPathを変更して無限ループを回避する方法があります。
1. ループ終了条件を設定する - 「ループ終了時」
「ループ終了時」オプションを利用することで、特定のページでページネーションを停止できます。ページネーションステップの「ループ終了時」条件を設定すると、ページネーションが設定された回数に達した時点で停止します。
(例えば、最初の50ページのデータをスクレイピングする場合、実行回数を49に設定できます。)
このため、「ループ終了時」オプションを設定することで、ページクリックの回数がわかれば、問題を完全に解決できます。
まず、ページネーションループを選択し、「ループ終了時」ドロップダウンメニューを開きます。「実行が次の回数に達する」を選択し、ループの実行回数として数字を設定し、「OK」をクリックして設定を保存します。
2. XPathを変更する
ループ終了条件を設定しても問題が解決されない場合は、ページネーションループのXPathを変更する必要があります。