抽出したデータが多く重複してしまうのはなぜでしょうか?
フォローするデータの重複問題には主に3つの原因があります。
1)ページネーションXPathは次のページのボタンを見つけません。
多くの場合、Octoparseは前のページに戻って同じページを再度スクレイピングするか、最後のページをスクレイピングし続けて停止されないことがあるかもしれます。
解決策:ページネーションのXPathを変更して、次のページのボタンを正しく見つけるようにします。
XPathの変更方法については、以下の関連チュートリアルをご参考ください。
2)ページネーションへのクリックでAJAXタイムアウトが短すぎます。
AJAX読み込みのあるページで、AJAXタイムアウトがページを読み込むのに十分な長さでない場合、Octoparseは現在のページを再度スクレイピングする可能性があります。
解決策:AJAXタイムアウトを延長して、ページを完全に読み込むのに十分な長さにします。
3)「データを抽出する」アクションは、「ループアイテム」アクションに関連付けられていません。
ループアイテムから抽出する場合、Octoparseは最初のアイテムをスクレイピングし続ける場合があります。これは、Octoparseがループアイテムからではなく、ページから直接スクレイピングするためです。
解決策:以下の記事をご参考ください。