繰り返しページ送り(「次へ」ボタンがある場合)
フォローする繰り返しページ送りとは
まず、繰り返しページ送りとは、ウェブページのデータを取得する際に、次のページに進んでデータを繰り返し取得することです。
例として、ウェブページには100件のデータがあり、1ページに5件のデータが表示されるとします。最初に1ページ目のデータを取得した後、次のページに進んで2ページ目のデータを取得し、3ページ目のデータを取得...というように、すべてのデータを取得するまで繰り返します。
Octoparseにおいて、ページを繰り返し巡回するためには通常①ループ構造を使用します。一般的なプロセスでは、各ページのデータ収集が完了すると、次のページのデータを取得するために②ページ送りボタンをクリックします。これを繰り返し、データの収集が終了するまで続けます。
設定
ループ構造の基本設定
ループ構造の詳細設定
- ループモード:単一要素
単一要素とは、特定の要素が1つしか存在しない場合に使われるセレクタの一つです。通常、Webページのデータは複数の要素から成り立っていますが、中には特定の要素が1つしか存在せず、その要素の情報を取得したい場合があります。
- 要素のXpath:ページ送りボタンを記入する
- 実行が次の回数に達する
もし特定の最初の数ページのデータだけが必要な場合は、この機能を使って制御できます。
ページ送りボタンの基本設定
- 相対Xpath:第一部分のループ構造で作成したXPathを引き継ぎます。
- 絶対Xpath:第一部分のXPathから切り離し、再指定します(通常はあまり使われません)。
- タイムアウト:新しいページのデータ読み込み時間の上限を設定し、その上限を超えてもデータが読み込まれない場合、次のステップに進みます。
ページ送りボタンの詳細設定
- Ajax読み込み:実際の状況に応じて、チェックを入れるかどうかを決定してください。
- アンカーの位置を定める
- スクロールダウン
ページ送りボタンの再試行