「URLリスト」ループモードを使用すると、Octoparseは「次のページをクリックする」や「アイテムをクリックする」などのいくつかの手順でアイテムページに入る必要がありません。その結果、特にクラウド抽出の場合、抽出の速度が速くなります。「URLのリスト」を使用して構築されたタスクをクラウドで実行するように設定すると、タスクはサブタスクに分割され、さまざまなクラウドサーバーで同時に実行されるように設定されます。
- URLリストを使用してページネーションを高速化
- URLリストを使用して詳細ページのスクレイピングを高速化
1. URLリストを使用してページネーションを高速化する
スクレイピングタスクで数千の複数のページからデータを抽出する必要がある場合、「クリックしてページ分割する」のではなく、URLリストを使用してスクレイピングすることができます。 これにより、タスクをより効率的に実行できます。
以下のURLを例としてみましょう。
このWebサイトには、ページネーション用に合計83,663ページがあります。 各ページには20件の商品リストがあります。各ページのURLを観察すると、同じ構造を共有していることがわかります。この場合、「バッチ生成」を使用して、各ページのURLを自動生成できます。
以下の手順を実行できます。
- 「入力URL」の下の「バッチ生成」を選択します。
- URLを「URLフォーマット」に貼り付けます。
- ページ番号「0」を選択し、「パラメーターを追加する」をクリックします。
- 「パラメータ設定」については、Webサイトによって異なります。この場合、以下のように設定します。
-「開始値」:「0」を入力します。 -「アクション」:「増加」を選択して20を入力します(各ページにはリストに20件があるため)
-「終了条件」:「項数」に83663を入力します(このWebサイトの合計には83663ページがあるため)
-「終了値」を入力する必要はありません。
-「OK」をクリックすると、終了値が自動生成されます。その後、100行の自動生成URLのプレビューを確認できます。
-「URLを保存」をクリックします。
これで、「ループアイテム」に合計83663個のURLがあることがわかります。
ヒント! URLを単一のタスク/クローラーにバッチインポートするには、次の3つの方法があります(最大100万のURL)。
詳細については、URLの一括インポート |
2. URLリストを使用して詳細ページのスクレイピングを高速化する
リストページのURLをクリックして、詳細ページでのスクレイピングする必要がある場合、すべてのURLを1つずつクリックするのに時間がかかります。この場合、最初にリストされたすべてのURLをスクレイプするのが一番はやいです。詳細ページのすべてのURLをリストページで取得したら、新らしいタスクに取得されたURLを入力して、詳細ページのデータを素早く抽出することができます。
具体的な仕方は以下のビデオ、またはIndeedから求人情報をスクレイピングするを参考してください。