※「次へ」ボタンがない場合は、こちらのチュートリアルをご参照ください。
Webデータを抽出する時、ページ移動しながら、データを取得するのは普通ですね。ですから、ページネーションの設定は、Webスクレイピングのプロセスでは重要なものです。
この記事では、Octoparseでページネーションを設定する方法を紹介します。
1. ページネーションとは?
ページネーションはページ送りとも呼ばれ、長いページを複数のページに分割して見やすくするものです。使用例としては長い記事コンテンツや多数の商品を扱うECサイトの商品カテゴリページなどです。
2. ページネーションを設定する方法は?
このチュートリアルでは、「次へ」ボタンのあるページでページネーション設定のみを紹介します。
自動識別機能を利用する
1.「次へ」ボタンのあるページをOctoparseで開き、操作ヒントの「Webページを自動識別する」をクリックします。そうすると、Webページを識別します。
(「設定」で「自動識別」を有効にしている場合は、自動的に始めます。)
2. 識別が完了したら、「ページネーションを設定する」オプションがあるかどうかを確認します。 もしそのオプションがなければ、識別失敗と見なされます。
3.「プレビュー」をクリックすると、識別された「次へ」ボタンが水色でハイライトされます。
ページ送りボタンの認識が間違ったら、「編集」をクリックして正しいものを選択して保存すればいいです。
4.ページネーションが正しく設定されたら、「ワークフローを生成」をクリックすると、ページネーションの設定がワークフローに追加されます。
ページネーションを手動で設定する
1. ページ送りボタン/アイコンをクリックし、「操作ヒント」で「単一リンクをループクリックする」を選択します。(「次のページをループクリックする」/「選択したリンクをループクリックする」などの選択肢も同じ意味です。)
2.ページネーションが設定されたら、「ページネーション」のループをクリックし、「次のページをクリック」をクリックして、Octoparseが次のページに移動できるかどうかを確認できます。Octoparseが次のページに移動できる場合は、ページネーションが正常に設定されていることを意味します。
上記の手順のいずれも実行可能なページネーションを作成できない場合はどうすればいいでしょうか?その場合は、特別なページネーションを設定するためにXPathを手動で作成する必要があるかもしれません。 XPathによるページネーション設定はこの記事をご覧ください。