ページネーションの処理(アマゾンの場合)
フォローする※「次へ」ボタンがない場合は、こちらのチュートリアルをご参照ください。
Webデータを抽出する時、ページ移動しながら、データを取得するのは普通ですね。ですから、ページネーションの設定は、Webスクレイピングのプロセスでは重要なものです。
この記事では、Octoparseでページネーションを設定する方法を紹介します。
1. ページネーションとは?
ページネーションはページ送りとも呼ばれ、長いページを複数のページに分割して見やすくするものです。使用例としては長い記事コンテンツや多数の商品を扱うECサイトの商品カテゴリページなどです。
2. ページネーションを設定する方法は?
このチュートリアルでは、「次へ」ボタンのあるページでページネーション設定のみを紹介します。
サイト:https://www.amazon.co.jp/s?k=switch&__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&crid=1NNXG2INP0OEE&sprefix=switch%2Caps%2C327&ref=nb_sb_noss_1
-
自動識別機能を利用する
1.「次へ」ボタンのあるページをOctoparseで開き、操作ヒントの「Webページを自動識別する」をクリックします。そうすると、Webページを識別します。
(「設定」で「自動識別」を有効にしている場合は、自動的に始めます。)
2. 識別が完了したら、「ページネーションを設定する」オプションがあるかどうかを確認します。 もしそのオプションがなければ、識別失敗と見なされます。
3.「プレビュー」をクリックすると、識別された「次へ」ボタンが水色でハイライトされます。
ページ送りボタンの認識が間違ったら、「編集」をクリックして正しいものを選択して保存すればいいです。
4.ページネーションが正しく設定されたら、「ワークフローを生成」をクリックすると、ページネーションの設定がワークフローに追加されます。
-
ページネーションを手動で設定する
1. ページ送りボタン/アイコンをクリックし、「操作ヒント」で「単一リンクをループクリックする」を選択します。(「次のページをループクリックする」/「選択したリンクをループクリックする」などの選択肢も同じ意味です。)
2.ページネーションが設定されたら、「ページネーション」のループをクリックし、「次のページをクリック」をクリックして、Octoparseが次のページに移動できるかどうかを確認できます。Octoparseが次のページに移動できる場合は、ページネーションが正常に設定されていることを意味します。
上記の手順のいずれも実行可能なページネーションを作成できない場合はどうすればいいでしょうか?その場合は、特別なページネーションを設定するためにXPathを手動で作成する必要があるかもしれません。 XPathによるページネーション設定はこの記事をご覧ください。