すべてのコレクション
ヘルプ
ページめくり
ページネーションの処理(アマゾンの場合)
ページネーションの処理(アマゾンの場合)
一週間前以上前にアップデートされました

※「次へ」ボタンがない場合は、こちらのチュートリアルをご参照ください。

Webデータを抽出する時、ページ移動しながら、データを取得するのは普通ですね。ですから、ページネーションの設定は、Webスクレイピングのプロセスでは重要なものです。

この記事では、Octoparseでページネーションを設定する方法を紹介します。

1. ページネーションとは?

ページネーションはページ送りとも呼ばれ、長いページを複数のページに分割して見やすくするものです。使用例としては長い記事コンテンツや多数の商品を扱うECサイトの商品カテゴリページなどです。

2. ページネーションを設定する方法は?

このチュートリアルでは、「次へ」ボタンのあるページでページネーション設定のみを紹介します。

  • 自動識別機能を利用する

1.「次へ」ボタンのあるページをOctoparseで開き、操作ヒントの「Webページを自動識別する」をクリックします。そうすると、Webページを識別します。

(「設定」で「自動識別」を有効にしている場合は、自動的に始めます。)

mceclip0.jpg

2. 識別が完了したら、「ページネーションを設定する」オプションがあるかどうかを確認します。 もしそのオプションがなければ、識別失敗と見なされます。

mceclip1.jpg

3.「プレビュー」をクリックすると、識別された「次へ」ボタンが水色でハイライトされます。

mceclip1.jpg

ページ送りボタンの認識が間違ったら、「編集」をクリックして正しいものを選択して保存すればいいです。

mceclip2.jpg
01.png

4.ページネーションが正しく設定されたら、「ワークフローを生成」をクリックすると、ページネーションの設定がワークフローに追加されます。

mceclip0.png
  • ページネーションを手動で設定する

1. ページ送りボタン/アイコンをクリックし、「操作ヒント」で「単一リンクをループクリックする」を選択します。(「次のページをループクリックする」/「選択したリンクをループクリックする」などの選択肢も同じ意味です。)

02.png

2.ページネーションが設定されたら、「ページネーション」のループをクリックし、「次のページをクリック」をクリックして、Octoparseが次のページに移動できるかどうかを確認できます。Octoparseが次のページに移動できる場合は、ページネーションが正常に設定されていることを意味します。

1635337918.jpg

上記の手順のいずれも実行可能なページネーションを作成できない場合はどうすればいいでしょうか?その場合は、特別なページネーションを設定するためにXPathを手動で作成する必要があるかもしれません。 XPathによるページネーション設定はこの記事をご覧ください。

こちらの回答で解決しましたか?