※「次へ」ボタンがある場合は、こちらをご参照ください。
このチュートリアルでは、「次へ」ボタンがなく、ページ番号を利用してWebページのページネーションを処理する方法を紹介します。
Spacemarktの検索結果ページでは、「次へ」ボタンがなく、ページ番号のみがあります。
自動識別機能を利用する
1.WebページをOctoparseで開き、操作提案の「ウェブページのデータを自動検出」をクリックします。そうすると、Webページを自動検出します。
(「設定」で「自動認識」を有効にしている場合は、自動的に始めます。)
2. 識別が完了したら、「ページネーションを設定する」オプションがあるかどうかを確認します。 もしそのオプションがなければ、識別失敗と見なされます
間違ったページネーションが生成される場合、次の解決方法を試してみましょう。
各ページのURLを順番に開く
先ずは各ページのURLを確認してみましょう
類似のパターンが見つけた場合、バッチでURLを生成します。
類似のパターンが見つけらない場合、手動でURLを貼り付けましょう。
ページネーションを手動で設定する
自動識別が期待どおりに機能しない場合、手動で設定する必要があります。
「次へ」ボタンをクリックできなくなって、ページネーションの動作を実現するには、隣のページ番号を引き続きクリックする必要がありますね。(たとえば、ページ1にいる場合は、 隣のページ2をクリックする;ページ2にいる場合は、隣ページ3をクリックする、というようになります)
そのため、XPathの基本的な知識が必要です。XPathの詳細はこの記事をご覧ください。
詳細な手順を以下に示します(例URL)
1. ページ2をクリックし、「ループクリック」を選択します。
選択すると、ワークフローに「ページネーション」のループが生成されます。 次に、「ページネーション」をクリックして「基本設定」にXPathを変更します(強調表示されたテキストボックスは、XPathを置き換える場所です)。
2. XPathを変更します。
ページ番号でページネーションを行う場合、XPathの書き方は下記の記事をご覧ください。
今回の正しいXPathは次のとおりです。
//a[@aria-current='page']/../following-sibling::li/a
このXPath式を前述のテキストボックスに貼り付け、保存します。
ページネーションが設定されたら、「ページネーション」のループをクリックし、「次のページをクリック」をクリックしてOctoparseが次のページに移動できるかどうかを確認できます。Octoparseが次のページに移動できる場合は、ページネーションが正常に設定されていることを意味します。