ページネーションの処理(「次へ」ボタンがない場合)
フォローするページネーションを処理する場合、Webページの構造が様々です。このチュートリアルでは、「次へ」ボタンがなく、ページ番号を利用してWebページのページネーションを処理する方法を紹介します。
下記の画像では、「次へ」ボタンがなく、ページ番号のみがあります。
-
自動識別機能を利用する
1.WebページをOctoparseで開き、操作ヒントの「Webページを自動識別する」をクリックします。そうすると、Webページを識別します。
(「設定」で「自動識別」を有効にしている場合は、自動的に始めます。)
2. 識別が完了したら、「ページネーションを設定する」オプションがあるかどうかを確認します。 もしそのオプションがなければ、識別失敗と見なされます。
もちろん、間違ったページネーションが生成されることもあります。この場合、次の解決方法を参照してください。
-
各ページのURLを順番に開く
「バッチで生成」機能を利用して、すべてのページURLを作成することができます。この方法は、さまざまなページ番号でページ送るWebサイトのURLに適用されます。以下に例を示します。
ページ数がわかっている場合は、すべてのページネーションURLをバッチで自動生成できます。 詳細はこちら:URLのバッチ入力。
-
ページネーションを手動で設定する
自動識別が期待どおりに機能しない場合、手動で設定する必要があります。
「次へ」ボタンをクリックできなくなって、ページネーションの動作を実現するには、次のページ番号を引き続きクリックする必要がありますね。(たとえば、ページ1にいる場合は、 ページ2をクリックする;ページ2にいる場合は、ページ3をクリックする、というようになります。)
この状況では、ページネーションのXPathを変更して、次のページ番号が常に正しくクリックされることを確認する必要があります。そのため、XPathの基本的な知識が必要です。XPathの詳細はこの記事をご覧ください。
詳細な手順を以下に示します(例としてこのURLを使う:http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=)
1. ページ2をクリックし、「単一リンクをループクリックする」を選択します。
選択すると、ワークフローに「ページネーション」のループが生成されます。 次に、「ページネーション」をダブルクリックしてその設定ページを開く必要があります(強調表示されたテキストボックスは、XPathを置き換える場所です)。
2. XPathを変更します。
ページ番号でページネーションを行う場合、XPathの書き方は下記の記事をご覧ください。
今回の正しいXPathは次のとおりです。
//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b/following-sibling::a[1]
このXPath式を前述のテキストボックスに貼り付け、保存します。
ページネーションが設定されたら、「ページネーション」のループをクリックし、「次のページをクリック」をクリックして、Octoparseが次のページに移動できるかどうかを確認できます。Octoparseが次のページに移動できる場合は、ページネーションが正常に設定されていることを意味します。