ほかページやリンクに隠れている情報がありますよね。表示するために、クリックする必要があります。この記事ではそのようなデータを取得する方法を紹介します。
このサイトを例としてみましょう:
https://www.nastygal.com/black-croc-structured-mini-backpack/AGG77323.html
このWebサイトで、「Details and Care」と「Shipping and Returns」にあるデータを表示する場合は、それぞれタグをクリックする必要があります。
「Details and Care」に隠れているデータを抽出したい場合、2つの方法があります。
1. タグをクリックしてデータを表示し、抽出します。
2. クリックしなくてもデータがWebページのソースコードにある場合、データを直接抽出します。
1. タグをクリックしてデータを表示し、抽出します。
- 「Details and Care」タグをクリックし、操作ヒントで「要素をクリックする」を選択します。
- 「アイテムをクリックする」ステップの「再試行」のチェックを外し、「保存」をクリックします。またOctoparseはAJAXを自動的に検出しましたから、AJAXタイムアウトを入力できます。
- 表示されるデータを選択し、操作ヒントから「選択した要素のテキストを抽出する」をクリックします。
- 「OK」をクリックして保存します。
ヒント! AJAXについて詳しく知りたい場合は、以下の記事をご参考ください。 新しいタブオプションが自動的に選択されている場合は、チェックを外してください。 |
2. クリックしなくてもデータがWebページのソースコードにある場合、データを直接抽出します。
- ブラウザでWebページを開き、メニューの「検証(Inspect Element)」を選択し、ソースコードを表示します。
- ソースコードから、「Details and Care」タグをクリックしなくても、タグの下に対応するデータが見つかることがわかります。
これで、Octoparseに戻ってスクレイピングを続行できます。
- 組み込みブラウザーの右上隅にある切り替えボタン
をクリックして、ブラウザーモードに切り替えます。
- 「Details and Care」をクリックしてコンテンツを表示します。
- 再度切り替えボタン
をクリックして、編集モードに戻ります。
- データを選択して、操作ヒントから「選択した要素のテキストを抽出する」をクリックします。
- 「OK」をクリックして保存します。