前回の記事では、一覧ページからリストのデータを抽出方法を紹介しましたが、リスト内の各タイトル(リンク)をクリックし、新しいページに移動しデータをスクレイピングすることが多いですね。
この記事では、各リストのリンクをクリックして詳細ページに移動し、データを取得する方法を紹介します。これは、ECサイト(Amazon、eBayなど)など商品詳細ページからデータを抽出する場合に特に便利です。
次のURLを例として説明します。
https://www.ebay.com/sch/Vehicle-Electronics-GPS-/3270/i.html
-
自動識別機能を利用する
1. WebページのURLを入力し、自動識別を起動すると、Octoparseがデータを自動検出し、ワークフローを生成します。
2. 「リンクされたページを開く」を選択し、クリックするリンクを選択し、詳細ページに移動します。
3. 詳細ページのデータをクリックし、「選択した要素のテキストを抽出する」を選択します。
-
手動で設定する
1. WebページのURLを入力したら、1番目の商品名をクリックします。 選択された商品名は緑色で強調表示され、残りの商品名はすべて赤色で強調表示されます。
2. 2番目の商品名をクリックします。そうすると、すべての商品名が識別されます。
3. 「操作ヒント」から「各要素をループクリックする」を選択し、「ループアイテム」と「アイテムをクリック」のステップが自動生成されます。
4. そうすると、1番目商品の詳細ページに入ります。必要なデータをクリックし、「選択した要素のテキストを抽出する」を選択します。
ヒント! クリックするには、リンクであるアンカー要素を選択することが重要です。Octoparseは選択した要素のタグを自動的に識別します。したがって、URLのある要素を選択すると、選択されたタグは「A」になります。これは通常、ページ間をリンクするアンカーを表します。 |