ネットショップやオンラインビジネスを始めるときは、Amazon、eBayなどで販売されている同類の商品について市場調査を行いますよね。これはすごく面倒な作業です。もしWebスクレイピングスキルを身につけるなら、マーケティングリサーチを大幅に促進できます。
今回の記事では、Amazonから商品情報をスクレイピングする方法を紹介します。このチュートリアルで次のURLを例として使います。
この度、AmazonからBluetoothイヤホンの商品情報をスクレイピングします。以下はチュートリアルの主な手順です。
- 1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
- 2) ページ遷移のループを作る - 複数のページからデータを取得する
- 3) 「ループアイテム」を作る - 商品の詳細ページに移動する
- 4) データを抽出する - 抽出したいデータを選択する
- 5) 抽出タスクを始める - タスクの実行を行いデータを取得する
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
URLを入力して「抽出開始」をクリックし、ページを開きます。
2) ページ遷移のループを作る - 複数のページからデータを取得する
ページの下にある「次へ」ボタンをクリックし、「操作ヒント」から「単一リンクをループクリックする」を選択します。
3) 「ループアイテム」を作る - 商品の詳細ページに移動する
- 1番目の商品名をクリックすると、Octoparseはページ内の同じのURLを自動的に識別します。
- 「操作ヒント」の下部にあるタグを「A」に変更します。
- 「すべて選択」と「各リンクをループクリックする」をクリックします。
そうすると、「ループアイテム」が生成され、商品の詳細ページに入ります。
4) データを抽出する - 抽出したいデータを選択する
- 必要なデータをクリックし、「操作ヒント」にある「選択した要素のテキストを抽出する」を選択します。
- 必要に応じて、ファイル名を編集します。
ヒント! すべての画像を抽出する必要な場合は、正規表現ツールを使用してHTMLからすべての画像のURLを取得することができます。
|
5) 抽出タスクを始める - タスクの実行を行いデータを取得する
「保存」と「実行」をクリックし、データを抽出します。以下はデータのサンプルです。