2023年 Amazonから製品情報をスクレイピングする
フォローする使用バージョン:Octoparse v8.6.2
記事作成時間:2023年6月1日
ネットショップやオンラインビジネスを始めるときは、Amazon、eBayなどで販売されている同類の製品について市場調査を行いますよね。
これはすごく面倒な作業です。もしWebスクレイピングスキルを身につけるなら、マーケティングリサーチを大幅に促進できます。
この度、AmazonからBluetoothイヤホンの製品情報をスクレイピングします。
対象ページのURL:https://www.amazon.co.jp
手順:
1.対象URLをバーに貼り付け、抽出開始を押します。

ロボットでないことを確認させる画面が現れる可能性があります、ブラウザモードでご完了ください。
何回も要求される場合、設定でブラウザをSafari 15.1にご設定ください
アマゾンの画面が現れたら、詳細設定でCookieを保存しましょう。
このステップにより、ロボット確認画面をスキップことができます。
2.検索バーでキーワードを入れます:
次は検索ボタンをクリックし、操作パネルの「選択したボタンをクリックする」を選択します
現在のワークフローは下記のようになります。
3.ページループを作る:
下までスクロールし、ページボタンを探します。①、②の手順で③ページループを生成します。
4.商品のクリックループを作る
- 任意商品名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。
- ①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。
- 操作パネルの下、③ A をクリックします。
- ④「類似要素をすべて選択」➡「ループクリックする」をクリックすることより、⑦のループアイテムが生成されます
これで商品ループの生成が終わりました。
5.抽出データを選択する
商品のクリックループを作るが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作ヒント」にあるテキストを抽出するを選択します。


ASIN //th[text()[contains(., 'ASIN')]]/following-sibling::td
価格 //span[@class='a-price-whole']
続けて、画像を抽出するために新しいループを作成する必要があります。ループのアイテムは次の通りです://div[@id="altImages"]/ul/li[@data-csa-c-action="image-block-alt-image-hover"]//img
次に、データを抽出ステップ設定を調整し、新しい「画像URL」フィールドを追加します。
XPathとデータタイプの設定は次のとおりです。
ページに再度アクセスすると、画像のアドレスがすでに収集されているのが確認できるはずです。
5.ワークフローの最適化
アマゾン側のスクレイピング防止対策がかからないように、ワークフローを調整します。
最適化方向:各ステップ間の待機時間を増やす
6.抽出
保存➡実行、ブラウザと実行ログから現在の実行状況が確認できます。
実際の抽出結果
