2022年 Amazonから製品情報をスクレイピングする
フォローする使用バージョン:Octoparse v8.5以降
記事作成時間:2022年6月12日
ネットショップやオンラインビジネスを始めるときは、Amazon、eBayなどで販売されている同類の製品について市場調査を行いますよね。
これはすごく面倒な作業です。もしWebスクレイピングスキルを身につけるなら、マーケティングリサーチを大幅に促進できます。
この度、AmazonからBluetoothイヤホンの製品情報をスクレイピングします。
対象ページのURL:https://www.amazon.co.jp
手順:
1.対象URLをバーに貼り付け、抽出開始を押します。

ロボットでないことを確認させる画面が現れる可能性があります、ブラウザモードでご完了ください。
何回も要求される場合、設定でブラウザをSafari 15.1にご設定ください
アマゾンの画面が現れたら、詳細設定でCookieを保存しましょう。
このステップにより、ロボット確認画面をスキップことができます。
2.検索バーでキーワードを入れます:
次は検索ボタンをクリックし、操作パネルの「選択したボタンをクリックする」を選択します
現在のワークフローは下記のようになります。
3.ページループを作る:
下までスクロールし、ページボタンを探します。①、②の手順で③ページループを生成します。
4.商品のクリックループを作る
- 任意商品名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。
- ①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。
- 操作パネルの下、③ A をクリックします。
- ④「すべて選択」➡「各リンクをループクリックする」をクリックすることより、⑥のループアイテムが生成されます
これで商品ループの生成が終わりました。
5.抽出データを選択する
商品のクリックループを作るが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作ヒント」にあるデータを抽出するを選択します。
ダブルクリックでフィールド名を編集します。

デフォルトで生成されたXpathは全商品をカバーできないため、手動でXpathを修正しましょう。

データプレビューの所でデータの表示方法を縦向きにし、ダブルクリックでXpathを調整します。

正しいXpath
ASIN //th[text()[contains(., 'ASIN')]]/following-sibling::td
価格 //span[@class='a-price-whole']
5.ワークフローの最適化
アマゾン側のスクレイピング防止対策がかからないように、ワークフローを調整します。
最適化方向:各ステップ間の待機時間を増やす
6.抽出
保存➡実行、ブラウザと実行ログから現在の実行状況が確認できます。
実際の抽出結果
抽出量が多い場合、自動IPローテーション機能付きのテンプレートをご利用くださいませ(有料)。
