2023年 Amazonから製品情報をスクレイピングする
フォローするOctoparseとは
Octoparseは、数クリックでWebページを構造化されたデータに変換でき、コーディング不要のWebスクレイピングツールです。
以下の記事では、コンピュータークライアントを使用してAmazonのデータを収集する方法を紹介します。もし大量のAmazonデータの収集が必要な場合は、クライアントをダウンロードして、内蔵のスクレイピングプログラムを使用してください。いくつかのキーワードを入力するだけで、数百万のデータを収集できます。
このガイドで抽出するデータ
- 商品名
- 商品ページURL
- 商品画像(シングルまたは複数)
- 価格
- ASIN
詳細ステップ
1.対象URLをバーに貼り付け、スタートを押します。
ロボットでないことを確認させる画面が現れる可能性があります、ブラウザモードでご完了ください。
何回も要求される場合、設定でブラウザをSafari 15.1にご設定ください
アマゾンの画面が現れたら、詳細設定でCookieを保存しましょう。
このステップにより、ロボット確認画面をスキップことができます。
2.複数の検索キーワードを入力する
次は検索ボタンをクリックし、操作パネルの「選択したボタンをクリックする」を選択します
現在のワークフローは下記のようになります。
複数テキストを入力した場合
3.ページループを作る
もし最初のページの商品のみを収集する必要がある場合は、このステップをスキップしていただいて構いません。下までスクロールし、ページボタンを探します。①、②の手順で③ページループを生成します。
4.商品のクリックループを作る
- 任意商品名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。
- ①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。
- 操作パネルの下、③ A をクリックします。
- ④「類似要素をすべて選択」➡「ループクリックする」をクリックすることより、⑦のループアイテムが生成されます
これで商品ループの生成が終わりました。
5.抽出データを選択する
商品のクリックループを作るが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作ヒント」にあるテキストを抽出するを選択します。
タイトル
//span[@id="productTitle"]
ASIN
//th[text()[contains(., 'ASIN')]]/following-sibling::td
価格
//span[@class='a-price-whole']
- ページURLの取得
- 画像URLの取得
続けて、画像を抽出するために新しいループを作成する必要があります。ループのアイテムは次の通りです:
//div[@id="altImages"]/ul/li[@data-csa-c-action="image-block-alt-image-hover"]//img
次に、データを抽出ステップ設定を調整し、新しい「画像URL」フィールドを追加します。
XPathとデータタイプの設定は次のとおりです。
ページに再度アクセスすると、画像のアドレスがすでに収集されているのが確認できるはずです。
6.ワークフローの最適化
アマゾン側のスクレイピング防止対策がかからないように、ワークフローを調整します。
最適化方向:各ステップ間の待機時間を増やす
7.実際の抽出結果
保存➡実行、ブラウザと実行ログから現在の実行状況が確認できます。
実際の抽出結果