Octoparseとは

Octoparseは、数クリックでWebページを構造化されたデータに変換でき、コーディング不要のWebスクレイピングツールです。

以下の記事では、コンピュータークライアントを使用してAmazonのデータを収集する方法を紹介します。もし大量のAmazonデータの収集が必要な場合は、クライアントをダウンロードして、内蔵のスクレイピングプログラムを使用してください。いくつかのキーワードを入力するだけで、数百万のデータを収集できます。

このガイドで抽出するデータ

商品名
商品ページURL
商品画像（シングルまたは複数）
価格
ASIN

詳細ステップ

1.対象URLをバーに貼り付け、スタートを押す

ロボットでないことを確認させる画面が現れる可能性があります、ブラウザモードでご完了ください。

何回も要求される場合、設定でブラウザをSafari　15.1にご設定ください

アマゾンの画面が現れたら、詳細設定でCookieを保存しましょう。

このステップにより、ロボット確認画面をスキップことができます。

2.複数の検索キーワードを入力する

ASINを検索する場合は、複数のテキストを入力するオプションを選択できます。

次は検索ボタンをクリックし、操作パネルの「選択したボタンをクリックする」を選択します

現在のワークフローは下記のようになります。

複数テキストを入力した場合

3.ページループを作る

もし最初のページの商品のみを収集する必要がある場合は、このステップをスキップしていただいて構いません。

下までスクロールし、ページボタンを探します。①、②の手順で③ページループを生成します。

4.商品のクリックループを作る

任意商品名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。　　　　
①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。
操作パネルの下、③　A　をクリックします。

④「類似要素をすべて選択」➡「各要素にループクリック」をクリックすることより、⑦のループアイテムが生成されます

これで商品ループの生成が終わりました。

もしフローが⑦と異なる場合、ドラッグアンドドロップで調整することができます。

複数テキストを入力した場合

5.抽出データを選択する

商品のクリックループを作るが終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作提案」にあるテキストを選択します。

ダブルクリックでフィールド名を編集します。

デフォルトで生成されたXpathは全商品をカバーできないため、手動でXpathを修正しましょう。

ワークフローの「データを抽出」を選択した状態で、データプレビューの所でデータの表示方法を縦向きにし、ダブルクリックでXpathを調整します。

参考

タイトル
//span[@id="productTitle"]

ASIN　
//th[text()[contains(., 'ASIN')]]/following-sibling::td

価格　
//span[@class='a-price-whole']

ページURLの取得

URLは、クライアント内蔵の機能を使用して取得できますので、特別に設定する必要はありません。

画像URLの取得

続けて、画像を抽出するために新しいループを作成する必要があります。ループのアイテムは次の通りです：

//div[@id="altImages"]/ul/li[@data-csa-c-action="image-block-alt-image-hover"]//img

次に、データを抽出ステップ設定を調整し、新しい「画像URL」フィールドを追加します。

XPathとデータタイプの設定は次のとおりです。

ページに再度アクセスすると、画像のアドレスがすでに収集されているのが確認できるはずです。

6.ワークフローの最適化

アマゾン側のスクレイピング防止対策がかからないように、ワークフローを調整します。

最適化方向：各ステップ間の待機時間を増やす

7.実際の抽出結果

保存➡実行、ブラウザと実行ログから現在の実行状況が確認できます。

実際の抽出結果：

複数のバリエーション商品情報を抽出する

【2023年】Amazonから商品のレビューを取得する

eBayから商品画像のURLをスクレイピングする方法

2022年 SUUMO(スーモ)から物件情報をスクレイピングする

ASINコードでAmazonの商品情報をスクレイピングする