今回は、ASINコードを使ってAmazonから商品情報を取得する方法を解説します。ASINコードとは、 Amazonグループの独自コードで、書籍以外の商品を 10桁の固有番号で識別します。
同じ商品であれば、国が違っても同じ ASINコードで管理されています。そのため、ASINを把握すると、商品リサーチに掛かる時間が短縮される可能性があります。ASINコードは、各商品ページの「登録情報」から確認できます。
以下の画像はモバイルバッテリーの登録情報です。「 ASIN」の項目に記載されている、アルファベット・数字の羅列がASINコードです。
ASINコードを使って、Amazonの商品情報をスクレイピングする前に、あらかじめASINコードのリストを用意しておく必要があります。Excelやスプレッドシートなどに、スクレイピングしたいASINコードを一覧化しましょう。
Amazonのスクレイピングついて詳しく知りたい方は、こちらの記事もあわせてご覧ください。
主な手順は右側のメニューに表示されています。サンプルのタスクファイルはこちらからダウンロードできます。
1. 「Webページを開く」- 内蔵ブラウザで対象のWebページを開く
メニューから「新規作成」>「カスタマイズタスク」をクリックします。
AmazonのURLをボックスに貼り付け、「保存する」をクリックします。
2. 「テキストを入力」‐ASINコードで検索する
Amazon検索ボックスをクリックし、 操作提案の「テキストを入力する」をクリックします。
一括入力を選択し、検索したいASINをテキストボックスに入力します。
入力が完了したら「はい」をクリックして保存します。
以下のような組み合わせテキストを入力するループアイテムが生成されます。
テキストリストのループを作成する手順について詳しく知りたい方は以下の参照記事をご覧ください。
参照: テキストを入力
ASINを入力したあと、検索する必要があります。
● ページの検索ボタンをクリックし、操作提案の「選択したボタンをクリックする」をクリックします。
AmazonはAJAXで検索結果を読み込むので、「AJAX読み込み」を設定する必要があります。
「 操作提案」のAJAXタイムアウト時間を10秒に設定します。
3. 「データを抽出」 - 抽出したいデータを選択する
抽出したい情報をクリックします。
操作提案の「テキスト」を選択するか、ほかのデータ要素を選択します。
データフィールドに反映されたデータを確認し、必要に応じてダブルクリックしフィールド名を変更します。
4. XPathを変更する - データ抽出の精度を向上させる
すべてのASINコードからのデータ取得結果を確認すると、ベストセラーの製品の詳細がうまく取得できなくなりデータフィールドが空白になったことが分かりました。その原因はベストセラー製品ページの構造はほかのページと違うからです。
この場合は、全部の製品ページ上の要素を正しく特定できるXPathを見つけなければなりません。したがって、この問題によってデータが失われるのを防ぐために、OctoparseでXPathを変更する必要があります。
データプレビューを「縦向き」モードに変更し、ご希望のデータフィールドの正しいXPathを入力します。
以下は各フィールドに該当するXpathです:
製品名://div[@class="s-main-slot s-result-list s-search-results sg-row"]/div[2]/div[1]/div[1]/div[1]/div[1]//span[@class="a-size-base-plus a-color-base a-text-normal"]
製品URL://div[@class="s-main-slot s-result-list s-search-results sg-row"]/div[2]/div[1]/div[1]/div[1]/div[1]//h2/a
価格://div[@class="s-main-slot s-result-list s-search-results sg-row"]/div[2]/div[1]/div[1]/div[1]/div[1]//span[@class="a-price"]/span[1]
評価://div[@class="s-main-slot s-result-list s-search-results sg-row"]/div[2]/div[1]/div[1]//span[@class="a-icon-alt"]
レビュー数://div[@class="s-main-slot s-result-list s-search-results sg-row"]/div[2]/div[1]/div[1]//span[@class="a-size-base s-underline-text"]
ヒント!
OctoparseでXPathをカスタマイズすることで、自動生成されたXPathよりも高い柔軟性と精度がありますので、プロセスが非常にうまく動作できます。
関連するチュートリアル:
5. 「抽出開始」 - データ取得のタスクを実行する
● 画面右上の「保存」>「実行」の順にクリックし、タスク実行に移ります。
● タスク実行画面で抽出方法を選択します。ローカル抽出(無料)または、クラウド抽出(有料)のいずれかを選択しましょう。
タスクが実行されれば、あとは自動的にデータ抽出がはじまります。完了まで数分程度待ちましょう。
すべてのデータ抽出が終了すると、抽出されたデータが表示されます。以下は実際に抽出されたデータのサンプルです。抽出されたデータは、 ExcelやCSV、スプレッドシートへエクスポートが可能です。