Amazonから商品のレビューをスクレイピングする
フォローする
このチュートリアルでは、 Amazonの商品レビューをスクレイピングする方法を解説します。Octoparseを使うことで、レビューに関する情報(カスタマーの名前、評価数、レビューのタイトル、レビューの投稿時間、レビューの内容など)を自動的に収集できるようになります。
今回は、以下の商品を例として解説します。
< Nintendo Switch 本体 (ニンテンドースイッチ) Joy-Con(L)/(R) グレー>
Amazonレビュー以外の商品情報をスクレイピングしたい方は、こちらの記 事も合わせてご覧ください。
● 参考: Amazonから製品情報をスクレイピングする
ステップ 1:対象商品のレビュー詳細ページを開く
商品の詳細ページにアクセスし、レビューの下部にある「すべてのレビューを参照します」をクリックします。
投稿されたすべてのレビューが表示されるページにアクセスしますので、このページの URLをコピーします。
ステップ 2:OctoparseにURLを貼り付ける
Octoparseを立ち上げたら、検索バーの中に先ほどコピーしたURLを貼り付けます。続いて「スタート」をクリックします。
操作提案パネル内にある「 Webページを自動識別する」をクリックすると、画面の読み込みが始まります。
数秒経つと「識別完了」というメッセージが表示されます。
識別が完了すると、画面下部にデータフィールドが表示され、レビューがリスト化されます。
確認後、「ワークフロー」を生成をクリックします。
ステップ 3:ページループを作る
複数ページのレビュー収集を自動化するため、「ページ送り」を設定します。
レビュー下にある「次へ」をクリックし、続いて操作ヒントの中から「単一リンクをループクリックする」を選択します。
ステップ 4:郵便番号を入力
情報不足によりコメントの閲覧が続行できない状況を防ぐために、私たちはアマゾンに自分たちの所在地を伝え、開いたページのクッキーに保存しました。
閲覧モードを開始し、ページの左上隅をクリックして、郵便番号を入力して保存してください。
ステップ 5:スクレイピングタスクを実行する
● ワークフロー上部にある「保存」と「実行」の順番にクリックします。
● ローカル抽出(無料)またはクラウド抽出(有料)を選択します。
● スクレイピングが開始されるので、完了するまで待ちます。
クラウド抽出を利用したところ、約 1時間で380件分のレビューデータが抽出できました。
以下はデータのサンプルです。