価格.comから売れ筋ランキングをスクレイピングする
フォローする
このチュートリアルでは、価格 .comの人気売れ筋ランキングをスクレイピングする方法を解説します。
価格 .comは、パソコンや家電、ファッション、インテリア、食品にいたるまで、あらゆる製品・サービスの価格やスペック、口コミなどの情報を集約する購買支援ポータルサイトです。そのため、スクレイピングを行うことで数多くのデータを一挙に得ることができます。
今回は「ノートパソコン」を例にスクレイピングの方法を解説します。
<価格 .com ノートパソコン 人気売れ筋ランキング>
http://kakaku.com/pc/note-pc/ranking_0020/
さらに、ここでは「 2021年以降に発売されたNEC製」という条件を加えた場合のデータ抽出方法も含めて解説していきますので、ぜひ手順をご確認の上、実際に試してみてください。
ステップ 1: ノートパソコンの売れ筋ランキングページを開く
● 価格 .comの売れ筋ランキングページにアクセスします。
● 画面が表示されたら、その WebページのURLをコピーします。
ステップ 2: OctoparseにURLを貼り付ける
Octoparseを立ち上げたら、検索バーの中に先ほどコピーしたURLを貼り付けます。続いて「スタート」をクリックします。
操作提案パネル内にある「 Webページを自動識別する」をクリックすると、画面の読み込みが始まります。数秒経つと「識別完了」というメッセージが表示されます。
識別が完了すると、画面下部にデータフィールドが表示され、レビューがリスト化されます。確認後、「ワークフローを生成」をクリックします。
以下のようなワークフローが生成されればスクレイピングの準備完了です。
ステップ 3:トリガーを設定する
トリガーとは、 Webページ上から特定の条件を満たすデータだけを抽出する機能です。設定できるトリガーの数は最大50までです。トリガー設定後も自由に編集や削除が可能です。
ここでは、ノートパソコンのランキングに「 2021年以降に発売されたNEC製」というトリガーを設定します。
ワークフローの「データを抽出」をクリックし、「詳細設定」を選択します。すると、新規トリガーを追加できます。
新規トリガーを押すと、トリガー条件を設定するポップアップが表示されますので、それぞれ設定していきましょう。
<ワンポイントアドバイス>
トリガー条件が探しづらいときは、データプレビューで名称を変更しておくと見つけやすくなります。
例えば、
● 名前 →メーカー
● rkgdate→発売日
と変更しておくと便利です。
ここでは、トリガー条件を次のように設定しましょう。
● トリガー名: 2021年以降に発売されたNEC製ノートパソコン
● トリガー条件 1:
○ メーカー/次に等しくない/ NEC
○ 発売日/次を含めない/ 2021
● トリガー条件 2(OR条件追加)
○ メーカー/次に等しくない/ NEC
○ 発売日/次を含めない/ 2022
● トリガー条件 2(OR条件追加)
○ メーカー/次に等しくない/ NEC
○ 発売日/次を含めない/ 2023
● 次の操作を実行:このデータを捨てる
これで、抽出された全データから、 2021年以降に発売されたNEC製ノートパソコン以外のデータが削除されます。
以下のように、トリガー設定が完了したら「保存」を押します。
トリガーの条件設定について詳しく知りたい方はこちらもあわせてご覧ください。
ステップ 4:スクレイピングタスクを実行する
● ワークフローを「保存」>「実行」の順番にクリックします。
● ローカル抽出(無料)またはクラウド抽出(有料)を選択します。
● データ抽出が開始されるので、完了まで待ちます。
クラウド抽出を利用したところ、約 1時間ほどでレビューデータの抽出が完了しました。
以下はデータのサンプルです。
右下の「エクスポート」をクリックすると、 ExcelやCSV、Google Sheetsなどにエクスポートが可能です。
From: https://www.octoparse.jp/tutorial/scrape-selling-rank-from-kakakucom/