すべてのコレクション
応用例
Eコマース
価格.comから売れ筋ランキングをスクレイピングする
価格.comから売れ筋ランキングをスクレイピングする
一週間前以上前にアップデートされました

このチュートリアルでは、価格 .comの人気売れ筋ランキングをスクレイピングする方法を解説します。

価格 .comは、パソコンや家電、ファッション、インテリア、食品にいたるまで、あらゆる製品・サービスの価格やスペック、口コミなどの情報を集約する購買支援ポータルサイトです。そのため、スクレイピングを行うことで数多くのデータを一挙に得ることができます。

今回は「ノートパソコン」を例にスクレイピングの方法を解説します。

<価格 .com ノートパソコン 人気売れ筋ランキング>

さらに、ここでは「 2021年以降に発売されたNEC製」という条件を加えた場合のデータ抽出方法も含めて解説していきますので、ぜひ手順をご確認の上、実際に試してみてください。

ステップ 1: ノートパソコンの売れ筋ランキングページを開く

● 価格 .comの売れ筋ランキングページにアクセスします。

● 画面が表示されたら、その WebページのURLをコピーします。

___1.png

ステップ 2: OctoparseにURLを貼り付ける

Octoparseを立ち上げたら、検索バーの中に先ほどコピーしたURLを貼り付けます。続いて「スタート」をクリックします。

___2.png

操作提案パネル内にある「 Webページを自動識別する」をクリックすると、画面の読み込みが始まります。数秒経つと「識別完了」というメッセージが表示されます。

___3.png

識別が完了すると、画面下部にデータフィールドが表示され、レビューがリスト化されます。確認後、「ワークフローを生成」をクリックします。

___4.png

以下のようなワークフローが生成されればスクレイピングの準備完了です。

___5.png

ステップ 3:トリガーを設定する

トリガーとは、 Webページ上から特定の条件を満たすデータだけを抽出する機能です。設定できるトリガーの数は最大50までです。トリガー設定後も自由に編集や削除が可能です。

ここでは、ノートパソコンのランキングに「 2021年以降に発売されたNEC製」というトリガーを設定します。

ワークフローの「データを抽出」をクリックし、「詳細設定」を選択します。すると、新規トリガーを追加できます。

___6.png

新規トリガーを押すと、トリガー条件を設定するポップアップが表示されますので、それぞれ設定していきましょう。

___7.png

<ワンポイントアドバイス>

トリガー条件が探しづらいときは、データプレビューで名称を変更しておくと見つけやすくなります。

例えば、

● 名前 →メーカー

● rkgdate→発売日

と変更しておくと便利です。

___8.png

ここでは、トリガー条件を次のように設定しましょう。

● トリガー名: 2021年以降に発売されたNEC製ノートパソコン

● トリガー条件 1:

○ メーカー/次に等しくない/ NEC

○ 発売日/次を含めない/ 2021

● トリガー条件 2(OR条件追加)

○ メーカー/次に等しくない/ NEC

○ 発売日/次を含めない/ 2022

● トリガー条件 2(OR条件追加)

○ メーカー/次に等しくない/ NEC

○ 発売日/次を含めない/ 2023

● 次の操作を実行:このデータを捨てる

これで、抽出された全データから、 2021年以降に発売されたNEC製ノートパソコン以外のデータが削除されます。

以下のように、トリガー設定が完了したら「保存」を押します。

___9.png

トリガーの条件設定について詳しく知りたい方はこちらもあわせてご覧ください。

ステップ 4:スクレイピングタスクを実行する

● ワークフローを「保存」>「実行」の順番にクリックします。

● ローカル抽出(無料)またはクラウド抽出(有料)を選択します。

● データ抽出が開始されるので、完了まで待ちます。

___10.png

クラウド抽出を利用したところ、約 1時間ほどでレビューデータの抽出が完了しました。

以下はデータのサンプルです。

___11.png

右下の「エクスポート」をクリックすると、 ExcelやCSV、Google Sheetsなどにエクスポートが可能です。

___12.png
こちらの回答で解決しましたか?