以前、Amazon、eBayから商品情報のスクレイピングする方法を紹介しました。今回はOctoparseを使って、日本最大級のインターネットショッピングサイト「楽天市場」から商品価格をスクレイピングしようと思います。
この度、メンズ腕時計の価格を取得します。
次のURLを例として使います。
https://www.rakuten.co.jp/category/301981/?l-id=top_normal_gmenu_d_watch_002
以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
2) ページ遷移のループを作る - 複数のページからデータを取得する
4) 抽出タスクを始める - タスクの実行を行いデータを取得する
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
- コピーしたURLを入力ボックスに貼り付けて、タスクを作ります。 自由度の高い「カスタイズタスク」は、複雑なウェブサイトを対応できます。
- 「抽出開始」をクリックします。
- 「ワークフロー」をオンにするとタスクの作りはやすくなります。
2) ページ遷移のループを作る - 複数のページからデータを取得する
- ページの下にある「次のページ」ボタンをクリックし、「操作ヒント」パネルから「単一のリンクをループクリップする」を選択します。
3) データを抽出する - 抽出したいデータを選択する
- ステップ2では、2ページ目に移動しました。ですから、「Webページを開く」をクリックして1ページ目に戻ります。
「ページネーション」オプションを左クリックします。
- 1番目と2番目の製品の全体を囲む緑色の枠が出る後にクリックします。
- Octoparseはページ内に同じフォーマットとなるデータが自動的に識別されます。
- 「操作ヒント」にある「各要素のテキストを抽出する」をクリックします。
- 「ループアイテム」の中にある1番目の内容をクリックして、抽出する必要なデータをクリックして、「操作ヒント」の「選択したリンク/要素のテキストを抽出する」を選択すれば、データをフィールドとして抽出できます。
- 必要に応じてフィールド名を編集します。
ヒント! 1.タスクを作った後、チェックするのは大事です。特に「ページネーション」と「ループアイテム」です。 2.抽出の速度が速すぎると、アクセス拒否やエラーなどが発生しやすくなります。そのため、実行前に待つ時間の設定が必要です。(通常は2秒です。) |
4) 抽出タスクを始める - タスクの実行を行いデータを取得する
- 「保存する」をクリックします。
- 「抽出開始」をクリックします。
ヒント! 「ローカル抽出 」で抽出するのは、タスクが順調的に行われるかどうかを確認できます。テストにはよく使われています。もし、タスクに問題がなければ、「クラウド抽出」ではタスクのスケジュールもできます。 |
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!