以前、Amazon、eBayから商品情報のスクレイピングする方法を紹介しました。今回はOctoparseを使って、日本最大級のインターネットショッピングサイト「楽天市場」から商品価格をスクレイピングする方法についてご説明します。
次のURLを例として使います。
主な手順は右のメニューに表示されています。サンプルのタスクファイルはこちらからダウンロードできます。
1. 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
URLバーでURLを入力して「スタート」をクリックします。
2. ページネーションを作る - 複数のページからデータを取得する
ページの下にある「次のページ」ボタンをクリックし、「操作提案」パネルに「A」タグが確認できたら、「ループクリップ」を選びます。
3. データを抽出 - 抽出したいデータを選択する
ページネーションの作成では、2ページ目に移動しました、2ページのままで大丈夫です。
商品名をクリックすると、選んだタイトルを緑色にハイライトされます、ページ内同じフォーマットとなるデータが自動的に識別され、赤色にハイライトされます。
一番後ろの要素は必ず「A」タグであることを確認します。
「操作提案」にある「類似要素をすべて選択」をクリックします。
次は「各URLにループクリック」を押します。
現在、ワークフローは下記のようになります。詳細設定の「新しいタブで開く」にチェックを入れる必要があります。
現在、詳細ページに抽出する必要なデータ(例:タイトル、商品番号、価格)をクリックし、「操作提案」の「要素データ」を選択すれば、データをフィールドとして抽出できます。
必要に応じてフィールド名を編集します。フィールドのヘッダーをダブルクリックすることでタイトル名を変更することができます。
抽出の速度が速すぎると、アクセス拒否やエラーなどが発生しやすくなります。そのため、待機時間を設定する必要があります。(通常は3~5秒ぐらい)
4. データ抽出を開始 - タスクの実行を行いデータを取得する
右上の「保存」と「実行」を押してから、抽出が開始します。以下はサンプルの出力です。
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!