今回のチュートリアルはOctoparseを使って、LIFULL HOME'Sから東京都の新築マンション情報を取得します。
次のURLを例として使います。
https://www.homes.co.jp/mansion/shinchiku/tokyo/list/
以下はチュートリアルの主な手順です。
- 1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
- 2) ページ遷移のループを作る - 複数のページからデータを取得する
- 3) 「ループアイテム」を作る - 一覧ページからデータを取得する
- 4) 抽出タスクを始める - タスクの実行を行いデータを取得する
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
URLを入力して「抽出開始」をクリックし、ページを開きます。
2) ページ遷移のループを作る - 複数のページからデータを取得する
- ページ読み込み後、ページ送りボタン「次へ」をクリックします。
- 「操作ヒント」の「単一リンクをループクリップする」をクリックします。
- チェックした結果、 ページネーションのXpathは間違いました。正しいXpathを入力します。
//li[@class="nextPage"]/a
ヒント! Xpathの詳細については、以下の記事をご参考ください。 |
3) 「ループアイテム」を作る - 一覧ページからデータを取得する
- 該当ページの一番目の物件情報を選択します。セクション全体が強調表示されるまで、「操作ヒント」にある拡大ボタン
をクリックしてください。
- 二番目の検索結果も同じように操作し、残りの部分は識別されます。
- 「すべてのサブ要素を選択する」をクリックし、「データを抽出する」を選択すると、データが抽出されます。
- 必要に応じて、不要なデータフィールドを削除するとか、フィールド名を変更するとかします。
4) 抽出タスクを始める - タスクの実行を行いデータを取得する
「保存」と「実行」をクリックし、データを抽出します。以下はデータのサンプルです。