2022年 SUUMO(スーモ)から物件情報をスクレイピングする
フォローする使用バージョン:Octoparse v8.5以降
記事作成時間:2022年6月12日
Octoparseで新宿駅から徒歩15分以内、家賃8万円以下のワンルームをゲットしましょう。
まずはワークフローの流れを確認します。
1.対象URLをバーに貼り付け、抽出開始を押します。
2.ページループを作る:
下までスクロールし、ページボタンを探します。①、②の手順で③ページループを生成します。
ページネーション、次のページをクリックの順で自動生成されたボタンをテストします。
残念ながら、自動生成されたページボタンが1ページ目しか効きません。
以下の手順で正しいボタンパス(Xpath): //a[text()='次へ'] を指定します。
3.物件のクリックループを作る
- 任意物件名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。
- ①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。
- 他のタイトルを押し続けると、③「リンク○○件が選択され」(上の図)の数と④ページ表示件数(下の図)が同じになるはずです。
- ⑤「各リンクをループクリックする」をクリックします。
これで物件ループの生成が終わりました。
ループアイテムの生成より、ページネーションが変わった可能性があります、もう一度確認してみましょう。
4.抽出データを選択する
3.物件のクリックループを作る が終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作ヒント」にあるデータを抽出するを選択します。
ダブルクリックでフィールド名を編集します。
5.ワークフローの最適化
SUMMO側のスクレイピング防止対策がかからないように、ワークフローを調整します。
最適化方向:各ステップ間の待機時間を増やす
6.抽出
①タスク設定をクリックします。
②こだわりがない場合、内蔵ブラウザは新しいもの(数字が大きい方)を選びます。
③クラウド抽出(有料)を利用する場合、JPサーバを選びます。
④保存
⑤実行
クラウドサーバ6台(スタンドプラン)を利用する場合、わずか三分間でデータ233件をゲットしました。