すべてのコレクション
応用例
物件
2022年 SUUMO(スーモ)から物件情報をスクレイピングする
2022年 SUUMO(スーモ)から物件情報をスクレイピングする
一週間前以上前にアップデートされました

使用バージョン:Octoparse v8.5以降

記事作成時間:2022年6月12日

Octoparseで新宿駅から徒歩15分以内、家賃8万円以下のワンルームをゲットしましょう。

まずはワークフローの流れを確認します。

workflow.svg

1.対象URLをバーに貼り付け、抽出開始を押します。

STEP1.gif

2.ページループを作る:

下までスクロールし、ページボタンを探します。①、②の手順で③ページループを生成します。

step2.png

ページネーショ次のページをクリックの順で自動生成されたボタンをテストします。

checkpage.gif

残念ながら、自動生成されたページボタンが1ページ目しか効きません。

以下の手順で正しいボタンパス(Xpath): //a[text()='次へ'] を指定します。

pagination.png

3.物件のクリックループを作る

  • 任意物件名のタイトルをクリックすると、クリックした部分は①緑色になります。これは「選択済み」の意味合いです。

  • ①をクリックした後、 ②赤になった部分もあります、これらは類似項目として検出された部分です。

click_title.png
  • 他のタイトルを押し続けると、③「リンク○○件が選択され」(上の図)の数と④ページ表示件数(下の図)が同じになるはずです。

  • ⑤「各リンクをループクリックする」をクリックします。

    PERPAGE.png

これで物件ループの生成が終わりました。

ループアイテムの生成より、ページネーションが変わった可能性があります、もう一度確認してみましょう。

loopitem.png
checkpoint.png

4.抽出データを選択する

3.物件のクリックループを作る が終わった後、詳細ページへ自動的に遷移するはずです。取得データをクリックし、最後「操作ヒント」にあるデータを抽出するを選択します。

click_DATA.gif

ダブルクリックでフィールド名を編集します。

EDITNAME.gif

5.ワークフローの最適化

SUMMO側のスクレイピング防止対策がかからないように、ワークフローを調整します。

最適化方向:各ステップ間の待機時間を増やす

OPTIMIZE.png

6.抽出

タスク設定をクリックします。

②こだわりがない場合、内蔵ブラウザは新しいもの(数字が大きい方)を選びます。

③クラウド抽出(有料)を利用する場合、JPサーバを選びます。

④保存

SETTING.png

⑤実行

run.png

クラウドサーバ6台(スタンドプラン)を利用する場合、わずか三分間でデータ233件をゲットしました。

time.png
こちらの回答で解決しましたか?