SUUMO(スーモ)から物件情報をスクレイピングする
フォローする参考ビデオ:https://www.youtube.com/watch?v=v6flVG6fDJQ
春から新卒で、一人暮らしを始める人も多いのではないでしょうか。はじめての部屋探し、たくさんある賃貸物件の中から「これだ!」という部屋を見つけるのは、簡単ではありません。SUUMO(スーモ)、マイナビ賃貸、HOME’Sなど数多くある不動産関連サイトなどの詳細調査を人力で調査するのはコストと時間の面を見ても困難といえます。もしWebスクレイピングスキルを身につけるなら、すべて楽になると思います。
今回のチュートリアルはWebスクレイピングツールOctoparse 7.Xを使って、SUUMO(スーモ)から物件情報の取得を簡単にします。
この度、新宿駅から徒歩15分以内、家賃7万円以下のワンルームを探します。
次のURLを例として使います。
https://suumo.jp/jj/chintai/ichiran/FR301FC005/?shkr1=03&cb=0.0&shkr3=03&rn=0005&shkr2=03&mt=9999999&ar=030&bs=040&shkr4=03&ct=7.0&ra=013&ek=000519670&md=01&cn=9999999&mb=0&fw2=&et=15
以下はチュートリアルの主な手順です。 [タスクファイルをダウンロードする]
1) 「Webページを開く」 - 内蔵ブラウザで対象のWebページを開く
2) ページ遷移のループを作る - 複数のページからデータを取得する
3) 「ループアイテム」を作る - 各ページ上のデータを取得する
4) データを抽出する - 抽出したいデータを選択する
5) データカスタマイズ - 余計なデータを削除する
6) 抽出タスクを始める - タスクの実行を行いデータを取得する
- 「カスタマイズモード」を選択し、タスクを作ります。 自由度の高い「カスタマイズモード」は、複雑なウェブサイトを対応できます。
URLを入力して「URLを保存する」をクリックします。 - 「ワークフロー」をオンにするとタスクの作りはやすくなります。
- ページの下にある「次へ」ボタンをクリックし、「操作ヒント」パネルから「選択したリンクをループクリップする」を選択します。
- チェックした結果、 ページ遷移のXpathは間違いました。「単一要素」に正しいXpathを入力します。
//*[text()='次へ']

- ステップ2では、2ページ目に移動しました。ですから、「Webページを開く」をクリックして1ページ目に戻ります。
- 「ページネーション」をクリックします。
- 一番目の物件名のタイトルをクリックすると、前の5つだけが識別されます。6番目の物件をクリックすると、Octoparseは残りの同じのURLを自動的に識別します。
- 「操作ヒント」にある「各要素をループクリックする」をクリックします。
- 「ループアイテム」をクリックします。
- 「ループアイテム」にある1番目のデータを選択し、「要素をクリックする」をクリックして、詳細ページを開きます。
- 必要なデータをクリックし、「操作ヒント」にある「選択した要素のテキストを抽出する」を選択します。
- フィールド名を編集します。
場合によっては、必要なデータが不要な文字列と一緒になることがあります。この場合、まずすべてを抽出し、不要な文字列を削除するために抽出したデータを再フォーマットする必要があります。
例えば:
「他の費用」データを選択し、「データフィールドをカスタマイズする」をクリックします。
「抽出データを再フォーマットする」と「ステップを追加する」を選択し、「置き換える」をクリックします。
「置き換える」に 「合計」を入力、「計算する」をクリックします。
「OK」をクリックします。
他のデータも同じように削除できます。
ヒント! 一回で削除できないデータは引き続き再フォーマットしてください。 |
「保存する」をクリックします。
「抽出開始」をクリックします。
はじめての一人暮らしはドキドキするものよね。「なんとなく」で決めてしまって、結果失敗してしまったなんて先輩たちの話もよく聞きます。家賃の予算、お部屋の希望条件をしっかりと意識して、お気に入りのお部屋を見つけてね!
この記事は役に立ちましたか?もしご不明な点がございましたら、いつでもお問い合わせください!
From: https://www.octoparse.jp/tutorial/scrape-housing-information-from-suumo/