すべてのコレクション
応用例
観光
Bookingからホテルの情報をスクレイピングする
Bookingからホテルの情報をスクレイピングする
一週間前以上前にアップデートされました

世界観光機関(UNWTO)によると、2017年の世界の観光客の総数は、前年と比べ7%増加して約13億2,220万人を果たしました。旅行業の発展に伴い、Booking.com、TripAdvisor.com、Airbnb.comなど世界のオンライン旅行代理店が急速に上場し、これまで以上に簡単にホテル、航空券の情報を入手できます。

このチュートリアルでは、WebスクレイピングツールOctoparseを使って、Booking.comからホテルの情報をスクレイピングする方法を説明します。

また、Octoparseのメイン画面にある「テンプレートタスク」に移動し、利用準備が整ったテンプレートを直接使用して時間を節約することもできます。この機能を使用すると、タスクのワークフローを作成することなしでデータをスクレイピングすることができます。詳細については、こちらをご覧ください:タスクテンプレート

次のURLを例として使います。

Octoparseを使用して、ホテル名、住所、評価、レビュー、レビュー数などのデータをスクレイピングします。

主な手順は右側のメニューに表示されています。こちらからサンプルタスクをダウンロードできます。


1. ウェブページを開く - 対象のウェブページを開く

  • ホームページにURLを入力してください。

  • スタートボタンをクリックしてください。


2. ウェブページのデータを自動検出 - ワークフローを作成する

  • ウェブページのデータを自動検出をクリックします。

  • スクロールダウンを設定するのチェックを外します。

  • ワークフローを生成をクリックします。

  • 必要に応じてフィールドの順序を調整します。

  • フィールドを削除したり名前を変更します。

フィールドを削除したり名前を変更したりするのも便利です。自動検出後に不要なフィールドを一緒に削除することができます。

フィールドを削除および名前を変更するには、縦向き表示アイコンをクリックして縦向き表示に切り替えます。フィールド名を変更するには、フィールド名をダブルクリックします。

各リンクをクリックしてより詳細な情報を取得したい場合は、次の手順に従います。


3. 各詳細リンクをクリック - 追加情報をスクレイピングする

  • ご希望のリンクを選択し、操作提案パネル上の選択した要素をクリックするを選択します。

  • ワークフローのループアイテムの中にアイテムをクリックステップが追加されます。


4. データを抽出 - 詳細ページでデータを抽出する

もしポップアップが表示された場合は、ブラウズモードをオンにして手動で閉じます。その後、オフにします。

  • 必要なデータを選択し、テキストをクリックします。

  • 必要に応じてフィールド名をダブルクリックして名前を変更します。


5. 待機時間を設定 - スクレイピング速度を遅くする

スクレイピングを過度に行うと、BookingがIPをブロックする可能性があるので、スクレイピングの速度を調整する必要があります。

  • データを抽出1をクリックします。

  • 詳細設定に移動します。

  • 実行前に数秒を待機にチェックを入れます。

  • 時間を5秒から10秒に設定します。

  • 保存をクリックします。


6. 抽出を開始 - タスクを実行してデータを取得する

  • 保存をクリックします。

  • 右上の実行をクリックします。

  • デバイス上でタスクを実行するには、ローカル抽出を選択します。または、クラウドでタスクを実行するには、クラウド抽出を選択します(プレミアムユーザーのみ)

以下はサンプル出力です。

こちらの回答で解決しましたか?