世界観光機関(UNWTO)によると、2017年の世界の観光客の総数は、前年と比べ7%増加して約13億2,220万人を果たしました。旅行業の発展に伴い、Booking.com、TripAdvisor.com、Airbnb.comなど世界のオンライン旅行代理店が急速に上場し、これまで以上に簡単にホテル、航空券の情報を入手できます。
このチュートリアルでは、WebスクレイピングツールOctoparseを使って、Booking.comからホテルの情報をスクレイピングする方法を説明します。
また、Octoparseのメイン画面にある「テンプレートタスク」に移動し、利用準備が整ったテンプレートを直接使用して時間を節約することもできます。この機能を使用すると、タスクのワークフローを作成することなしでデータをスクレイピングすることができます。詳細については、こちらをご覧ください:タスクテンプレート
次のURLを例として使います。
Octoparseを使用して、ホテル名、住所、評価、レビュー、レビュー数などのデータをスクレイピングします。
主な手順は右側のメニューに表示されています。こちらからサンプルタスクをダウンロードできます。
1. ウェブページを開く - 対象のウェブページを開く
ホームページにURLを入力してください。
スタートボタンをクリックしてください。
2. ウェブページのデータを自動検出 - ワークフローを作成する
必要に応じてフィールドの順序を調整します。
フィールドを削除したり名前を変更します。
フィールドを削除したり名前を変更したりするのも便利です。自動検出後に不要なフィールドを一緒に削除することができます。
フィールドを削除および名前を変更するには、縦向き表示アイコンをクリックして縦向き表示に切り替えます。フィールド名を変更するには、フィールド名をダブルクリックします。
各リンクをクリックしてより詳細な情報を取得したい場合は、次の手順に従います。
3. 各詳細リンクをクリック - 追加情報をスクレイピングする
ご希望のリンクを選択し、操作提案パネル上の選択した要素をクリックするを選択します。
ワークフローのループアイテムの中にアイテムをクリックステップが追加されます。
4. データを抽出 - 詳細ページでデータを抽出する
もしポップアップが表示された場合は、ブラウズモードをオンにして手動で閉じます。その後、オフにします。
必要なデータを選択し、テキストをクリックします。
必要に応じてフィールド名をダブルクリックして名前を変更します。
5. 待機時間を設定 - スクレイピング速度を遅くする
スクレイピングを過度に行うと、BookingがIPをブロックする可能性があるので、スクレイピングの速度を調整する必要があります。
データを抽出1をクリックします。
詳細設定に移動します。
実行前に数秒を待機にチェックを入れます。
時間を5秒から10秒に設定します。
保存をクリックします。
6. 抽出を開始 - タスクを実行してデータを取得する
保存をクリックします。
右上の実行をクリックします。
デバイス上でタスクを実行するには、ローカル抽出を選択します。または、クラウドでタスクを実行するには、クラウド抽出を選択します(プレミアムユーザーのみ)
以下はサンプル出力です。