レッスン1:自動識別機能でデータを抽出する
フォローする前回の記事では、Octoparseに関する基本機能を紹介しました、今回はWebスクレイピングの本番に入ります。
ほとんどのWebサイト(ECサイト、不動産サイトなど)は同様のレイアウトを持っています。例えば、検索結果のページでは、リストのようなコンテンツが多くあります。下記のサンプルを見てみましょう。
Amazon.co.jp
Octoparseの自動識別機能は、このようなページをスクレイピングするように設計されています。 各項目のデータ(テキストとリンクを含む)、「次のページ」ボタン、「もっと見る」ボタン、およびページのスクロールダウンを自動的に検出し、スクレイピングタスクを自動的に生成することができます。
このレッスンでは、自動識別機能を利用してWebページからデータをスクレイピングする方法を紹介します。
1. 新しいタスクを作る
ホーム画面の中央にある検索ボックスに、サンプルURL「http://test-sites.octoparse.com/?product_cat=e-commerce-category-1」を入力し、 「抽出開始」をクリックして、カスタマイズモードで新しいタスクを作成します。
2. 自動識別でデータを取得する
Octoparseは内蔵ブラウザーにWebページのURLを読み込み、自動識別プロセスを自動的に開始します。 「操作ヒント」で識別完了、詳細の設定情報が表示されるまで待ちます。
3. データを確認する
自動識別が完了したら、データプレビューで識別されたデータを確認することができます。データフィールドの名前を変更したり、不要なフィールドを削除したりすることができます。識別されたデータは、Webページでもハイライト表示されます。
4. オプションを確認する
自動識別が完了したら、 検出されたデータのタイプに基づいて、「操作ヒント」には複数のオプションが表示されます。この例では、次のオプションが提供されます。
1. 該当リストにあるデータを抽出する
このオプションはデフォルトで選択されています。
2. ページネーションを設定する
複数ページからデータを抽出する場合は、このオプションを選択します。
✅検出されたボタンが正しいかどうかを確認するには、「プレビュー」をクリックすると、ボタンがハイライト表示されます。ページ送りボタンを再度選択する場合は、「編集」をクリックし、「操作ヒント」の指示に従ってください。
3.スクロールダウンを設定する
選択すると、Octoparseはページの下にスクロールしてさらにデータを読み込みます。一ページに多くのコンテンツがある場合が出てきます。今回の例ではありません。
💡「編集」をクリックすると、スクロールのタイプと実行間隔を設定することができます。
5.タスク設定を保存する
設定を確認後、「ワークフローを生成」をクリックします。
Octoparseは、検出されたデータと保存された設定に基づいて、ワークフローを自動的に生成します。 今すぐタスクを実行するか、またはワークフローを編集することができます。
次へ
レッスン2:タスクを最適化する