レッスン7:まとめ!最初のスクレイピングタスクを構築する
フォローする今回の記事は、入門レッスンシリーズの最後のレッスンです。孤立したパズルのピースを一緒に置くように、今回はURLの入力から抽出されたデータのエクスポートまでのプロセスをまとめて説明します。
それでは、ゼロからスクレイピングタスクを構築する方法を復習しましょう!
1. 新しいタスクを作る
Octoparseアプリを開き、取得先のURLを検索ボックスに入力し、「抽出開始」をクリックして新しいタスクを作成します。
http://test-sites.octoparse.com/?product_cat=e-commerce-category-1
2. 自動識別でデータを取得する
Octoparseは内蔵ブラウザーにWebページのURLを読み込み、自動識別プロセスを自動的に開始します。 「操作ヒント」で識別完了、詳細の設定情報が表示されるまで待ちます。
3. データを確認する
自動識別が完了したら、データプレビューで識別されたデータを確認することができます。データフィールドの名前を変更したり、不要なフィールドを削除したりすることができます。識別されたデータは、Webページでもハイライト表示されます。
4.タスク設定を保存する
自動識別が完了したら、 検出されたデータのタイプに基づいて、「操作ヒント」には複数のオプションが表示されます。よく出てくるオプションは次のとおりです。
1. 該当ページのデータをを抽出する - Octoparseはこれが必要だと考えるため、このオプションはデフォルトで選択されています。
2. スクロールダウンを設定する - 選択すると、Octoparseはページの下にスクロールしてさらにデータを読み込みます。一ページに多くのコンテンツがある場合出てきますので、今回の例ではあります。
(ヒント:「編集」をクリックすると、スクロールのタイプと実行間隔を設定することができます。)
3. ページネーションを設定する - Octoparseはページ上のページ送りボタンを検出し、もし、複数のページからデータを抽出する場合は、このオプションを選択します。
(ヒント:検出されたボタンが正しいかどうかを確認するには、「プレビュー」をクリックすると、ボタンがハイライト表示されます。ページ送りボタンを再度選択する場合は、「編集」をクリックし、「操作ヒント」の指示に従ってください。)
4.「タイトルURL」をクリックして詳細ページのデータを抽出する - このオプションは、検出されたリンクをクリックして詳細ページから詳細情報を抽出するかどうかという意味です。これが必要な場合は選択してください。
(ヒント:正しいリンクかどうかを確認するには、「プレビュー」をクリックすると、リンクがハイライト表示されます。)
今回は詳細ページのデータも取得したいので、3番目と4番目のオプションを選択します。設定を確認後、「ワークフローを設定」をクリックします。
Octoparseは、検出されたデータと保存された設定に基づいて、ワークフローを自動的に生成します。
5. 詳細ページからデータを選択する
設定を保存したら、詳細ページが表示されます。自動識別機能が再度始めますが、キャンセルして手動で選択することもできます。自動識別は先の一覧ページに最適に機能しますが、手動選択は個々のデータフィールドを選択する場合により効率的に機能します。
取得したいデータをクリックし、「操作ヒント」から「選択した要素のテキストを抽出する」を選択します。 すべてのデータフィールドに対して同じ手順を繰り返します。抽出されたデータをデータプレビューで確認し、必要に応じてフィールドの名前を変更します。
6. データフィールドを調整する
抽出されたデータはそんなにきれいではない場合、例えば、今回取得したカテゴリのは「Category: E-COMMERCE Category 1」で、余分な「Category: 」を削除するには、データフィールドを調整する必要があります。
データプレビューで、クリーンアップするデータフィールドの「ほかのオプション」アイコンをクリックし、「データを再フォーマット」を選択します。
「ステップを追加」をクリックし、「置換」を選択します。
「Category: E-COMMERCE Category 1」から余分な「Category: 」を削除するには、検索文字列に「Category: 」を入力し、「置換」をクリックすると、置換結果には「E-COMMERCE Category 1」にクリーンアップされるのを確認できます。それで「保存」をクリックします。
ヒント!
|
7. タスクをテストする
これで、スクレイピングタスクを作成しました。前の記事で説明したように、ワークフローを段階的にテストすることをお勧めします。たとえば、「Webページを開く」をクリックすると、Webページが内蔵ブラウザで問題なく読み込まれます。
ワークフローにあるすべてのステップを上から下、内側から外側へとクリックし、Webページが期待どおりに動作しているかどうかを確認します。 タスクテストの詳細については、この記事をご参照ください。
すべてのステップをテストしたら、実行をテストすることができます。「実行」をクリックし、「ローカル抽出」を選択します。
抽出ウィンドウではデータ抽出の進捗状況が見えます。
8. 実行スケジュールを設定する
タスクをテストしたところ、問題なく実行できます。ですから、クラウドでタスクを実行することにより、データをより速く抽出できます。また、定期的に実行するようにスケジュールすることもできます。
クラウドでタスクを実行するには、「実行」をクリックし、「クラウド抽出」を選択します。実行スケジュールを設定するには、「実行」をクリックし、「実行スケジュール」を選択します。
スケジュールを設定する時、 希望の頻度を選択し、実行の日時を指定することができます。
(ヒント:実行スケジュールはクラウドで実行します。)
9. データをエクスポートする
ダッシュボードに移動してタスクを見つけ、表示されるデータ件数をクリックすると、データプレビュー画面に移動します。データビュータブの右下隅にある「エクスポート」をクリックして、データをエクスポートすることができます。 Octoparseは、Excel、CSV、HTMLファイル、またはデータベースへのエクスポートをサポートしています。
ヒント! 抽出されたデータをダウンロードする方法については、この記事をご覧ください。 |
これでタスク作成からデータエクスポートまでの作業がすべて終わりました!入門シリーズのチュートリアルは終わりましたが、これからはWebスクレイピングの旅の始まりです。
もしタスク作成、機能などご不明な点がございましたら、お気軽にお問い合わせください。