レッスン7:まとめ
フォローする今回の記事は、入門レッスンシリーズの最後のレッスンです。孤立したパズルのピースを一緒に置くように、今回はURLの入力から抽出されたデータのエクスポートまでのプロセスをまとめて説明します。
それでは、ゼロからスクレイピングタスクを構築する方法を復習しましょう!
1. 新しいタスクを作る
Octoparseアプリを開き、1.取得先のURLを検索ボックスに入力し、2.「抽出開始」をクリックして新しいタスクを作成します。
http://test-sites.octoparse.com/?product_cat=e-commerce-category-1
2. 自動識別でデータを取得する
Octoparseは内蔵ブラウザーにWebページのURLを読み込み、自動識別プロセスを自動的に開始します。 「操作ヒント」で識別完了、詳細の設定情報が表示されるまで待ちます。
3. データを確認する
自動識別が完了したら、データプレビューで識別されたデータを確認することができます。データフィールドの名前を変更したり、不要なフィールドを削除したりすることができます。識別されたデータは、Webページでもハイライト表示されます。
4.タスク設定を保存する
自動識別が完了したら、 検出されたデータのタイプに基づいて、「操作ヒント」には複数のオプションが表示されます。よく出てくるオプションは次のとおりです。
1. 該当ページのデータをを抽出する - Octoparseはこれが必要だと考えるため、このオプションはデフォルトで選択されています。
2. ページネーションを設定する - Octoparseはページ上のページ送りボタンを検出し、もし、複数のページからデータを抽出する場合は、このオプションを選択します。
(ヒント:検出されたボタンが正しいかどうかを確認するには、「プレビュー」をクリックすると、ボタンがハイライト表示されます。ページ送りボタンを再度選択する場合は、「編集」をクリックし、「操作ヒント」の指示に従ってください。)
3. スクロールダウンを設定する - 選択すると、Octoparseはページの下にスクロールしてさらにデータを読み込みます。一ページに多くのコンテンツがある場合出てきますので、今回の例ではありません。
(ヒント:「編集」をクリックすると、スクロールのタイプと実行間隔を設定することができます。)
設定を確認後、「ワークフローを生成」をクリックします。
Octoparseは、検出されたデータと保存された設定に基づいて、ワークフローを自動的に生成します。
もし詳細ページのデータも取得したいと、ワークフローにステップをもう1つ設定し、Octoparseがページ上の各商品リンクを自動的にクリックできるようにする必要があります。
「リンクされたページを開く」をクリックします。
「リンクされたページを開く」オプションを選択し、ドロップダウンメニューから「タイトルurl」を選択して「保存」をクリックします。
(ヒント:正しいリンクかどうかを確認するには、「プレビュー」をクリックすると、リンクがハイライト表示されます。)
ワークフローに「URLをクリック」ステップを追加できます。
5. 詳細ページからデータを選択する
設定を保存したら、詳細ページが表示されます。自動識別機能が再度始めますが、キャンセルして手動で選択することもできます。自動識別は先の一覧ページに最適に機能しますが、手動選択は個々のデータフィールドを選択する場合により効率的に機能します。
取得したいデータをクリックし、「操作ヒント」から「選択した要素のテキストを抽出する」を選択します。 すべてのデータフィールドに対して同じ手順を繰り返します。抽出されたデータをデータプレビューで確認し、必要に応じてフィールドの名前を変更します。
6. データフォーマット
抽出されたデータはそんなにきれいではない場合、例えば、今回取得したカテゴリのは「Category: E-COMMERCE Category 1」で、余分な「Category: 」を削除するには、データフィールドを調整する必要があります。
データプレビューで、クリーンアップするデータフィールドの「ほかのオプション」アイコンをクリックし、「データを再フォーマット」を選択します。
「ステップを追加」をクリックし、「置換」を選択します。
「Category: E-COMMERCE Category 1」から余分な「Category: 」を削除するには、検索文字列に「Category: 」を入力し、「置換」をクリックすると、置換結果には「E-COMMERCE Category 1」にクリーンアップされるのを確認できます。それで「保存」をクリックします。
7. タスクをテストする
これで、スクレイピングタスクを作成しました。前の記事で説明したように、ワークフローを段階的にテストすることをお勧めします。たとえば、「Webページを開く」をクリックすると、Webページが内蔵ブラウザで問題なく読み込まれます。
ワークフローにあるすべてのステップを上から下、内側から外側へとクリックし、Webページが期待どおりに動作しているかどうかを確認します。 タスクテストの詳細については、この記事をご参照ください。
すべてのステップをテストしたら、実行をテストすることができます。「実行」をクリックし、「ローカル抽出」を選択します。
ローカルデータの抽出状況は実行ログとブラウザーから見えます。
8. 実行スケジュールを設定する
タスクをテストしたところ、問題なく実行できます。ですから、クラウドでタスクを実行することにより、データをより速く抽出できます。また、定期的に実行するようにスケジュールすることもできます。
クラウドでタスクを実行するには、「実行」をクリックし、「クラウド抽出」を選択します。実行スケジュールを設定するには、「実行」をクリックし、「実行スケジュール」を選択します。
スケジュールを設定する時、 希望の頻度を選択し、実行の日時を指定することができます。
(ヒント:実行スケジュールはクラウドで実行します。)
9. データをエクスポートする
ダッシュボードに移動してタスクを見つけ、表示されるデータ件数をクリックすると、データプレビュー画面に移動します。データビュータブの右下隅にある「エクスポート」をクリックして、データをエクスポートすることができます。 Octoparseは、Excel、CSV、HTMLファイル、またはデータベースへのエクスポートをサポートしています。
これでタスク作成からデータエクスポートまでの作業がすべて終わりました!入門シリーズのチュートリアルは終わりましたが、これからはWebスクレイピングの旅の始まりです。
もしタスク作成、機能などご不明な点がございましたら、お気軽にお問い合わせください。