カスタムタスクの利用により、データスクレイピングのプロセスをより柔軟かつ効果的にカスタマイズすることが可能です。以下は、カスタムタスクを使用する際のいくつかの追加の利点です:
動的なウェブページのサポート:JavaScriptを使用して動的に生成されるコンテンツを含むウェブページからもデータを抽出することができます。
高度なデータ処理:抽出したデータをクリーンアップし、必要に応じて形式を変更するための高度なオプションを利用できます。
スケジュール設定:タスクを自動的に定期実行するためのスケジュールを設定することができます。
クラウド上での実行:タスクをクラウド上で実行することで、ローカルマシンのリソースを節約し、より高速にデータを抽出することが可能です。
これらの機能を活用することで、データスクレイピングのプロセスをより効率的かつ効果的に行うことができます。カスタムタスクを利用して、データスクレイピングの可能性を最大限に引き出し、ビジネスの成長を加速させましょう。
カスタマイズタスクで開始する
カスタムタスクを使用して新しいタスクをすばやく開始する方法は2つあります:
ホームページに直接アクセスし、対象のウェブページのURLを入力して「スタート」をクリックします。
Octoparseのロゴのすぐ下で、「新規作成」にマウスを合わせ、「カスタマイズタスク」を選択します。
カスタマイズタスクのインターフェースを知る
1.内蔵ブラウザ
対象のウェブページのURLを入力すると、そのウェブページがOctoparseの組み込みブラウザで読み込まれます。ブラウズモードでウェブサイトを閲覧するか、選択モードで必要なデータをクリックして抽出できます。
2.ワークフロー
ウェブページと対話する過程で、ウェブページを開いたり、ページ要素やボタンをクリックしたりすると、その全プロセスがワークフローとして自動的に定義されます。
3.操作提案
Octoparseはスマートなヒントを使用して、抽出プロセス中にあなたと「対話」し、タスク作成プロセスをガイドします。
4.データプレビュー
選択したデータのプレビューを表示できます。また、データフィールドの名前を変更したり、不要なものを削除したりすることもできます。
カスタマイズタスクでクローラを作成する方法
カスタムタスクを使用して手動でタスクを作成するには、ウェブページ上の目的のデータをクリックするだけです。ヒントパネルに表示されるヒントに従って、タスク作成プロセスを進めてください。一般的な作成手順はシンプルです:
ウェブページ上で必要なデータを選択 >>
ヒントパネルの指示に従う >>
ワークフローを確認 >>
タスクを実行してデータを取得
ウェブの性質上、ウェブページは常に変化し、異なる人々が異なるデータセットを必要とすることから、カスタムタスクは柔軟性と多様性を備えて作成されています。それでいて、アクションヒントでステップバイステップのガイダンスを提供することで、コーディングスキルがない方でも簡単に使用できます。
1.ウェブページ上で目的のデータを選択
組み込みブラウザを使用して、ウェブページから抽出したい任意のデータをクリックで選択します。ウェブページ上をホバーすると、Octoparseはカーソル周辺のページ要素をハイライト表示し、何をフェッチしたいかを「理解」しようとします。ハイライトされたエリアが抽出したい内容に十分近くない場合は、カーソルをわずかに動かして調整してください。
必要なデータが青でハイライト表示されたら、選択を確定するためにクリックします。選択したページ要素は緑でハイライト表示され、正常に選択されたことを示します。
同じページ上で複数の要素を抽出したい場合は、同じプロセスを繰り返してください。
2.操作提案に表示される指示に従う
Octoparseは、操作提案で可能な次のステップを提供することで、タスク作成プロセスをガイドしようと試みます。これはOctoparseがあなたと「対話」する方法です。
要素を選択するたびに、操作提案がポップアップし、選択肢がいくつか表示されます。提供された指示に従って、選択したデータをどのように処理するかを選択してください。例えば、選択した要素のテキストをスクレイプしたい場合は「テキスト」を選択し、選択した要素をクリックしてリンク先のページに移動したい場合は「要素をクリック」を選択します。
以下は最も頻繁に使用される操作です:
テキスト - 選択したページ要素のテキストをキャプチャ
選択したリンクをクリック - 選択したページ要素をクリック
InnerHtml & OuterHtml - 選択した要素のソースコード文字列をキャプチャ
ループクリック - 選択した要素を繰り返しクリック(次のページをクリックするループと同様)
リンク - 選択したリンクのURLをキャプチャ(リンクが選択された場合)
イメージURL - イメージのURLをキャプチャ(イメージが選択された場合)
ヒント:
ターゲット要素がカーソルでピンポイントできない場合は、操作提案の下部にあるHTMLタグを使用して選択を微調整できます。
選択範囲を拡張ボタン
は、現在の選択範囲を外側のHTMLタグに拡張するために使用できます。例えば、選択した要素を囲む全体を抽出したい場合は、拡張ボタンをクリックして緑でハイライト表示されるまでクリックし続けてください。
3.ワークフローを確認
スクレイピングタスクを作成すると、Octoparseは同時に、ウェブページとヒントパネルとのやり取りに基づいてワークフローを作成します。
ワークフローの例:
ヒント:
ワークフローをステップバイステップでテストする方法を学ぶには、このチュートリアルをチェックしてください:レッスン4:タスクをテスト実行する