タスク分割
フォローする抽出モードには、ローカル抽出とクラウド抽出という2つの方法があります。
クラウド抽出を使う場合、Octoparseは多くのクラウドサーバーを備えたクラウドプラットフォームを提供し、いつでもデータ抽出を実行でき、ローカル抽出よりも約6〜20倍速くなります。クラウド抽出の詳細をご覧ください。
タスクが分割可能なら、一つのタスクは複数のサブタスクに分割され、サブタスクを同時に複数のサーバで実行できるため、抽出が高速になります。
分割可能なループモード
Octoparseでは、5つのループモードがあります。タスクには、URLリストループ、テキストリストループ、固定リストループの三つの中の一つを持つループが含まれている場合、タスクを分割できます。
1.「URLリスト」ループ
同じページ構造を共有する複数のページからデータを抽出する場合、OctoparseにこれらのページのURLを入力してループを設定することができます。Octoparseは、URLを1つずつ読み込み、各ページからデータを抽出します。
そのため、「URLリスト」ループのあるタスクがクラウド抽出で実行するように設定されている場合、Octoparseは、URLに基づいてそのタスクを複数のサブタスクに分割します。
「URLリスト」については、「複数のURLからデータを抽出する」と「URLの一括インポート」を参照してください。
2.「テキストリスト」ループ
「テキストリスト」ループは、「URLリスト」ループと非常によく似た方法で動作しますが、定義済みのテキストをループするために使用されます。
「テキストリスト」ループの詳細については、「テキストを入力」を参照してください。
3.「定数リスト」ループ
「定数リスト」ループは、Octoparseに固定のXPathリストを使用させて、各XPathに対応する要素を見つけて抽出させることです。同じレイアウトの要素をスクレイピングしたり、同じレイアウトのWebページに表示されているリンクをクリックしたりする場合は、「固定リスト」ループを使ってクラウド抽出を高速化できます。
分割不可なループモード
以下は、タスクを分割できない2つのループモードです。 ループモードで生成されるXPathは1つだけなので、この2種類のタスクは分割できません。
1.「単一要素」ループ
これは主に、ボタンをループクリックすることによってページネーションに使用されます。
2.「変数リスト」ループ
「定数リスト」とは異なり、「変数リスト」は、共有HTMLパターンに基づいて、1つのXPathですべての類似要素を取得するために使用されます。
どんな時タスクを分割しないほうがいいですか?
1. クラウドでいくつのタスクの同時実行する場合は「タスク分割」を無効にする
それは、タスクが多数のサブタスクに分割され、これらのサブタスクがクラウド内のすべてのサーバーを占有する可能性があるためです。すべてのサーバーが完全に占有されている場合、サーバーがリリースされるまで、新しいタスクや他のサブタスクは順番で待っています。
2. 対象のWebサイトはログインが必要で、同じアカウントへの同時ログインを禁止する場合は「タスク分割」を無効にする
3. Webページに表示されている順序と同じ順序でデータを抽出する場合は「タスク分割」を無効にする
「設定」で「タスク分割」を無効にすることができます。そうすると、タスクが分割可能であっても、クラウド抽出を開始した後このタスクが分割されません。「タスク分割」を無効にするには、まず「設定」をクリックし、「タスク分割を無効にする」にチェックを入れ、「保存する」をクリックします。