クラウド抽出とは?
一週間前以上前にアップデートされました

Octoparseは、プレミアムユーザー(スタンダード&プロフェッショナル&エンタープライズ)のために、タスクを24時間365日実行できる強力なクラウドプラットフォームを提供しています。

タスクをクラウド抽出で実行すると、OctoparseのIPを使用する複数のサーバーを利用できます。アプリケーションをシャットダウンしたり、コンピューターの電源を切っても、タスクは実行を継続します。ハードウェアの制限を心配する必要はありません。抽出されたデータはクラウドに保存され、いつでもアクセスできます。

タスクスケジュールも、Octoparseのクラウド抽出でサポートされています。最新の情報を取得するために、必要な頻度でタスクをスケジュール実行できます。


1. クラウド抽出でタスクを実行する:

タスクの設定が完了したら、「実行」をクリックし、「クラウド抽出」の「通常モード」または「加速モード」を選択して、クラウドで実行を開始します。

タスクがクラウドでの実行に設定されると、ダッシュボード上のステータスが「実行中」に変更されます。


2. クラウド抽出でタスクをバッチ実行する:

実行が必要なタスクを選択し、「クラウド抽出を起動」をクリックすると、それらのタスクがまとめてクラウドで実行されます。


3. クラウド抽出の設定:

Octoparseのクラウド抽出では、複数のタスクを同時に実行できます。

スタンダードプランでは、最大6つのタスクを同時実行できます(クラウドサーバーは最大6台)。プロフェッショナルプランでは、最大20個のタスクを同時実行できます(クラウドサーバーは最大20台)。並行して実行するタスクの最大数を設定するには、ドロップダウンオプションから希望の数をクリックして選択します:

TIPS:

  • クラウド抽出のパフォーマンスは?

タスクが分割可能な場合、クラウドでデータを抽出する方が、ローカルでタスクを実行するよりもはるかに高速になります(タスクが分割可能な場合についてはこちらをご覧ください)。

分割可能なタスクは、複数のサブタスクに分解でき、それらのサブタスクを同時に複数のサーバーで実行できるため、抽出が速くなります。

  • 許可されている最大数よりも多くのタスクを実行できますか?

はい、できます。ただし、一部のタスクは、前のタスクが完了してさらに多くのクラウド サーバーが利用可能になるまで待機されます。


4. クラウドでの実行をスケジュールする:

4.1 一つのタスクの場合

タスクの設定が完了したら、実行 をクリックし、クラウド抽出の自動化設定を選択します。

頻度を選択し、必要に応じて時間と日付をカスタマイズします。スケジュールを起動 をクリックすると、タスクがスケジュールに従って実行されます。

次の実行のタイミングは、ダッシュボードの 次の実行 列で確認できます。

スケジュールされた実行をキャンセルするには、もっと をクリックし、クラウド抽出スケジュール停止を選択します。

4.2. タスクグループの場合

ダッシュボードに移動し、タスクグループ ビューに切り替えます。対象のタスクグループを選択して、時計のアイコンをクリックし、そのタスクグループのスケジュールを設定します。


5. よくある質問

5.1. Octoparseクラウドプラットフォームのデフォルトのタイムゾーンは?

ダッシュボードに表示される次回実行時間は、デフォルトでは現地のタイムゾーン(OSに基づく)を基準としています。ただし、クラウドで「現在時刻」に抽出するタスクを作成した場合、抽出される時刻と日付は、実際の場所に関係なくUTC±00:00になります。

このチュートリアルに従って、データのタイムゾーンを変換できます: 別のタイムゾーンに現在時刻フィールドを変換する

5.2.タスクを複数回実行すると重複したデータが取得されるのはなぜですか?

Octoparse は、すべての実行から収集されたデータをまとめて保存し、重複を認識します。重複はクラウドから自動的に削除されます。タスクを 2 回目に実行すると、新しいデータのみが保持されます。

すべての重複を保持したい場合は、次のチュートリアルを参照してください:クラウド実行で重複データを保持する方法は何ですか?

5.3.クラウドタスクの同時実行とは?

同時実行のクラウドタスクは、同時に実行できるタスクの最大数を指します。もしスタンダードプランに登録している場合、最大で6つのタスクを同時にクラウドで実行できます。これは、あなたが最大で6つのクラウドサーバーを持っているためです(1つのタスクを実行するには少なくとも1つのサーバーが必要です)。

ただし、あるタスクが分割可能で、それによってアカウントのサーバーが一つ以上、または全て占有されてしまうと、その他のタスクはクラウドのリソースが利用可能になるまで待機状態になるかもしれません。このような場合は、タスクが並んでいることがあります。タスクの分割について詳しくは、このチュートリアルをご覧ください:「クラウド上でデータを高速にスクレイピングする方法はありますか?

5.4. 同時実行数に影響する要因とは?

主に同時実行数に影響する要因は2つあります。

  1. 使用可能なクラウドサーバーの数

  2. 実行中のタスクが占有するクラウドサーバー数

例えば、スタンダードプランを利用していて、最大6つのクラウドサーバーを使用できる場合を考えます。6つのタスクがあるとしますが、各タスクが実行時に1サーバーずつを占有する場合、同時に6つのタスクが実行されます。

ただし、ある1つのタスクが2サーバー(複数のサブタスクに分割されている)を占有する場合は、同時に実行できるタスク数は4つになります。そのタスクが6サーバーを全て占有する場合は、同時に1つのタスクしか実行できません。

以上のように、使用可能なクラウドサーバー数と、実行中タスクが占有するクラウドサーバー数が、同時実行数に影響します。

こちらの回答で解決しましたか?