クラウド抽出(クラウドスクレイピング)
フォローする優れた点は?
1.高効率で安定
クラウドプラットフォームは複数のサーバーとOctoparseのIPアドレスを利用してタスクを実行し、高効率で安定したデータ抽出を実現します。ローカルデバイスをシャットダウンしたり、ネットワーク接続を切断しても、タスクはクラウド上で続行されます。
2.ローカルデバイス不要
クラウドスクレイピングを利用すると、タスクを実行するために独自のコンピューターやサーバーが不要です。すべてのタスクはクラウドサーバー上で実行されますので、Octoparseのクライアントにログインしてタスクを設定するだけでOKです。
3.大規模データ抽出
クラウドスクレイピングは大規模なデータ抽出に対応しています。クラウド側の計算リソースと帯域幅を利用して複雑なタスクや大量のデータを処理します。
百万件データ抽出可能
4.スケジュール起動
クラウドプラットフォームはタスクの自動スケジュールをサポートしており、必要に応じてタスクの定期実行を設定して最新のデータを取得できます。
5.データの安全性
クラウドプラットフォームは抽出したデータをクラウド上に保存し、データの安全性とアクセス可能性を確保します。
利用方法
クラウド抽出でタスクを起動する
タスクの設定が完了したら、「実行」をクリックして「クラウド抽出」を選択することができます。
またはダッシュボードでタスクの起動ボタンをクリックすることもできます。
スケジュール実行
並行クラウドタスク数を設定するには、各タスクのメニューアイコンをクリックし、ドロップダウンメニューの「クラウド抽出」⇒「実行スケジュールを設定」から希望のする数を選択します。「実行スケジュール」を選択します。
クラウド抽出の状況を確認する
よくある質問
同時利用数とは何ですか?
同時利用数とは、同時に実行できる最大タスク数を意味します。スタンダードプランを利用している場合、最大で6つのクラウド抽出を同時に実行できます。なぜなら、最低1つのサーバーが必要であり、6つのクラウドサーバーがあるからです(1つのタスクには少なくとも1つのサーバーが必要です)。
ただし、1つのタスクがすべてのサーバーを占有することもありますので、タスクが待機することがあります。1つのタスクがすべてのサーバーを占有した場合、他のタスクはクラウドリソースを実行するために待たなければなりません。タスクの分割についての詳細はこのチュートリアルを参照してください:クラウドでデータをより速くスクレイピングする方法は?
同時実行数に影響する要因は何ですか?
同時実行数に影響を及ぼす主な要因は、1)持っているクラウドサーバーの数と2)実行中のタスクが使用するサーバーの数です。
例えば、スタンダードプランを利用している場合、最大で6つのクラウドサーバーが利用できます。6つのタスクがあり、これらのタスクが実行時にそれぞれ1つのサーバーを使用する場合、同時に6つのタスクが実行されることになります。
もし1つのタスクが2つのサーバーを占有する場合(2つ以上のサブタスクに分割されている場合)、同時に実行されるタスクは4つになります。もし1つのタスクが6つのサーバーを占有する場合、同時に実行されるタスクは1つになります。