クラウド抽出
フォローするクラウド抽出のメリット
1.スピードアップ
6〜20台のクラウドサーバーが同時にデータをスクレイピングできます。そのため、ローカル抽出より6〜20倍のスピードでスクレイピングできます。
2.キャプチャー(Captcha)を避ける
より多くのIPは一般的に検出される可能性が低いということを指しています。したがってCaptchaも自然に少なくなります。
3.ブロックされる可能性は低くなる
「クラウド抽出」を使ってタスクを実行すると、複数のサーバーでクラウド内で実行されます。タスクを実行するたびにこれらのIPは自動的にローテーションされるため、ターゲットのWebサイトにブロックされる可能性は低くなります。
4.自動保存
また、自動取得したデータはクラウドに保存され、どこでもアクセスできます。ハードウェア保守も不要だし、ネットワーク中断に心配する必要もありません。タスクのスケジュールもできます。
クラウド抽出を起動する
タスクの設定が完了したら、「実行」をクリックして「クラウド抽出」を選択することができます。
またはダッシュボードでタスクの起動ボタンをクリックすることもできます。
クラウド抽出の設定
クラウドでは、もしタスクが分割可能なら、タスクは複数のサブタスクに分割され、複数のサーバーに同時に実行できます。
タスク分割の詳細は次の記事をご覧ください:「タスク分割」とは?(クラウド抽出の高速化)
スタンダードプランでは、並行クラウドタスク数が6で、プロフェッショナルプランは20で、エンタープライズプランは40+です。
並行クラウドタスク数を設定するには、各タスクのメニューアイコンをクリックし、ドロップダウンメニューの「クラウド抽出」⇒「クラウドサーバーの割り当て」から希望のする数を選択します。
クラウドによる定期実行
並行クラウドタスク数を設定するには、各タスクのメニューアイコンをクリックし、ドロップダウンメニューの「クラウド抽出」⇒「実行スケジュールを設定」から希望のする数を選択します。「実行スケジュール」を選択します。
実行する頻度は: 一回/毎週/毎月/抽出間隔を選択できます。データの要件に合わせて時間と日付をカスタマイズして、「保存する」をクリックすると、スケジュールどおりにタスクが実行されます。
次の実行時間は、ダッシュボードで確認でき、 スケジュールをクリアすることもできます。
グループ表示モードに変更すると、タスクグループのスケジュールも設定できます。
ヒント! Octoparseクラウドプラットフォームの時間帯は何ですか? ダッシュボードに表示される次の実行時間は、現地時間にデフォルト設定されます(操作システムに応じて)。ただし、場所に関係なく、クラウド抽出の時刻/日付は、デフォルトの時間帯が0(UTC±00:00)です。現在、Octoparseは時間帯の変更をサポートしていません。 |
クラウド抽出の状況を確認します
新しいクラウドランウィンドウは、すべてのサブタスクのイベントログが取れます。また、特定のタイプのエラーが発生したときに、自動的にスナップショットを取ることもできるので、問題を素早く特定することができます。
各タスクの実行設定で「クラウドエラーログのキャプチャを取る」にチェックを入れたら、クラウド抽出する際、リアルタイムでキャプチャを取ることができます。
クラウド抽出を実行中、①「タスク実行」の②実行詳細をクリックすれば、タスクの進捗と画面を直接確認することできます。
ログイメージ