Octoparseで作ったWebスクレイピングタスクは、ローカルコンピューター(ローカル抽出) またはクラウド (クラウド抽出 )で実行できます。ローカルでタスクを行うと、
1) ワークフローの問題をトラブルシューティング/デバッグ
2) クラウドリソースを利用せずにデータを抽出する
ヒント!
ローカル抽出は、無料版と有料版両方にも利用できます。無料版の場合、毎回出力データ数が10,000件と並行処理が2件に制限されています。有料版ならその制限はありません。 |
このチュートリアルでは、次の機能について説明します。
次に、タスクの実行プロセスが見られるし、取得したデータもを表示できます。
ローカル抽出の設定
タスク実行中、ローカルタスクの「抽出設定」を変更できます。Octoparseはこれらの3つの機能をデフォルトで無効にします。タスクの要件に基づいて有効にできます。
画像の読み込み: 画像の読み込みを無効にして、Webページを開く時間を短くします。
ブロッキング対策設定: ブラウザを切り替えたり、Cookieをクリアしたりすることによって、ブロックされる可能性を低くします。
ヒント! 1. ローカルタスクはどこで実行されますか? ローカル抽出でローカルコンピューターでクローリングします。あるWebサイトでは同じIPの訪問時間を制限する場合があります。このような状況下では、制限を超えるなら、ブロックされる可能性があります。 2. ローカル抽出は何に影響しますか? クローリングはローカルマシン上で実行されているため、ネットワークの速度とハードウェアの性能に影響します。 |
関連記事: