一部のWebサイトはWebスクレイピングに非常に敏感であり、IPブロッキングなどのスクレイピング対策を講じて、考えられるスクレイピングアクティビティを回避しています。
このチュートリアルでは、ブロックされる可能性を減らすために、このタスクを実行する前に、タスクのワークフローの上にある「設定」でOctoparseアンチブロッキングを設定する方法を紹介します。
IPプロキシを使用する(ローカル抽出のみ)
外部プロキシ(特定の国など)を使用してWebサイトにアクセスする場合、またはクラウド抽出の自動IPローテーション機能を使用する代わりに独自のプロキシを使用する場合は、Octoparseでプロキシを手動でセットアップできます。IPローテーション用のプロキシを設定するを参照してください。
- 「IPプロキシを使う」チェックボックスをオンにして、「設定」をクリックします。
- プロキシと、プロキシを切り替えるための秒数を入力します。
- 「OK」をクリックして変更を保存します。
Octoparseは、タスクがローカルで実行されているときに、設定に従ってプロキシを自動的に切り替えます。
ブラウザーの自動切り替え(ユーザーエージェント)
ブラウザは、アクセスするWebページのユーザーエージェントとして知られているものを送信します。これは、ページにアクセスしているデバイスの種類をターゲットWebサイトに伝える文字列です。同じユーザーエージェントでWebサイトを非常に一貫してスクレイピングすると、スクレイピングボットアクティビティとして検出されやすくなります。したがって、この機能を使用すると、ブロックされる可能性を減らすことができます。
ブラウザーの自動切り替えを設定するには:
- 「ブラウザ(ユーザーエージェント)を自動切り替え」のチェックボックスをオンにします。
- 「設定」をクリックして、ユーザーエージェントのタイプを設定します。
すべてのUAがすべてのWebサイトで機能するわけではないため、テストが必要になる場合があります。WebサイトをスクレイピングするときにOctoparseが「PC経由で」Webサイトにアクセスするようにするには、「すべて選択」のチェックボックスをオンにし、「Firefox for mobile 29.0」のチェックボックスをオフにします。 OctoparseがWebサイトに「モバイル経由」でアクセスするようにしたい場合は、「モバイル版Firefox 29.0」のチェックボックスのみをオンにしてください。
- 「OK」をクリックして変更を保存します。
- 「カスタム間隔」のチェックボックスをオンにして、ユーザーエージェントを切り替える時間を分単位で選択するか、「IPを切り替えるときに切り替える」チェックボックスをオンにします。

Octoparseは、タスクがローカルまたはクラウドで実行されているときに、設定に従ってユーザーエージェントを自動的に切り替えます。
クッキーの自動クリア
同じクッキーを使用してWebサイトを非常に一貫してスクレイピングすると、スクレイピングボットアクティビティとして簡単に検出されます。 したがって、この機能を使用すると、ブロックされる可能性を減らすことができます。
- 「クッキーを自動削除する」チェックボックスをオンにします。
- 「カスタム間隔」のボックスをオンにして、ユーザーエージェントを切り替える分数を選択するか、「IPを切り替えときにクッキーを削除する]ボックスをオンにします。

Octoparseは、タスクがローカルまたはクラウドで実行されているときに設定したクッキーを自動的にクリアします。
Octoparseブロッキング防止を設定したら、「保存」をクリックして設定を保存できます。