Octoparseブロッキング防止設定
フォローする一部のWebサイトはWebスクレイピングに非常に敏感であり、IPブロッキングなどのスクレイピング対策を講じて、考えられるスクレイピングアクティビティを回避しています。
このチュートリアルでは、ブロックされる可能性を減らすために、このタスクを実行する前に、タスクのワークフローの上にある「設定」でOctoparseアンチブロッキングを設定する方法を紹介します。
IPプロキシの利用
外部プロキシ(特定の国など)を使用してWebサイトにアクセスする場合、またはクラウド抽出の自動IPローテーション機能を使用する代わりに独自のプロキシを使用する場合は、
- 「IPプロキシIPの利用」チェックボックスをオンにして、「設定」をクリックします。
- プロキシIPと、プロキシを切り替間隔の秒数を入力します。
- 「はい」をクリックして変更を保存します。
Octoparseは、タスクが実行されているときに、設定に従ってプロキシを自動的に切り替えます。
ブラウザ(ユーザーエージェント)の自動切り替え
ブラウザは、アクセスするWebページのユーザーエージェントとして知られているものを送信します。これは、ページにアクセスしているデバイスの種類をターゲットWebサイトに伝える文字列です。同じユーザーエージェントでWebサイトを頻繁にスクレイピングすると、スクレイピングボットアクティビティとして検出されやすくなります。したがって、この機能を使用すると、ブロックされる可能性を減らすことができます。
ブラウザの自動切り替えを設定するには:
- 「ブラウザの自動切り替え」のチェックボックスをオンにします。
- 「設定」をクリックして、ユーザーエージェントのタイプを設定します。
WebサイトをスクレイピングするときにOctoparseが「PC経由で」Webサイトにアクセスするようにするには、「すべて選択」のチェックボックスをオンにし、「Chrome / Firefox / Safari for mobile」のチェックボックスをオフにします。
OctoparseがWebサイトに「モバイル経由」でアクセスするようにしたい場合は、「Chrome / Firefox / Safari for mobile」のチェックボックスのみをオンにしてください。
※選択したユーザーエージェントがすべてのWebサイトで動作するわけではないため、テストが必要になる場合があります。
- 「保存」をクリックして変更を保存します。
- 「実行間隔」のチェックボックスをオンにして、ユーザーエージェントを切り替える時間を分単位で選択するか、「IPを切り替えるときに切り替える」チェックボックスをオンにします。
Octoparseは、タスクがローカルまたはクラウドで実行されているときに、設定に従ってユーザーエージェントを自動的に切り替えます。
クッキーの自動クリア
同じクッキーを使用してWebサイトを非常に一貫してスクレイピングすると、スクレイピングボットアクティビティとして簡単に検出されます。 したがって、この機能を使用すると、ブロックされる可能性を減らすことができます。
- 「Cookieの自動クリア」チェックボックスをオンにします。
- 「実行間隔」のボックスをオンにして、ユーザーエージェントを切り替える分数を選択するか、「プロキシIPを切り替えながらクリアする]ボックスをオンにします。
Octoparseは、タスクがローカルまたはクラウドで実行されているときに設定したクッキーを自動的にクリアします。
Octoparseブロッキング防止を設定したら、「保存」をクリックして設定を保存できます。