ブロッキング防止対策
一週間前以上前にアップデートされました

一部のWebサイトはWebスクレイピングに非常に敏感であり、IPブロッキングなどのスクレイピング対策を講じて、考えられるスクレイピングアクティビティを回避しています。

このチュートリアルでは、ブロックされる可能性を減らすために、このタスクを実行する前に、タスクのワークフローの上にある「設定」でOctoparseアンチブロッキングを設定する方法を紹介します。


IPプロキシの利用

外部プロキシ(特定の国など)を使用してWebサイトにアクセスする場合、またはクラウド抽出の自動IPローテーション機能を使用する代わりに独自のプロキシを使用する場合は、

  1. タスク設定」をクリックし、「ブロッキング対策設定」を選択します。

  2. プロキシサーバの利用」チェックボックスをオンにして、「カスタマプロキシサーバ」の隣の「設定」をクリックします。

  3. プロキシIPと、プロキシを切り替え間隔の秒数を入力します。

  4. はい」をクリックして変更を保存します。

Octoparseは、タスクが実行されているときに、設定に従ってプロキシを自動的に切り替えます。


ブラウザ(ユーザーエージェント)の自動切り替え

ブラウザは、アクセスするWebページのユーザーエージェントとして知られているものを送信します。これは、ページにアクセスしているデバイスの種類をターゲットWebサイトに伝える文字列です。同じユーザーエージェントでWebサイトを頻繁にスクレイピングすると、スクレイピングボットアクティビティとして検出されやすくなります。したがって、この機能を使用すると、ブロックされる可能性を減らすことができます。

ブラウザの自動切り替えを設定するには:

  1. ブラウザの自動切り替え」のチェックボックスをオンにします。

  2. 設定」をクリックして、ユーザーエージェントのタイプを設定します。

    WebサイトをスクレイピングするときにOctoparseが「PC経由で」Webサイトにアクセスするようにするには、「すべて選択」のチェックボックスをオンにし、「Chrome / Firefox / Safari for mobile」のチェックボックスをオフにします。OctoparseがWebサイトに「モバイル経由」でアクセスするようにしたい場合は、「Chrome / Firefox / Safari for mobile」のチェックボックスのみをオンにしてください。

    ※選択したユーザーエージェントがすべてのWebサイトで動作するわけではないため、テストが必要になる場合があります。

  3. はい」をクリックして変更を保存します。

  4. 実行間隔」のチェックボックスをオンにして、ユーザーエージェントを切り替える時間を分単位で選択するか、「プロキシサーバと同時に切り替える」チェックボックスをオンにします。

Octoparseは、タスクがローカルまたはクラウドで実行されているときに、設定に従ってユーザーエージェントを自動的に切り替えます。


クッキーの自動クリア

同じクッキーを使用してWebサイトを非常に一貫してスクレイピングすると、スクレイピングボットアクティビティとして簡単に検出されます。 したがって、この機能を使用すると、ブロックされる可能性を減らすことができます。

  • Cookieの自動クリア」チェックボックスをオンにします。

  • 実行間隔」のボックスをオンにして、ユーザーエージェントを切り替える分数を選択するか、「プロキシサーバを切り替えながらクリアする]ボックスをオンにします。

Octoparseは、タスクがローカルまたはクラウドで実行されているときに設定したクッキーを自動的にクリアします。

Octoparseブロッキング防止を設定したら、「保存」をクリックして設定を保存できます。

こちらの回答で解決しましたか?