多くのWeb所有者が、スクレイパーをブロックするためのあらゆる種類のスクレイピング防止技術をサイトに装備しているため、Webスクレイピングがより困難になっています。この記事では、Octoparseでアンチブロックするためのテクニックを紹介します。
1.待機時間を設定して、スクレイピングを遅くする
ほとんどのWebサイトは、1つのIPアドレスのアクセス速度を検出することによりブロックします。ワークフローにある各オプションの実行前の待ち時間を設定して、スクレイピング速度を制御できます。スクレイピングをより人間らしくするための「ランダム」オプションもあります。
2. IPローテーションを設定する(ローカル抽出のみ)
サイトが単一のIPアドレスから多数のリクエストがあることを検出すると、IPアドレスを簡単にブロックします。同じIPアドレスを介してすべての要求を送信しないようにするには、プロキシサーバーを使用できます。
Octoparseローカル抽出により、ユーザーはIPローテーション用のプロキシを設定してブロックされないようにすることができます。
3.UA(ユーザーエージェント)を切り替えてCookieをクリアする
異常に多数のリクエストに同じUAを使用すると、ブロックにつながります。ブロックを避けるるには、UAを自動切り替える必要があります。
Octoparseを使用すると、クローラーでUAの自動ローテーションを簡単に有効にして、ブロックされるリスクを減らすことができます。

また、一部のWebサイトでは、ページへのアクセスに使用するCookieを記憶している場合があります。 Cookieを自動的にクリアして、初めてページにアクセスするようにすることができます。

ヒント!
Octoparseブロッキング防止設定について参考してください。 |