IPローテーション用のプロキシを設定する
フォローするサイトのスクレイピングは、スクレイピング先のサーバーに負荷をかけるため、あるサイトはIPブロックのようなスクレイビング防止対策を取ります。Octoparseでプロキシの手動設定は、外部プロキシー(または特定の国)からサイトにアクセスしたい場合や、クラウド抽出 の自動IPローテーション機能を使わなくご自分のプロキシを使う場合にとても便利です。また、「スクレイピング禁止」と書かれているサイトでのご利用は控えてください。
外部プロキシ有料設定機能を持つ他のスクレイピングツールとは異なり、Octoparseではすべてのユーザーがカスタマイズのプロキシを追加できます。IPアクセス拒否になったら、スクレイピングが進めません。したがって、プロキシまたはプロキシサーバーは、Webスクレイピングの不可欠な部分であり、匿名Webスクレイピングに広く使用されています。
ローテーションで外部プロキシを使うには:
タスクの配置が完了したら、ワークフローの上にある「設定」をクリックします。
(「設定」オプションは、ワークフローに「テキストを抽出する」ステップがある場合にのみ使用できます。)
「IPプロキシの利用」を選択し、「設定」をクリックしてカスタムプロキシを追加します。 現在、OctoparseはHTTPプロキシだけをサポートしています。プロキシサーバーのIPアドレスとポート番号をコロンで区切ります。例:58.22.214.29:2318
複数のIPがある場合は、「プロキシIP」に各プロキシを新しい行で追加します。
「OK」と「保存」をクリックして変更を保存します。ローカルでタスクを行うとき、Octoparseは設定のIPに従って実行します。
ヒント! プロキシのカスタマイズは、ローカル抽出 Octoparse有料版 |
プロキシを使ってIPアドレスを変更してOctoparseにログインする - インターネットの接続環境がプロキシサーバーを経由している場合(学校、企業など)、或いはプロキシサーバーを経由してIPアドレスを変更したい場合は、プロキシ設定を行います。
ログイン画面で、「設定」ボタンをクリックし、必要な情報を入力してください:
接続をテストするには、「テスト」ボタンをクリックします。 成功すると、以下の提示が出てきます。
関連記事:
From: https://www.octoparse.jp/tutorial/set-up-proxies/