サイトのスクレイピングは、スクレイピング先のサーバーに負荷をかけるため、あるサイトはIPブロックのようなスクレイビング防止対策を取ります。Octoparseでプロキシの手動設定は、外部プロキシー(または特定の国)からサイトにアクセスしたい場合や、クラウド抽出 の自動IPローテーション機能を使わなくご自分のプロキシを使う場合にとても便利です。また、「スクレイピング禁止」と書かれているサイトでのご利用は控えてください。
有料の外部プロキシ設定機能を持つ他のスクレイピングツールとは異なり、Octoparseではすべてのユーザーがカスタマイズのプロキシを追加できます。IPアクセス拒否は、スクレイピングに発生する問題の1つです。ですから、プロキシまたはプロキシサーバーは、Webスクレイピングの不可欠な部分であり、匿名Webスクレイピングに広く使用されています。
ローテーションに外部プロキシを使うには:
タスクの設定が完了したら、ワークフローの上にある「設定」をクリックします。
(「設定」オプションは、ワークフローに「テキストを抽出する」ステップがある場合にのみ使用できます。)
「IPプロキシを使う」を選択し、「設定」をクリックしてカスタムプロキシを追加します。 現在、OctoparseはHTTPプロキシだけをサポートしています。プロキシサーバーのIPアドレスとポート番号をコロンで区切ります。例: 58.22.214.29:2318
複数のIPがある場合は、「IPプロキシ」に各プロキシを新しい行で追加します。
「OK」と「保存する」をクリックして変更を保存します。ローカルでタスクを行うとき、Octoparseは設定のIPに従って実行します。
ヒント! プロキシのカスタマイズは、ローカル抽出 Octoparse有料版 |
プロキシを使ってIPアドレスを変更してOctoparseにログインする - 学校または企業のイントラネットが外部アクセスを制限するせいで、Octoparseにログインできない場合、プロキシを使ってOctoparseを使用します。
これを行うには、「IPプロキシを使う」をクリックし、必要な情報を入力してください:
接続が成功したかどうかをテストするには、「テスト」ボタンをクリックします。 成功すると、以下の提示が出てきます。
関連記事: