CAPTCHAs
フォローするこのページは、Octoparse の最新バージョン (8.5.4) のチュートリアルガイドを閲覧しています。もし、古いバージョンの Octoparse を使っているならば、アップグレードすることを強くおすすめします!より速く、より簡単に、より強固になります。まだアップグレードしていない場合は、こちらからダウンロードしてください。
CAPTCHAは、多くのウェブサイトでさまざまな形で適用され、よく見られるスクレイピング防止対策です。
スクレイピングの効率を上げるために、Octopraseは現在、hCaptcha, ReCaptcha V2, 画像Captchaの3種類のCaptchaを自動的に処理することができます。
hCaptcha と ReCaptcha V2 は同じように解決できますが、画像Captcha の解決はより複雑です。
このチュートリアルに従えば、それぞれの Captcha の基本を理解し、Octoparse で識別させることができるようになります。
hCaptcha、ReCaptcha V2とは?
- hCaptchaは通常、次のような組み合わせになっています。
- 「私は人間です 」ボタンとhCaptchaのロゴ
- 人間には簡単、機械には難しい質問が提示されます。
- ReCaptcha V2
ReCaptcha V2には通常、「私はロボットではありません」というボタンがあります、時にはhCaptchaと同様の簡単な質問が含まれている場合があります。
hCaptchaとRecaptcha V2を識別させる方法
- ワークフローの
を押します
- CAPTCHAを識別 を選びます
- CAPTCHAを識別 プロセスをクリックします
- CAPTCHAタイプを選びます
- 「保存」を押して保存します
注意:hCaptchaとReCaptchaは、実際のデータ実行が行われるまで自動的に解決されません。したがって、タスクを作成する際にはブラウズモードをオンにして手動で解決し、進行する必要があります。
画像Captchaとは?
画像Captchaは、人間が認証されるためのオリジナルの方法です。既知の単語やフレーズ、あるいは数字や文字のランダムな組み合わせを使用することができます。また、画像Captchaには、大文字小文字のバリエーションがあるものもあります。
画像Captchaを識別させる方法
チュートリアルに沿って画像Captchaを解決するためには、以下のURLをご利用ください。
https://democaptcha.com/demo-form-eng/image.html
Captchaの入力ボックスと画像を選択します
- Captcha用の入力ボックスをクリックします。
- 操作ヒントから[Captcha認証]を選択します。
- 画像をクリックする
- [ログイン]、[送信]、[確認]などのボタンをクリックする
認証失敗の流れをOctoparseに覚えさせます
- エラーメッセージをクリックします(この例では - Some errors were detected in your form...)
- ヒントパネルの「確認エラー」をクリックします
認証成功の流れをOctoparseに覚えさせます
- 「識別成功の流れを設定する」をクリックし、最後のステップに進みます。
- 認証画像に表示されているテキストを入力してください。
「ウェブページに適用し、配置を完了します」をクリックし、設定を完了します。
Octoparseは現在画像Captchaを自動的に識別できるようになりました。また、ワークフローにCAPTCHAを識別ステップが追加され、変更することもできます。
注意
- hCaptchaおよびReCaptcha V2は自動的に検出されるため、XPathを設定する必要はありません。画像CAPTCHAはXPathなしでは検出できません。設定内のXPathに注意してください。
- 1,000回のCAPTCHA解決ごとに1ドルの費用がかかります。1回のCAPTCHA解決試行は1つのCAPTCHAクレジットとしてカウントされます。したがって、1つのCAPTCHAを成功させるためにはいくつかのCAPTCHAクレジットが必要です。クレジットを追加するには「クレジットを追加」をクリックしてチャージすることができます。CAPTCHAクレジットは返金されません。Standard/Proプランのユーザーにはテスト用に一部のクレジットを提供しています。クレジットを購入する前にテストしていただけます。