ローカル抽出が動作しているのに、なぜクラウド抽出にデータがないのですか?
フォローするデータ抽出できない主な理由は以下と考えられます。
1) 対象Webサイトが完全に読み込まれない、または目標データが読み込まれていません。
Webサイトの読み込み時間は、インターネットの状態とサイト自体によって異なります。ローカルコンピュータでWebサイトをテストすると、読み込み時間がクラウドよりも短くなる可能性があります。
そのため、目標データが見つからない場合は、「Webページを開く」アクションのタイムアウトを長くしてみてください。
2) クラウドIPは、頻繁なスクレイピングのためサイトへのアクセスに制限されています。
多くのサイトでは、スクレイピング防止技術が適用されています。アクセスできる時間を制限し、制限を超えるIPをブロックする可能性があります。
一部のWebサイトでは、ある地域からのすべてのIPをブロックすることさえできます。たとえば、日本のWebサイトがカナダで開かれない場合があります。
あまりにも頻繁にスクレイピングによってブラックリストに載っているIPは、抽出を遅くするための待ち時間を追加することで解決できますが、現在のところ、OctoparseクラウドIPのすべてがアメリカに拠点を置くため、IP位置の制限は問題になります。残っています。
3) 対象Webサイトへのログインに失敗しました。
Webサイトをスクレイピングするためにログイン手順を設定したり、クッキーをタスクに保存すると、ローカル抽出は完全に機能しますが、実行中に回転するIPが異なるためクラウドの抽出に失敗することがあります。
多くのWebサイトはログインする前に認証を求めます。キャプチャのような認証はクラウド抽出では解決できません。
保存されたクッキーは常に有効な時間を持ち、有効期限が切れたときには動作しなくなります。これを解決するには、更新されたクッキーを取得して保存するために適切なアクションを追加して、再度ログインのステップを実行する必要があります(クッキーを保存する方法をご覧てください)。
4) クラウドで開いたときサイトのHTML構造は変わります。
Octoparseでは、Webデータを抽出するには、実際にソースコード/ HTMLファイルからコンテンツを取得することです。データを抽出するには、HTMLコードを認識する必要があります。
クラウドでWebサイトの構造が異なり抽出に失敗した場合があります。
たとえば、アメリカのIPでSephora.comを開くと、そのページはSephora.usにリダイレクトされます。異なる地域のサイトのデザインはまったく異なります。したがって、Octopareクラウド抽出を使用する場合は、対象サイトはIPの地域に応じてリダイレクトされないことを確認してください。
Webサイトがリダイレクトされなくても、異なるネットワーク条件下でソースコードは別のブラウザで少し変更することができます。
クラウド抽出に失敗した原因をどのようにわかるのですか?
From: https://www.octoparse.jp/tutorial/cloud-extraction-gets-no-data/