クラウド抽出にデータ欠落の対応方法を教えてください
フォローするデータの欠落は、以下のような原因が考えられます。
1. 設定された待機時間が短すぎる
ウェブサイトには、同じような部分がたくさんあります。 ブラウザでウェブページを開くと、ブラウザは自動的に現在のページのすべての情報をダウンロードします。 これにより、同じWebサイトの新しいページの読み込み速度を向上させることができます。
しかし、クラウド抽出を利用する場合、各クラウドサーバーがWebページの情報を再ダウンロードする必要があるため、ローカルの読み込み時間よりも長くなってしまいます。
2. 対象webサイトは多地域です。
多地域のウェブサイトは、異なる国の訪問者に向けて、異なるページ構成やコンテンツを提供することができます。クラウドサーバーに変更がない場合、タスクは米国サーバーで実行されます(必要であれば、デフォルトサーバーを日本リージョンに変更するよう連絡することも可能です)。
この場合、クラウド上で開くウェブサイトが日本ではなく、米国地域のものである可能性があります。
3. 1と2の両方の状況に当てはまる
一般的な解決策を以下に示します。
- Webページが完全にクラウドに読み込まれるようにするには、
1. 「Webページを開く」ステップのタイムアウト時間を増やす
2. 「データを抽出」ステップの待機時間を増やす
- webサイトが多地域であるかどうかを確認するには、
- ローカル抽出でタスクをテストします。
クラウド抽出のようにデータが欠落していない場合、webサイトはたぶん多地域です。この場合はローカル抽出を行い、データを取得することをお勧めします。
- ページ全体の外側HTMLを抽出します。
抽出されたHTMLをチェックすることで、ソースコード内に「Access denied」のようなデータ失われた原因を見つけることができます。
- リアルタイムで実行状況を確認する