「HTTPステータスコード200」エラーをどうやって修正しますか?
フォローするOctoparseは抽出開始後にエラーがある場合は、「抽出したデータ」フィールドの横に[抽出エラーレポート]が生成されます。「データを抽出できません。HTTPステータスコード:200」というエラーメッセージがよく出てきませんか。それではこのチュートリアルでこのエラーに対処する方法を説明します。
「HTTPステータスコード200」エラーはどういう意味ですか。
HTTPステータスコード200は「OK」の意味で、リクエストは成功し、レスポンスとともに要求に応じた情報が返されます。つまり、OctoparseはWebページを正常に読み込みますが、データの抽出に失敗しました。
どうやって修正しますか?
まず、Webページに抽出したいデータが含まれているかどうかを確認する必要があります。Webページにデータが含まれている場合は、以下の状況を参照してください。
1. データはOctoparseによって読み込まれるのではありません。Octoparseがデータを抽出しようとしましたが、失敗しました。
この場合、実行する前にデータを読み込むには、Octoparseのページ読込み時間を長くしなければなりません。「データを抽出する」ステップで「高級オプション」にある「実行前に○秒を待つ」または「次の要素を見つける」を設定してください。
データを完全に読み込むためにOctoparseを自動的にスクロールダウンさせる場合があります。「Webページを開く」ステップで「高級オプション」の「スクロールダウン」チェックボックスをオンにして、ページをスクロールダウンする方法を設定することができます。たとえば、「スクロール回数」を1回、「間隔」を1秒、「スクロールダウン方法」を「画面を1つずつスクロール」を設定します。
2. データは一部のWebページで見つけられますが、ページネーションした後、他のページでは見つけられません。これは、Webページの構造が異なるため、XPathがすべてのデータを見つけることができません。すべての要素を正しく見つけるにはXPathを変更する必要があります。
ヒント! XPathの初心者はまずHTMLとXPathの基本知識を了解する必要があります。参考になるチュートリアルがあります:HTML | XPath |
3. OctoparseはWebページを認識できません。この状況は主にループ内でリンクをクリックする後に発生します。Octoparseは、新しいWebページを開いた後にそれを認識してデータを抽出するようになっています。しかし、新しいWebページを認識できなければ、Octoparseは前のページを認識したままになります。したがって、Octoparseはターゲットとなるデータを抽出できません。この状況を修復するには下記のgifのようにワークフローを修復してください。