なぜOctoparseは最初のアイテムだけを抽出して重複のデータを取得するのですか?
フォローする「ループアイテム」は、Octoparseでは非常に重要です。なぜなら、これは、スクレイピング・タスクを構築する際に最も頻繁に使用される手順の1つです。
Octoparseが最初のアイテムのみを抽出して重複のデータを取得するタスクがある場合は、そのタスクで作成した「ループアイテム」を修正する必要があります。
発生した原因は主に2つがあります。
1) 抽出対象のデータが選択領域にありません。(たとえば、タイトルだけを選択してループを作成するで、タイトル以外のデータをクリックして抽出するなど)
通常、リストページからデータを抽出する必要があるときにこの間違いはよく発生します。
この場合、「ループアイテム」全体を削除し、再構築する必要があります。ループを作成するには、領域全体をアイテムとして選択しなければなりません。(データ抽出は選択した領域でのみ可能です。)領域全体を直接選択できない場合は、「操作ヒント」のこのアイコンをクリックして必要なすべてのデータを含めるまで領域を拡大します。
2) ループを終了すると、Octoparseは最初の項目を赤色でマークします。下のスクリーンショットの表示のように、最初の項目からデータの抽出を始めるように指示します。
しかしOctoparseのヒントに従わず、2番目のアイテムまたは他のアイテムからデータを抽出し始めると、Octoparseは2番目のアイテムまたは他のアイテムのデータをスクレイピングし、重複のデータを生成する可能性があります。「データを抽出する」のステップを削除し、Octoparseの指示に従ってループ内に「データを抽出する」の新しいステップを追加してください。
以下の手順に従って、「ループアイテム」を手動でチェックすることができます。
- 下のスクリーンショットに示すように、「ループアイテム」の最初のアイテムをクリックすると、抽出されたデータをチェックできます。
- 「ループアイテム」の2番目のアイテムをクリックしてデータを確認します。 2番目のアイテムを選択しても抽出されたデータが常に同じ場合は、上記の解決策に従ってタスクを修正する必要があります。
From: https://www.octoparse.jp/tutorial/only-extract-the-first-item-and-produce-duplicates/