データ重複排除の仕組み
フォローするWebデータをスクレイピングする時、抽出されたデータに重複データがある可能性があります。
Octoparseは、2つの重複排除方法を提供しております。必要に応じて、選択してください。
一、重複する行を削除する(デフォルト)
Octoparseでは、重複チェックの基準として、一行データのすべてのフィールド(列)、例えば、[商品名][価格][詳細]3項目(フィールド)がある、これら3項目がすべて一致する行が重複の行と見なされます。
システムは、重複データのうち1件を残して2件目以降を削除します。
下記の画像では、第1行と第3行の項目が同じで、重複の行と見なされ、第1行のデータが残されます。
二、重複するデータフィールドを削除する
V8.1.16以後のバージョンでは、タスクを作成する時、重複するデータフィールドの削除することを設定できます。(ご注意:現時点では、この機能はローカル抽出のみで有効です。)
選択したフィールド(項目)に従って、もしほかの行に同じフィールドがあれば、重複のデータと見なされます。選択されたフィールドが同じである限り、データは重複データと見なされ、選択されていないフィールドは自動的に無視されます。
システムは、重複データのうち1件を残して2件目以降を削除します。
例えば、[商品名][価格][詳細]3フィールドがある、「商品名」のみを選択すると、価格が違っても、重複とみなして削除してしまいます。
例1:下記の画像では、[フィールド2]を比較フィールドとする場合、第1行、第3行、第4行の[フィールド2]が同じで、第1行、第3行、第4行が重複とみなして、第1行のデータが残されます。
例2:下記の画像では、[フィールド2]と[フィールド3]を比較フィールドとする場合、第1行、第3行の[フィールド2]と[フィールド3]が同じで、第1行、第3行が重複とみなして、第1行のデータが残されます。
操作方法:
1:タスクを作成、任意の「データを抽出」ステップで抽出するデータを追加します。
2:「データプレビュー」で重複排除のアイコン をクリックし、設定画面に入ります。
3:重複排除条件とするフィールドを選択します。 選択後、「保存」をクリックします。
4:保存したら、をクリックすると、「設定完了」が表示されます。
注意事項:
クラウドデータの重複排除なら、同じ重複排除条件の履歴データのみをチェックし、新しいデータに重複排除を行います。
例えば:
[フィールド1]を選択し、重複排除条件Aとして設定し、1番目バッチのクラウドデータを取得します。
[フィールド2]を選択し、重複排除条件をAからBに変更し、2番目バッチのクラウドデータを取得します。その場合、重複排除システムは、2番目バッチのデータを最初のバッチと比較しません。
[フィールド1]を選択し、また重複排除条件をBからAに変更し、3番目バッチのクラウドデータを取得します。その場合、重複排除システムは、3番目バッチのデータを、1番目バッチと比較し、重複データを削除しますが、2番目のバッチとは比較しません。