重複の削除
フォローするデータセット内に重複があるのは、Webサイト自体に重複したデータがあるためか、タスクが同じデータを2回以上キャプチャするように設定されている可能性があります。このような場合、データ要件に応じて重複を削除する方法が2つあります。
一、データ行全体が同じ場合に重複を削除(デフォルト設定)
実行が完了すると、Octoparseはデフォルトでデータ行全体が同じ(すべてのデータフィールドが同じ)場合にデータ行を重複として扱います。重複を削除し、ユニークな行のみを保持できます。
例:以下の1行目と3行目は、各データフィールドの値が同じため、重複しています。重複を除去した後、Octoparseは最初に抽出されたデータ行のみを保持します。この場合、1行目です。
二、選択したデータフィールドが同じ場合に重複を削除
タスクのワークフローを作成する際、1つ以上のデータフィールドで同じ値を共有するデータ行を削除するようにタスクをカスタマイズできます。選択されたデータフィールドの値が同じであれば、データ行は重複とみなされます。選択されていないデータフィールドは考慮されません。
例1:「フィールド2」をデータ重複の比較対象に選択すると、1行目、2行目、4行目すべてが「フィールド2」の値が同じになります。この場合、これらのデータ行は重複と見なされます。重複を除去した後、Octoparseは最初に抽出されたデータ行のみを保持します。この場合、1行目です。そして、2行目と4行目を削除します。
例1:下記の画像では、[フィールド2]を比較フィールドとする場合、第1行、第3行、第4行の[フィールド2]が同じで、第1行、第3行、第4行が重複とみなして、第1行のデータが残されます。
例2:「フィールド3」と「フィールド4」をデータ重複の比較対象に選択すると、1行目と4行目はそれぞれ「フィールド3」と「フィールド4」の値が同じになります。この場合、1行目と4行目は重複と見なされます。重複を除去した後、Octoparseは最初に抽出されたデータ行のみを保持します。この場合、1行目です。そして、4行目を自動的に削除します。
重複削除設定をカスタマイズするには、以下の手順に従ってください。
- タスクと抽出するデータフィールドを設定します
- データプレビューセクションの右上隅にあるアイコンをクリックします
3.重複削除の比較対象として選択するデータフィールドを選択します。選択後、[適用] をクリックして設定を保存します。
ヒント:
クラウド実行では、同じ重複削除設定で処理されたデータのみが継続的に比較・重複削除されます。
例えば、最初の重複削除設定をA(例:"フィールド1"を比較対象に選択)に設定し、クラウドデータの最初のバッチを取得したとしましょう。
その後、タスクに戻って重複削除設定をB(例:"フィールド2"を比較対象に選択)に変更し、クラウドデータの2番目のバッチを取得します。この2番目のバッチのデータは、1番目のバッチのデータとは重複削除のために比較されません。
その後、設定をA(例:"フィールド1"を比較対象に選択)に戻してクラウドデータの3番目のバッチを取得すると、この3番目のバッチのデータは1番目のクラウドデータのバッチと比較・重複削除されます。