重複の削除
一週間前以上前にアップデートされました

データセット内に重複があるのは、Webサイト自体に重複したデータがあるためか、タスクが同じデータを2回以上キャプチャするように設定されている可能性があります。このような場合、データ要件に応じて重複を削除する方法が2つあります。

一、データ行全体が同じ場合に重複を削除(デフォルト設定)

実行が完了すると、Octoparseはデフォルトでデータ行全体が同じ(すべてのデータフィールドが同じ)場合にデータ行を重複として扱います。重複を削除し、ユニークな行のみを保持できます。

例:以下の1行目と3行目は、各データフィールドの値が同じため、重複しています。重複を除去した後、Octoparseは最初に抽出されたデータ行のみを保持します。この場合、1行目です。

mceclip0.png

二、選択したデータフィールドが同じ場合に重複を削除

タスクのワークフローを作成する際、1つ以上のデータフィールドで同じ値を共有するデータ行を削除するようにタスクをカスタマイズできます。選択されたデータフィールドの値が同じであれば、データ行は重複とみなされます。選択されていないデータフィールドは考慮されません。

例1:「フィールド2」をデータ重複の比較対象に選択すると、1行目、2行目、4行目すべてが「フィールド2」の値が同じになります。この場合、これらのデータ行は重複と見なされます。重複を除去した後、Octoparseは最初に抽出されたデータ行のみを保持します。この場合、1行目です。そして、2行目と4行目を削除します。

mceclip1.png

例2:「フィールド3」と「フィールド4」をデータ重複の比較対象に選択すると、1行目と4行目はそれぞれ「フィールド3」と「フィールド4」の値が同じになります。この場合、1行目と4行目は重複と見なされます。重複を除去した後、Octoparseは最初に抽出されたデータ行のみを保持します。この場合、1行目です。そして、4行目を自動的に削除します。

mceclip2.png

重複削除設定をカスタマイズするには、以下の手順に従ってください。

  1. タスクと抽出するデータフィールドを設定します。

  2. データプレビューセクションの右上隅にあるアイコンをクリックします。

3. 重複削除の比較対象として選択するデータフィールドを選択します。選択後、[適用] をクリックして設定を保存します。

ヒント:

クラウド実行では、同じ重複削除設定で処理されたデータのみが継続的に比較・重複削除されます。

例えば、最初の重複削除設定をA(例:"フィールド1"を比較対象に選択)に設定し、クラウドデータの最初のバッチを取得したとしましょう。

その後、タスクに戻って重複削除設定をB(例:"フィールド2"を比較対象に選択)に変更し、クラウドデータの2番目のバッチを取得します。この2番目のバッチのデータは、1番目のバッチのデータとは重複削除のために比較されません。

その後、設定をA(例:"フィールド1"を比較対象に選択)に戻してクラウドデータの3番目のバッチを取得すると、この3番目のバッチのデータは1番目のクラウドデータのバッチと比較・重複削除されます。

こちらの回答で解決しましたか?