重複の削除
今週アップデートされました

データセット内に重複があるのは、Webサイトに重複したデータが存在するか、同じデータを複数回キャプチャする設定になっているためかもしれません。このような場合、データの要件に応じて重複を削除する方法が二つあります。

一、データフィールド全体が同じ場合は重複を削除します(デフォルト設定)

実行が完了すると、Octoparseはデフォルトでデータ行全体が同じ(すべてのデータフィールドが同じ)場合にデータ行を重複として扱います。重複を削除し、ユニークな行のみを保持できます。

例:以下の1行目と3行目は、各データフィールドの値が同じため、重複しています。重複を除去した後、Octoparseは最初に抽出されたデータ行のみを保持します。この場合、1行目です。

mceclip0.png

二、選択したデータフィールドが同一の場合に重複を削除します。

タスクのワークフローを作成する際、1つ以上のデータフィールドで同じ値を共有するデータ行を削除するようにタスクをカスタマイズできます。選択されたデータフィールドの値が同じであれば、データ行は重複とみなされます。選択されていないデータフィールドは考慮されません。

例1:「フィールド2」をデータの重複比較対象に選択する場合、1行目、3行目、4行目の「フィールド2」の値が同じです。この場合、これらの行は重複と見なされます。重複を除去後、Octoparseは最初に抽出されたデータ行、つまり1行目を保持し、3行目と4行目を削除します。

mceclip1.png

例2:「「フィールド3」と「フィールド4」をデータの重複比較対象に選択すると、1行目と3行目の「フィールド3」と「フィールド4」の値が同じになります。この場合、1行目と3行目は重複と見なされます。重複を除去した後、Octoparseは最初に抽出されたデータ行を保持します。この場合、それは1行目であり、3行目は自動的に削除されます。」

mceclip2.png

重複削除設定をカスタマイズするには、以下の手順に従ってください。

  1. タスクと抽出するデータフィールドを設定します。

  2. データプレビューセクションの右上隅にあるアイコンをクリックします。

3. 重複削除の比較対象として選択するデータフィールドを選択します。選択後、[適用] をクリックして設定を保存します。

ヒント:

ローカル採集実行では、重複削除は一度きりでタスクごとにのみ適用されます。

クラウド実行では、同じ重複削除設定を用いたデータが継続的に比較・削除されます。

例えば、最初に「フィールド1」を比較対象とする設定Aでクラウドデータの最初のバッチを取得します。その後、設定を「フィールド2」を比較対象とする設定Bに変更して、2番目のクラウドデータバッチを取得した場合、この2番目のバッチは最初のバッチとは重複削除のために比較されません。

設定を再びAに戻してクラウドデータの3番目のバッチを取得する場合、この3番目のバッチは最初のバッチのデータと比較・重複削除されます。

こちらの回答で解決しましたか?