Besoin d'aide avec quoi que ce soit dans cet article ou avez-vous d'autres questions ? Contactez-nous à support@noticiasolutions.com
Les grands jeux de données collectés auprès de plusieurs dépositaires contiennent souvent une variété de documents en double exacts et quasi en double. Les doublons exacts peuvent être le même courriel collecté depuis plusieurs boîtes de réception ou le même document stocké sur différents lecteurs. Les quasi doublons peuvent inclure différents formats du même contenu (par ex. versions PDF et Word), du contenu partiel comme une réponse à un courriel qui inclut un message précédent, ou des visuels légèrement modifiés comme des images recadrées vs non recadrées.
Il existe un certain nombre de stratégies pour gérer les doublons — chacune comportant des compromis qui dépendent du type de duplication, de l’étape de révision et de votre tolérance au risque globale. Cet article présente les types de duplication les plus courants et fournit des conseils pratiques pour les gérer de manière défendable et efficace.
Pour plus d’informations sur l’utilisation des champs Nuix de recherche/suppression des doublons, cliquez ici pour accéder à leur base de connaissances.
Types de doublons courants
- Doublons exacts (doublons de hachage) : ce sont des documents ayant exactement le même contenu et les mêmes métadonnées. Leurs valeurs de hachage sont identiques.
- Doublons de famille (doublons de hachage de famille) : il s’agit de familles de courriels — courriels parents avec pièces jointes ou contenu incorporé — où l’ensemble complet des documents est identique à un autre ensemble. Le hachage de famille sera le mêm
- Doublons de fil de discussion : ce sont des courriels entièrement contenus dans un message ultérieur du fil. Une réponse, par exemple, peut inclure tous les messages précédents en ligne.
- Quasi doublons : ce sont des documents conceptuellement ou visuellement similaires qui ne partagent pas un hachage exact. Cela peut inclure des changements de format (Word vs PDF), des modifications partielles ou un contenu similaire avec de petites variations.
Déduplication de famille
Chaque fois que nous ajoutons de nouvelles données à un dossier, nous identifions et dédupliquons généralement les doublons au niveau de la famille — soit par codage, soit par suppression. Ils surviennent souvent lorsque le même archive est collectée auprès de plusieurs dépositaires ou systèmes. Étant donné que le contenu est identique à 100 %, ils peuvent être supprimés sans perte d’information.
Stratégie pour les doublons de fil et quasi doublons
Déduplication de fil : nous identifions automatiquement les doublons de fil — des courriels entièrement inclus dans d’autres courriels plus tard dans le fil. Si un document n’a pas été codé comme doublon de fil, il contient probablement du contenu absent des messages ultérieurs. Examiner uniquement le courriel « pivot » ou final du fil est souvent suffisant, bien que cela dépende de la portée de votre révision.
- Déduplication de fil : nous identifions automatiquement les doublons de fil — des courriels entièrement inclus dans d’autres courriels plus tard dans le fil. Si un document n’a pas été codé comme doublon de fil, il contient probablement du contenu absent des messages ultérieurs. Examiner uniquement le courriel « pivot » ou final du fil est souvent suffisant, bien que cela dépende de la portée de votre révision.
- Utilisation de la vue Fil pour la rapidité : dans l’espace de travail de révision, réduire les messages enfants dans la vue du fil peut accélérer la révision de pertinence de premier passage. Si le document au niveau du fil n’est pas pertinent, ses messages incorporés ne sont généralement pas examinés non plus.
- Comparaison des quasi doublons : le tableau de bord Compare-Related de l’espace de travail C propose un score de similarité entre documents liés. C’est particulièrement utile pour repérer des différences mineures entre versions similaires, comme des itérations de contrats ou du contenu traduit.
- Considérations de risque : bien qu’il soit tentant d’appliquer des décisions uniformes à des documents similaires, nous recommandons généralement la prudence — surtout si des enjeux de privilège, de caviardage ou des différences factuelles subtiles sont en jeu. Des documents similaires peuvent conduire à des décisions de codage différentes. Le niveau de tolérance au risque de votre équipe devrait guider le choix entre considérer les quasi doublons comme entièrement révisables ou appliquer un échantillonnage sélectif.
Si vous n’êtes pas sûr de la voie à suivre, nous serons heureux de vous aider à examiner les options et à déterminer la meilleure approche pour votre stratégie de révision.
Cet article a-t-il été utile ?
C'est super !
Merci pour votre commentaire
Désolé ! Nous n'avons pas pu vous être utile
Merci pour votre commentaire
Commentaires envoyés
Nous apprécions vos efforts et nous allons corriger l'article