Deduplicazione nei risultati della ricerca di eDiscovery

Questo articolo descrive il funzionamento della deduplicazione dei risultati della ricerca di eDiscovery e illustra le limitazioni dell'algoritmo di deduplicazione.

Quando si usano gli strumenti di eDiscovery per esportare i risultati di una ricerca di eDiscovery, è possibile deduplicare i risultati esportati. Che cosa significa? Quando si abilita la deduplicazione (per impostazione predefinita, la deduplicazione non è abilitata), viene esportata solo una copia di un messaggio di posta elettronica, anche se nelle cassette postali in cui è stata eseguita la ricerca potrebbero essere state trovate più istanze dello stesso messaggio. La deduplicazione consente di risparmiare tempo riducendo il numero di elementi che è necessario esaminare e analizzare dopo l'esportazione dei risultati della ricerca. È tuttavia importante comprendere il funzionamento della deduplicazione e tenere presente che esistono limitazioni all'algoritmo che potrebbero causare la contrassegnazione di un elemento univoco come duplicato durante il processo di esportazione.

Le informazioni contenute in questo articolo sono applicabili quando si esportano i risultati della ricerca usando uno degli strumenti di eDiscovery seguenti:

Consiglio

Se non si è un cliente E5, usare la versione di valutazione delle soluzioni Microsoft Purview di 90 giorni per esplorare in che modo funzionalità aggiuntive di Purview possono aiutare l'organizzazione a gestire le esigenze di sicurezza e conformità dei dati. Iniziare ora dall'hub delle versioni di valutazione Portale di conformità di Microsoft Purview. Informazioni dettagliate sull'iscrizione e le condizioni di valutazione.

Come vengono identificati i messaggi duplicati

Gli strumenti di eDiscovery usano una combinazione delle proprietà di posta elettronica seguenti per determinare se un messaggio è duplicato:

  • InternetMessageId : questa proprietà specifica l'identificatore del messaggio Internet di un messaggio di posta elettronica, ovvero un identificatore univoco globale che fa riferimento a una versione specifica di un messaggio specifico. Questo ID viene generato dal programma client di posta elettronica del mittente o dal sistema di posta elettronica host che invia il messaggio. Se una persona invia un messaggio a più destinatari, l'ID messaggio Internet è lo stesso per ogni istanza del messaggio. Le revisioni successive al messaggio originale ricevono un identificatore di messaggio diverso.
  • ConversationTopic : questa proprietà specifica l'oggetto del thread di conversazione di un messaggio. Il valore della proprietà ConversationTopic è la stringa che descrive l'articolo complessivo della conversazione. Una conversazione è costituita da un messaggio iniziale e da tutti i messaggi inviati in risposta al messaggio iniziale. I messaggi all'interno della stessa conversazione hanno lo stesso valore per la proprietà ConversationTopic . Il valore di questa proprietà è in genere la riga Subject del messaggio iniziale che ha generato la conversazione.
  • BodyTagInfo : proprietà interna dell'archivio di Exchange. Il valore di questa proprietà viene calcolato controllando vari attributi nel corpo del messaggio. Questa proprietà viene utilizzata per identificare le differenze nel corpo dei messaggi.

Durante il processo di esportazione di eDiscovery, queste tre proprietà vengono confrontate per ogni messaggio che corrisponde ai criteri di ricerca. Se queste proprietà sono identiche per due o più messaggi, tali messaggi sono considerati duplicati e il risultato è che verrà esportata una sola copia del messaggio se è abilitata la deduplicazione. Il messaggio esportato è noto come "elemento di origine". Le informazioni sui messaggi duplicati sono incluse nei reportResults.csv e Manifest.xml inclusi nei risultati della ricerca esportata. Nel file Results.csv viene identificato un messaggio duplicato con un valore nella colonna Duplica in elemento . Il valore in questa colonna corrisponde al valore nella colonna Identità elemento per il messaggio esportato.

La grafica seguente mostra come vengono visualizzati i messaggi duplicati nel Results.csv e Manifest.xml report esportati con i risultati della ricerca. Questi report non includono le proprietà di posta elettronica descritte in precedenza, usate nell'algoritmo di deduplicazione. I report includono invece la proprietà Item Identity assegnata agli elementi dall'archivio di Exchange.

Results.csv report (visualizzato in Excel)

Visualizzazione di informazioni sugli elementi duplicati nel report Results.csv.

Manifest.xml report (visualizzato in Excel)

Visualizzazione di informazioni sugli elementi duplicati nel report Manifest.xml.

Inoltre, nei report di esportazione sono incluse altre proprietà dei messaggi duplicati. Include la cassetta postale in cui si trova il messaggio duplicato, se il messaggio è stato inviato a un gruppo di distribuzione e se il messaggio è cc'd o ccn a un altro utente.

Limitazioni dell'algoritmo di deduplicazione

Esistono alcune limitazioni note dell'algoritmo di deduplicazione che potrebbero causare la contrassegnazione di elementi univoci come duplicati. È importante comprendere queste limitazioni in modo da poter decidere se usare o meno la funzionalità di deduplicazione facoltativa.

C'è una situazione in cui la funzionalità di deduplicazione potrebbe erroneamente identificare un messaggio come duplicato e non esportarlo (ma comunque citarlo come duplicato nei report di esportazione). Si tratta di messaggi che un utente modifica ma non invia. Si supponga, ad esempio, che un utente selezioni un messaggio in Outlook, copia il contenuto del messaggio e quindi lo incollare in un nuovo messaggio. L'utente modifica quindi una delle copie rimuovendo o aggiungendo un allegato o modificando la riga dell'oggetto o il corpo stesso. Se questi due messaggi corrispondono alla query di una ricerca di eDiscovery, solo uno dei messaggi verrà esportato se la deduplicazione è abilitata quando vengono esportati i risultati della ricerca. Pertanto, anche se il messaggio originale o il messaggio copiato è stato modificato, nessuno dei messaggi modificati è stato inviato e pertanto i valori delle proprietà InternetMessageId, ConversationTopic e BodyTagInfo non sono stati aggiornati. Tuttavia, come spiegato in precedenza, entrambi i messaggi sono elencati nei report di esportazione

I messaggi univoci possono anche essere contrassegnati come duplicati quando è abilitata la funzionalità di protezione della pagina copia in scrittura, come nel caso di una cassetta postale in attesa per controversia legale o In-Place blocco. La funzionalità Copia in scrittura copia il messaggio originale e lo salva nella cartella Versioni della cartella Elementi ripristinabili dell'utente prima del salvataggio della revisione nell'elemento originale. In questo caso, la copia modificata e il messaggio originale (nella cartella Elementi ripristinabili) potrebbero essere considerati messaggi duplicati e quindi solo uno di essi verrebbe esportato.

Importante

Se le limitazioni dell'algoritmo di deduplicazione potrebbero influire sulla qualità dei risultati della ricerca, non è consigliabile abilitare la deduplicazione quando si esportano elementi. Se è improbabile che le situazioni descritte in questa sezione siano un fattore nei risultati della ricerca e si vuole ridurre il numero di elementi che più probabilmente saranno duplicati, è consigliabile abilitare la deduplicazione.

Ulteriori informazioni

Per altre informazioni sull'esportazione dei risultati della ricerca, vedere: