Identificazione di righe di dati simili tramite la trasformazione Raggruppamento fuzzyIdentify Similar Data Rows by Using the Fuzzy Grouping Transformation

È possibile aggiungere e configurare una trasformazione Raggruppamento fuzzy solo se il pacchetto include già almeno un'attività Flusso di dati e un'origine.To add and configure a Fuzzy Grouping transformation, the package must already include at least one Data Flow task and a source.

Per implementare una trasformazione Raggruppamento fuzzy in un flusso di datiTo implement Fuzzy Grouping transformation in a data flow

  1. In SQL Server Data Tools (SSDT)SQL Server Data Tools (SSDT)aprire il progetto di Integration ServicesIntegration Services che contiene il pacchetto desiderato.In SQL Server Data Tools (SSDT)SQL Server Data Tools (SSDT), open the Integration ServicesIntegration Services project that contains the package you want.

  2. In Esplora soluzioni fare doppio clic sul pacchetto per aprirlo.In Solution Explorer, double-click the package to open it.

  3. Fare clic sulla scheda Flusso di dati , quindi da Casella degli strumentitrascinare la trasformazione Raggruppamento fuzzy sull'area di progettazione.Click the Data Flow tab, and then, from the Toolbox, drag the Fuzzy Grouping transformation to the design surface.

  4. Connettere la trasformazione Raggruppamento fuzzy al flusso di dati trascinando il connettore dall'origine dati o da una trasformazione precedente alla trasformazione Raggruppamento fuzzy.Connect the Fuzzy Grouping transformation to the data flow by dragging the connector from the data source or a previous transformation to the Fuzzy Grouping transformation.

  5. Fare doppio clic sulla trasformazione Raggruppamento fuzzy.Double-click the Fuzzy Grouping transformation.

  6. Nella scheda Gestione connessione della finestra di dialogo Editor trasformazione Raggruppamento fuzzy selezionare una gestione connessione OLE DB che consenta la connessione a un database di SQL ServerSQL Server .In the Fuzzy Grouping Transformation Editor dialog box, on the Connection Manager tab, select an OLE DB connection manager that connects to a SQL ServerSQL Server database.

    Nota

    La trasformazione richiede una connessione a un database di SQL ServerSQL Server per creare tabelle e indici temporanei.The transformation requires a connection to a SQL ServerSQL Server database to create temporary tables and indexes.

  7. Fare clic sulla scheda Colonne e, nell'elenco Colonne di input disponibili , selezionare la casella di controllo corrispondente alla colonna di input da usare per identificare righe simili nel set di dati.Click the Columns tab and, in the Available Input Columns list, select the check box of the input columns to use to identify similar rows in the dataset.

  8. Per identificare le colonne di input da passare direttamente all'output della trasformazione, selezionare le caselle di controllo nella colonna Pass-through .Select the check box in the Pass Through column to identify the input columns to pass through to the transformation output. Le colonne pass-through non vengono coinvolte nel processo di identificazione delle righe duplicate.Pass-through columns are not included in the process of identification of duplicate rows.

    Nota

    Le colonne di input utilizzate per il raggruppamento vengono automaticamente selezionate come colonne pass-through e non possono essere deselezionate mentre sono in uso per il raggruppamento.Input columns that are used for grouping are automatically selected as pass-through columns, and they cannot be unselected while used for grouping.

  9. Facoltativamente, aggiornare i nomi delle colonne di output nella colonna Alias di output .Optionally, update the names of output columns in the Output Alias column.

  10. Facoltativamente, aggiornare i nomi delle colonne elaborate nella colonna Alias di output gruppo .Optionally, update the names of cleaned columns in the Group OutputAlias column.

    Nota

    I nomi predefiniti delle colonne vengono ottenuti aggiungendo il suffisso "_clean" ai nomi delle colonne di input.The default names of columns are the names of the input columns with a "_clean" suffix.

  11. Facoltativamente, digitare nella colonna Tipo di corrispondenza il tipo di corrispondenza da utilizzare.Optionally, update the type of match to use in the Match Type column.

    Nota

    È necessario utilizzare la corrispondenza fuzzy almeno per una colonna.At least one column must use fuzzy matching.

  12. Specificare le colonne con livello di somiglianza minimo nella colonna Somiglianza minima .Specify the minimum similarity level columns in the Minimum Similarity column. Il valore deve essere compreso tra 0 e 1.The value must be between 0 and 1. Più il valore è vicino a 1, più i valori nelle colonne di input dovranno essere simili per formare un gruppo.The closer the value is to 1, the more similar the values in the input columns must be to form a group. Una somiglianza minima pari a 1 indica una corrispondenza esatta.A minimum similarity of 1 indicates an exact match.

  13. Facoltativamente, aggiornare i nomi delle colonne con somiglianza nella colonna Alias di output somiglianza .Optionally, update the names of similarity columns in the Similarity Output Alias column.

  14. Per specificare la modalità di gestione dei numeri nei valori dei dati, aggiornare i valori nella colonna Numerali .To specify the handling of numbers in data values, update the values in the Numerals column.

  15. Per specificare la modalità con cui la trasformazione deve confrontare i dati stringa contenuti in una colonna, modificare la selezione predefinita delle opzioni di confronto nella colonna Flag di confronto .To specify how the transformation compares the string data in a column, modify the default selection of comparison options in the Comparison Flags column.

  16. Fare clic sulla scheda Avanzate per modificare i nomi delle colonne che la trasformazione aggiunge all'output per l'identificatore di riga univoco (_key_in), l'identificatore di riga duplicato (_key_out) e il valore di somiglianza (_score).Click the Advanced tab to modify the names of the columns that the transformation adds to the output for the unique row identifier (_key_in), the duplicate row identifier (_key_out), and the similarity value (_score).

  17. Facoltativamente, regolare la soglia di somiglianza spostando il dispositivo di scorrimento.Optionally, adjust the similarity threshold by moving the slider bar.

  18. Facoltativamente, deselezionare le caselle di controllo in Delimitatori token per ignorare i delimitatori presenti nei dati.Optionally, clear the token delimiter check boxes to ignore delimiters in the data.

  19. Scegliere OK.Click OK.

  20. Per salvare il pacchetto aggiornato, scegliere Salva elementi selezionati dal menu File .To save the updated package, click Save Selected Items on the File menu.

Vedere ancheSee Also

Trasformazione Raggruppamento fuzzy Fuzzy Grouping Transformation
Trasformazioni di Integration Services Integration Services Transformations
Percorsi in Integration Services Integration Services Paths
Attività flusso di datiData Flow Task