Tipi di contenuto (Data mining)

Articolo
12/23/2023

Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.

In Microsoft SQL Server SQL Server Analysis Services è possibile definire sia il tipo di dati fisico per una colonna in una struttura di data mining che un tipo di contenuto logico per la colonna quando viene usato in un modello,

Il tipo di dati determina il modo in cui gli algoritmi elaborano i dati in tali colonne quando si creano modelli di data mining. La definizione del tipo di dati di una colonna indica all'algoritmo le informazioni sul tipo di dati delle colonne e le modalità di elaborazione dei dati. Ogni tipo di dati in SQL Server Analysis Services supporta uno o più tipi di contenuto per il data mining.

Il tipo di contenuto descrive il comportamento del contenuto della colonna. Se ad esempio il contenuto di una colonna si ripete in un intervallo specifico, ad esempio nell'arco dei giorni della settimana, è possibile contrassegnare il tipo di contenuto di tale colonna come ciclico.

Per il corretto funzionamento di alcuni algoritmi, sono necessari tipi di dati e tipi di contenuto specifici. L'algoritmo Microsoft Naive Bayes, ad esempio, non può utilizzare colonne continue come input, né stimare valori continui. Alcuni tipi di contenuto, ad esempio Key Sequence, sono utilizzati solo da un algoritmo specifico. Per un elenco degli algoritmi e dei tipi di contenuto supportati da ognuno, vedere Algoritmi di data mining (Analysis Services - Data mining).

Nell'elenco seguente vengono descritti i tipi di contenuto utilizzati nel data mining e vengono identificati i tipi di dati che supportano ogni tipo di contenuto.

Discrete

Il tipo di contenutoDiscrete indica che la colonna contiene un numero finito di valori senza continuità. Ad esempio, una colonna relativa al sesso è una tipica colonna attributo discreta, in quanto i dati rappresentano un numero specifico di categorie.

I valori di una colonna attributo discreta non possono implicare l'ordinamento, anche se si tratta di valori numerici. Anche se i valori utilizzati per la colonna discreta sono numerici, non è inoltre possibile calcolare valori frazionari. Gli indicativi di località telefonici sono un valido esempio di dati numerici discreti.

Il tipo di contenuto Discrete è supportato da tutti i tipi di dati di data mining.

Continua

Il tipo di contenutoContinuous indica che la colonna contiene valori che rappresentano dati numerici su una scala che consente valori provvisori. A differenza di una colonna discreta, che rappresenta dati numerabili finiti, una colonna continua rappresenta misure scalabili e i dati possono contenere un numero infinito di valori frazionari. Una colonna di temperature è un esempio di colonna attributo continua.

Quando una colonna contiene dati numerici continui e quando è noto il modo in cui i dati devono essere distribuiti, è possibile migliorare potenzialmente l'accuratezza dell'analisi specificando la distribuzione prevista dei valori. Poiché la distribuzione della colonna viene specificata a livello della struttura di data mining, Pertanto, l'impostazione si applica a tutti i modelli basati sulla struttura. Per altre informazioni, vedere Distribuzioni di colonne (data mining).

Il tipo di contenuto Continuous è supportato dai tipi di dati Date, Doublee Long.

Discretizzato

Perdiscretizzazione si intende il processo di raggruppamento in bucket dei valori di un set di dati continuo in modo da limitare il numero di valori possibili. È possibile discretizzare solo dati numerici.

Di conseguenza, il tipo di contenuto discretized indica che la colonna contiene valori che rappresentano gruppi o bucket di valori derivati da una colonna continua. I bucket vengono considerati valori ordinati e discreti.

È possibile discretizzare i dati manualmente per ottenere i bucket desiderati oppure utilizzare i metodi di discretizzazione disponibili in SQL Server Analysis Services. Alcuni algoritmi consentono di eseguire automaticamente la discretizzazione. Per altre informazioni, vedere Modificare la discretizzazione di una colonna in un modello di data mining.

Il tipo di contenuto Discretized è supportato dai tipi di dati Date, Double, Longe Text.

Chiave

Il tipo di contenuto key indica che la colonna identifica in modo univoco una riga. In una tabella del case la colonna chiave è in genere un identificatore numerico o di testo. Impostare il tipo di contenuto su key per indicare che la colonna non deve essere usata per l'analisi, ma solo per la registrazione di record.

Anche le tabelle nidificate contengono chiavi, ma in questo caso l'utilizzo è leggermente diverso. Impostare il tipo di contenuto su key in una tabella annidata se la colonna corrisponde all'attributo che si desidera analizzare. I valori nella chiave della tabella nidificata devono essere univoci per ogni case, ma possono esistere duplicati nell'intero set di case.

Se ad esempio si analizzano i prodotti acquistati dai clienti, è possibile impostare il tipo di contenuto chiave (key) per la colonna CustomerID nella tabella del case e di nuovo il tipo di contenuto chiave (key) per la colonna PurchasedProducts nella tabella annidata.

Nota

Le tabelle nidificate sono disponibili solo se si utilizzano dati di un'origine dati esterna definiti come vista origine dati di Analysis Services.

Il tipo di contenuto è supportato dai tipi di dati Date, Double, Longe Text.

Key Sequence

Il tipo di contenuto key sequence può essere usato solo nei modelli Sequence Clustering. Quando si imposta tipo di contenuto su key sequence, la colonna contiene valori che rappresentano una sequenza di eventi. I valori sono ordinati, ma non è necessario che siano equidistanti.

Il tipo di contenuto è supportato dai tipi di dati Double, Long, Texte Date.

Chiave temporale

Il tipo di contenuto key time può essere usato solo nei modelli Time Series. Quando si imposta il tipo di contenuto su key time, i valori vengono ordinati e rappresentano una scala cronologica.

Il tipo di contenuto è supportato dai tipi di dati Double, Longe Date.

Tabella

Il tipo di contenuto table indica che la colonna contiene un'altra tabella di dati con una o più colonne e una o più righe. Questa colonna può contenere più valori per ogni determinata riga della tabella del case, tutti correlati al record del case padre. Se ad esempio la tabella del case principale contiene un elenco di clienti, è possibile disporre di molte colonne che contengono tabelle annidate, ad esempio una colonna ProductsPurchased , in cui la tabella annidata contiene un elenco dei prodotti acquistati da un determinato cliente nel passato e una colonna Hobbies in cui sono elencati gli interessi del cliente.

Il tipo di dati di questa colonna è sempre Table.

Cyclical

Il tipo di contenuto cyclical stabilisce che la colonna contiene valori che rappresentano un set ordinato ciclico. I giorni della settimana numerati costituiscono ad esempio un set ordinato ciclico, in quanto il giorno numero uno segue il giorno numero sette.

Le colonne cicliche vengono considerate sia ordinate che discrete in relazione al tipo di contenuto.

Questo tipo di contenuto è supportato da tutti i tipi di dati di data mining in SQL Server Analysis Services. Tuttavia, la maggior parte degli algoritmi trattano i valori ciclici come valori discreti e non eseguono un'elaborazione speciale.

Ordinato

Il tipo di contenuto Ordered indica inoltre che la colonna contiene valori che definiscono una sequenza o un ordine. In questo tipo di contenuto, tuttavia, i valori utilizzati per l'ordinamento non implicano alcuna relazione di distanza o grandezza tra i valori del set. Se ad esempio una colonna attributo ordinata contiene informazioni sui livelli di competenza elencati in ordine di priorità da uno a cinque, la distanza tra i livelli di competenza non include alcuna informazione implicita, cioè un livello di competenza pari a cinque non è necessariamente superiore a un livello di competenza pari a uno.

Le colonne attributo ordinate vengono considerate discrete in relazione al tipo di contenuto.

Questo tipo di contenuto è supportato da tutti i tipi di dati di data mining in SQL Server Analysis Services. Tuttavia, la maggior parte degli algoritmi trattano i valori ordinati come valori discreti e non eseguono un'elaborazione speciale.

Classified

Oltre ai tipi di contenuto precedenti che sono di uso comune con tutti i modelli, per alcuni tipi di dati è possibile utilizzare le colonne classificate per definire i tipi di contenuto. Per altre informazioni sulle colonne classificate, vedere Colonne classificate (data mining).

Vedere anche

Tipi di contenuto (DMX)
Tipi di dati (data mining)
Tipi di dati (DMX)
Modificare le proprietà di una struttura di data mining
Colonne della struttura di data mining