Personalizzare struttura e modelli di data mining

Articolo
12/23/2023

Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.

Dopo avere selezionato un algoritmo adatto alle esigenze aziendali, è possibile personalizzare il modello di data mining nei modi seguenti per migliorarne potenzialmente i risultati.

Utilizzare colonne di dati diverse nel modello o modificare l'utilizzo, il tipo di contenuto o il metodo di discretizzazione delle colonne.
Creare filtri per il modello di data mining per limitare i dati utilizzati per il training del modello.
Modificare l'algoritmo utilizzato per analizzare dati.
Impostare i parametri dell'algoritmo per determinare soglie, divisioni dell'albero e altre condizioni importanti.

In questo argomento vengono descritte queste opzioni.

Modifica dei dati utilizzati dal modello

Le decisioni adottate in relazione alle colonne di dati da utilizzare nel modello e alle modalità di utilizzo e di elaborazione dei dati possono influire significativamente sui risultati dell'analisi. Negli argomenti seguenti vengono fornite informazioni che semplificano la comprensione di tali scelte.

Utilizzo della selezione delle funzionalità

La maggior parte degli algoritmi di data mining in SQL Server Analysis Services usa un processo denominato selezione delle funzionalità per selezionare solo gli attributi più utili per l'aggiunta di un modello. La riduzione del numero di colonne e di attributi può migliorare le prestazione e la qualità del modello. I metodi disponibili per la selezione delle funzionalità differiscono a seconda dell'algoritmo scelto.

Selezione delle funzionalità (data mining).

Modifica dell'utilizzo

È possibile modificare le colonne incluse in un modello di data mining e la modalità di utilizzo di ciascuna colonna. Se non si ottengono i risultati previsti, è necessario esemplificare le colonne utilizzate come input e considerare se si tratta della scelta corretta e se è possibile migliorare la gestione dei dati, ad esempio:

Individuare variabili di categoria etichettate erroneamente come numeri.
Aggiungere categorie per comprimere il numero di attributi e semplificare l'individuazione delle correlazioni.
Modificare la modalità in cui i numeri sono suddivisi in contenitori, o discretizzati.
Rimuovere le colonne che dispongono di molti valori univoci o quelle che contengono in realtà dati di riferimento non utili per l'analisi, ad esempio indirizzi o secondi nomi.

Non è necessario rimuovere fisicamente le colonne dalla struttura di data mining; è sufficiente contrassegnare la colonna come Ignora. La colonna viene rimossa dal modello di data mining, ma continuerà a essere utilizzata da altri modelli di data mining della struttura o come riferimento in una query drill-through.

Creazione di alias per le colonne del modello

Quando SQL Server Analysis Services crea il modello di data mining, usa gli stessi nomi di colonna presenti nella struttura di data mining. È possibile aggiungere un alias a qualsiasi colonne del modello di data mining. Questo può facilitare la comprensione del contenuto o dell'utilizzo della colonna oppure rendere il nome più corto per semplificare la creazione delle query. Gli alias sono anche utili quando si desidera creare una copia di una colonna e assegnarle un nome descrittivo.

Per creare un alias modificare la proprietà Name della colonna del modello di data mining. SQL Server Analysis Services continua a usare il nome originale come ID della colonna e il nuovo valore digitato per Name diventa l'alias di colonna e viene visualizzato nella griglia tra parentesi accanto all'utilizzo della colonna.

alias nelle colonne del modello di data mining

Nell'illustrazione vengono mostrati i modelli correlati che dispongono di più copie di una colonna della struttura di data mining, tutti correlati a Income. Ogni copia della colonna della struttura è stata discretizzata in modo diverso. I modelli nel diagramma usano ciascuno una colonna diversa dalla struttura di data mining. Tuttavia, per facilitare il confronto delle colonne attraverso i modelli, la colonna in ogni modello è stata rinominata come [Income].

Aggiunta di filtri

È possibile aggiungere un filtro a un modello di data mining. Un filtro è un set di condizioni di WHERE che limitano i dati nei case del modello ad alcuni subset. Il filtro viene utilizzato durante il training del modello e può essere utilizzata facoltativamente durante il test del modello o durante la creazione dei grafici di accuratezza.

L'aggiunta di filtri consente di riutilizzare le strutture di data mining, ma creare modelli basati su subset di dati molto diversi. In alternativa, è possibile utilizzare i filtri semplicemente per eliminare determinate righe e migliorare la qualità dell'analisi.

Per altre informazioni, vedere Filtri per i modelli di data mining (Analysis Services - Data mining).

Modifica dell'algoritmo

Anche se i nuovi modelli aggiunti a una struttura di data mining condividono lo stesso set di dati, è possibile ottenere risultati diversi utilizzando un algoritmo diverso (se supportato dai dati) o modificando i parametri per l'algoritmo. Inoltre, è possibile impostare i flag di modellazione.

La scelta dell'algoritmo determina il tipo di risultati ottenuto. Per informazioni generali sul funzionamento di un algoritmo specifico o sugli scenari aziendali in cui si potrebbe trarre vantaggio dall'uso di un particolare algoritmo, vedere Algoritmi di data mining (Analysis Services - Data mining).

Vedere l'argomento di riferimento tecnico relativo a ogni algoritmo per una descrizione dei requisiti e delle restrizioni, nonché per informazioni dettagliate sulle personalizzazioni supportate da ciascun algoritmo.

Algoritmo Microsoft Decision Trees

Algoritmo Microsoft Clustering

Algoritmo Microsoft Naive Bayes

Algoritmo Microsoft Association Rules

Algoritmo Microsoft Sequence Clustering

Algoritmo Microsoft Time Series

Microsoft Neural Network Algorithm

Algoritmo Microsoft Logistic Regression

Algoritmo Microsoft Linear Regression

Personalizzazione dei parametri dell'algoritmo

Ogni algoritmo supporta parametri che è possibile utilizzare per personalizzare il comportamento dell'algoritmo e ottimizzare i risultati del modello. Per una descrizione di come utilizzare ciascun parametro, vedere gli argomenti seguenti:

L'argomento per ogni tipo di algoritmo include inoltre le funzioni di stima che possono essere utilizzate con i modelli basati sull'algoritmo specifico.

Nome proprietà	Si applica a
AUTO_DETECT_PERIODICITY	Riferimento tecnico per l'algoritmo Microsoft Time Series
CLUSTER_COUNT	Riferimento tecnico per l'algoritmo Microsoft Clustering Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
CLUSTER_SEED	Riferimento tecnico per l'algoritmo Microsoft Clustering
CLUSTERING_METHOD	Riferimento tecnico per l'algoritmo Microsoft Clustering
COMPLEXITY_PENALTY	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Time Series
FORCE_REGRESSOR	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Linear Regression Flag di modellazione (data mining)
FORECAST_METHOD	Riferimento tecnico per l'algoritmo Microsoft Time Series
HIDDEN_NODE_RATIO	Microsoft Neural Network Algorithm Technical Reference
HISTORIC_MODEL_COUNT	Riferimento tecnico per l'algoritmo Microsoft Time Series
HISTORICAL_MODEL_GAP	Riferimento tecnico per l'algoritmo Microsoft Time Series
HOLDOUT_PERCENTAGE	Riferimento tecnico per l'algoritmo Microsoft Logistic Regression Microsoft Neural Network Algorithm Technical Reference Nota: questo parametro è diverso dal valore della percentuale di controllo che si applica a una struttura di data mining.
HOLDOUT_SEED	Riferimento tecnico per l'algoritmo Microsoft Logistic Regression Microsoft Neural Network Algorithm Technical Reference Nota: questo parametro è diverso dal valore di inizializzazione di controllo che si applica a una struttura di data mining.
INSTABILITY_SENSITIVITY	Riferimento tecnico per l'algoritmo Microsoft Time Series
MAXIMUM_INPUT_ATTRIBUTES	Riferimento tecnico per l'algoritmo Microsoft Clustering Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Linear Regression Riferimento tecnico per l'algoritmo Microsoft Naive Bayes Microsoft Neural Network Algorithm Technical Reference Riferimento tecnico per l'algoritmo Microsoft Logistic Regression
MAXIMUM_ITEMSET_COUNT	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MAXIMUM_ITEMSET_SIZE	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MAXIMUM_OUTPUT_ATTRIBUTES	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Linear Regression Riferimento tecnico per l'algoritmo Microsoft Logistic Regression Riferimento tecnico per l'algoritmo Microsoft Naive Bayes Microsoft Neural Network Algorithm Technical Reference
MAXIMUM_SEQUENCE_STATES	Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
MAXIMUM_SERIES_VALUE	Riferimento tecnico per l'algoritmo Microsoft Time Series
MAXIMUM_STATES	Riferimento tecnico per l'algoritmo Microsoft Clustering Microsoft Neural Network Algorithm Technical Reference Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
MAXIMUM_SUPPORT	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_IMPORTANCE	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_ITEMSET_SIZE	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_DEPENDENCY_PROBABILITY	Riferimento tecnico per l'algoritmo Microsoft Naive Bayes
MINIMUM_PROBABILITY	Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_SERIES_VALUE	Riferimento tecnico per l'algoritmo Microsoft Time Series
MINIMUM_SUPPORT	Riferimento tecnico per l'algoritmo Microsoft Association Rules Riferimento tecnico per l'algoritmo Microsoft Clustering Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering Riferimento tecnico per l'algoritmo Microsoft Time Series
MISSING_VALUE_SUBSTITUTION	Riferimento tecnico per l'algoritmo Microsoft Time Series
MODELLING_CARDINALITY	Riferimento tecnico per l'algoritmo Microsoft Clustering
PERIODICITY_HINT	Riferimento tecnico per l'algoritmo Microsoft Time Series
PREDICTION_SMOOTHING	Riferimento tecnico per l'algoritmo Microsoft Time Series
SAMPLE_SIZE	Riferimento tecnico per l'algoritmo Microsoft Clustering Riferimento tecnico per l'algoritmo Microsoft Logistic Regression Microsoft Neural Network Algorithm Technical Reference
SCORE_METHOD	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees
SPLIT_METHOD	Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees
STOPPING_TOLERANCE	Riferimento tecnico per l'algoritmo Microsoft Clustering

Vedere anche

Algoritmi di data mining (Analysis Services - Data mining)
Architettura fisica (Analysis Services – Data mining)