Riferimento tecnico per l'algoritmo Microsoft Linear Regression

Articolo
10/31/2023

Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.

L'algoritmo Microsoft Linear Regression è una versione speciale dell'algoritmo Microsoft Decision Trees ottimizzato per la modellazione di coppie di attributi continui. In questo argomento viene illustrata l'implementazione dell'algoritmo, viene mostrato come personalizzarne il comportamento e vengono forniti collegamenti a ulteriori informazioni sull'esecuzione di query sui modelli.

Implementazione dell'algoritmo Linear Regression

L'algoritmo Microsoft Decision Trees può essere utilizzato per diverse attività, quali regressione lineare, classificazione e analisi di associazione. Per implementare questo algoritmo allo scopo di eseguire la regressione lineare, i parametri dell'algoritmo vengono controllati per limitare l'aumento delle dimensioni dell'albero e mantenere tutti i dati del modello in un solo nodo. In altre parole, anche se la regressione lineare è basata su un albero delle decisioni, l'albero contiene una sola radice e nessun ramo, ovvero tutti i dati si trovano nel nodo radice.

A tale scopo, il parametro MINIMUM_LEAF_CASES dell'algoritmo viene impostato su un valore uguale a o maggiore del numero totale di case utilizzati dall'algoritmo per il training del modello di data mining. Se si imposta il parametro in questo modo, l'algoritmo non crea mai una divisione ed esegue pertanto una regressione lineare.

Il formato dell'equazione che rappresenta la linea di regressione, nota come equazione di regressione, è generalmente y = ax + b. La variabile Y rappresenta la variabile di output, X rappresenta la variabile di input mentre a e b sono coefficienti modificabili. È possibile recuperare i coefficienti, le intercette e altre informazioni sulla formula di regressione eseguendo una query sul modello di data mining completato. Per altre informazioni, vedere Esempi di query sul modello di regressione lineare.

Metodi di valutazione e caratteristica di selezione degli attributi

Tutti gli algoritmi di data mining SQL Server Analysis Services utilizzano automaticamente la selezione delle funzionalità per migliorare l'analisi e ridurre il carico di elaborazione. Il metodo utilizzato per la caratteristica di selezione degli attributi nella regressione lineare è il punteggio di interesse, perché il modello supporta solo colonne continue. Nella tabella seguente viene mostrata per riferimento la differenza nella caratteristica di selezione degli attributi tra l'algoritmo Linear Regression e l'algoritmo Decision Trees.

Algoritmo	Metodo di analisi	Commenti
Linear Regression	Punteggio di interesse	Valore predefinito. Gli altri metodi relativi alla caratteristica di selezione degli attributi disponibili con l'algoritmo Decision Trees si applicano solo alle variabili discrete e non sono pertanto validi per i modelli di regressione lineare.
Decision Trees	Punteggio di interesse Entropia di Shannon Bayes con probabilità a priori K2 Equivalente Bayes Dirichlet con probabilità a priori a distribuzione uniforme (impostazione predefinita)	Se esistono colonne contenenti valori continui non binari, viene utilizzato il punteggio di interesse per tutte le colonne, per assicurare coerenza. In caso contrario, viene utilizzato il metodo predefinito o specificato.

I parametri dell'algoritmo che controllano la caratteristica di selezione degli attributi per un modello di albero delle decisioni sono MAXIMUM_INPUT_ATTRIBUTES e MAXIMUM_OUTPUT.

Personalizzazione dell'algoritmo Linear Regression

L'algoritmo Microsoft Linear Regression supporta parametri che influiscono sul comportamento, sulle prestazioni e sull'accuratezza del modello di data mining risultante. È anche possibile impostare flag di modellazione nelle colonne del modello o della struttura di data mining per controllare la modalità di elaborazione dei dati.

Impostazione dei parametri dell'algoritmo

Nella tabella seguente sono elencati i parametri forniti per l'algoritmo Microsoft Linear Regression.

Parametro	Descrizione
MAXIMUM_INPUT_ATTRIBUTES	Definisce il numero di attributi di input che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disabilitare la funzionalità di selezione degli attributi. Il valore predefinito è 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Definisce il numero di attributi di output che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disabilitare la funzionalità di selezione degli attributi. Il valore predefinito è 255.
FORCE_REGRESSOR	Forza l'utilizzo, da parte dell'algoritmo, delle colonne indicate come regressori, indipendentemente dall'importanza delle colonne calcolata dall'algoritmo.

Flag di modellazione

L'algoritmo Microsoft Linear Regression supporta i flag di modellazione seguenti. Quando si crea la struttura o il modello di data mining, i flag di modellazione vengono definiti per specificare la modalità di gestione dei valori presenti in ogni colonna durante l'analisi. Per altre informazioni, vedere Flag di modellazione (data mining).

Flag di modellazione	Descrizione
NOT NULL	Indica che la colonna non può contenere un valore Null. Se Analysis Services rileva un valore Null durante il training del modello, viene generato un errore. Si applica alle colonne della struttura di data mining.
REGRESSOR	Indica che la colonna contiene valori numerici continui che devono essere considerati come potenziali variabili indipendenti durante l'analisi. Si applica alle colonne del modello di data mining. Nota: l'applicazione di un flag REGRESSOR a una colonna non ne garantisce l'uso come regressore nel modello finale.

Regressori nei modelli di regressione lineare

I modelli di regressione lineare si basano sull'algoritmo Microsoft Decision Trees. Tuttavia, anche se non si usa l'algoritmo Microsoft Linear Regression, qualsiasi modello di albero delle decisioni può contenere un albero o nodi che rappresentano una regressione su un attributo continuo.

Non è necessario specificare che una colonna continua rappresenta un regressore. L'algoritmo Microsoft Decision Trees partizionerà il set di dati in aree con modelli significativi anche se non si imposta il flag REGRESSOR nella colonna. La differenza è che quando si imposta il flag di modellazione, l'algoritmo tenterà di trovare equazioni di regressione del formato a*C1 + b*C2 + ... per adattare i modelli nei nodi dell'albero. Viene calcolata la somma dei residui e, se la deviazione è eccessiva, nell'albero viene forzata una divisione.

Ad esempio, se si stima il comportamento di acquisto dei clienti utilizzando income come attributo ed è stato impostato il flag di modellazione REGRESSOR nella colonna [Income], l'algoritmo tenta innanzitutto di adattare i valori utilizzando una formula di regressione standard. Se la deviazione è eccessiva, la formula di regressione viene abbandonata e l'albero viene diviso in base a un altro attributo. L'algoritmo Decision Trees tenta quindi di adattare un regressore per il reddito in ognuno dei rami dopo la divisione.

È possibile utilizzare il parametro FORCED_REGRESSOR per assicurarsi che l'algoritmo impieghi un determinato regressore. Questo parametro può essere utilizzato con gli algoritmi Microsoft Decision Trees e Microsoft Linear Regression.

Requisiti

Un modello di regressione lineare deve contenere una colonna chiave, le colonne di input e almeno una colonna stimabile.

Colonne di input e stimabili

L'algoritmo Microsoft Linear Regression supporta le colonne di input specifiche e le colonne stimabili elencate nella tabella seguente. Per altre informazioni sui tipi di contenuto utilizzati in un modello di data mining, vedere Tipi di contenuto (data mining).

Colonna	Tipi di contenuto
Attributo di input	Continuous, Cyclical, Key, Table e Ordered
Attributo stimabile	Continuous, Cyclical e Ordered

Nota

I tipi di contenuto ciclici e ordinati sono supportati, ma l'algoritmo li considera come valori discreti e non esegue un'elaborazione speciale.

Vedere anche

Algoritmo Microsoft Linear Regression
Esempi di query sul modello di regressione lineare
Contenuto dei modelli di data mining per i modelli di regressione lineare (Analysis Services - Data mining)