Riferimento tecnico per l'algoritmo Microsoft Naive Bayes

Articolo
12/23/2023

Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.

L'algoritmo Microsoft Naive Bayes è un algoritmo di classificazione fornito da Microsoft SQL Server SQL Server Analysis Services per l'uso nella modellazione predittiva. L'algoritmo calcola la probabilità condizionale tra colonne di input e stimabili e presuppone che le colonne siano indipendenti. Il nome Naive Bayes deriva da questo presupposto di indipendenza.

Implementazione dell'algoritmo Microsoft Naive Bayes

Questo algoritmo è meno intenso di calcolo rispetto ad altri algoritmi Microsoft e pertanto è utile per generare rapidamente modelli di data mining per individuare le relazioni tra colonne di input e colonne prevedibili. L'algoritmo considera ogni coppia di valori di attributi di input e di output.

Una descrizione delle proprietà matematiche del teorema di Bayes esula dagli scopi di questa documentazione. Per altre informazioni, vedere il documento di Microsoft Research Learning Bayesian Networks: The Combination of Knowledge and Statistical Data(Informazioni sulle reti bayesiane: combinazione di conoscenza e dati statistici).

Per una descrizione della modalità di modifica delle probabilità in tutti i modelli per tenere conto dei potenziali valori mancanti, vedere Valori mancanti (Analysis Services - Data Mining).

Selezione caratteristiche

L'algoritmo Microsoft Naive Bayes esegue la selezione automatica delle funzionalità per limitare il numero di valori considerati durante la compilazione del modello. Per altre informazioni, vedere Selezione delle funzionalità (data mining).

Algoritmo	Metodo di analisi	Commenti
Naive Bayes	Entropia di Shannon Bayes con probabilità a priori K2 Equivalente Bayes Dirichlet con probabilità a priori a distribuzione uniforme (impostazione predefinita)	Naive Bayes accetta solo attributi discreti o discretizzati e non può pertanto utilizzare il punteggio di interesse.

L'algoritmo è progettato per ridurre il tempo di elaborazione e selezionare in modo efficiente gli attributi di massima importanza; è tuttavia possibile controllare i dati utilizzati dall'algoritmo impostando i parametri nel modo seguente:

Per limitare i valori utilizzati come input, ridurre il valore di MAXIMUM_INPUT_ATTRIBUTES.
Per limitare il numero di attributi analizzati dal modello, ridurre il valore di MAXIMUM_OUTPUT_ATTRIBUTES.
Per limitare il numero di valori che possono essere presi in considerazione per qualsiasi attributo, ridurre il valore di MINIMUM_STATES.

Personalizzazione dell'algoritmo Microsoft Naive Bayes

L'algoritmo Microsoft Naive Bayes supporta diversi parametri che influiscono sul comportamento, sulle prestazioni e sull'accuratezza del modello di data mining risultante. È anche possibile impostare flag di modellazione nelle colonne del modello per controllare la modalità di elaborazione dei dati o impostare flag nella struttura di data mining per specificare la modalità di gestione dei valori mancanti o Null.

Impostazione dei parametri dell'algoritmo

L'algoritmo Microsoft Naive Bayes supporta diversi parametri che influiscono sulle prestazioni e sull'accuratezza del modello di data mining risultante. Nella tabella seguente viene descritto ogni parametro.

MAXIMUM_INPUT_ATTRIBUTES
Specifica il numero massimo di attributi di input che l'algoritmo è in grado di gestire prima di richiamare la caratteristica di selezione degli attributi. Se si imposta il valore su 0, la caratteristica di selezione degli attributi viene disabilitata per gli attributi di input.

Il valore predefinito è 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Specifica il numero massimo di attributi di output che l'algoritmo è in grado di gestire prima di richiamare la caratteristica di selezione degli attributi. Se si imposta il valore su 0, la caratteristica di selezione degli attributi viene disabilitata per gli attributi di output.

Il valore predefinito è 255.

MINIMUM_DEPENDENCY_PROBABILITY
Specifica la probabilità di dipendenza minima tra gli attributi di input e di output. Questo valore viene utilizzato per limitare le dimensioni del contenuto generato dall'algoritmo. Il valore di questa proprietà è compreso tra 0 e 1. Valori maggiori riducono il numero di attributi nel contenuto del modello.

Il valore predefinito è 0.5.

MAXIMUM_STATES
Specifica il numero massimo di stati degli attributi supportati dall'algoritmo. Se il numero di stati che un attributo ha è maggiore del numero massimo di stati, l'algoritmo usa gli stati più diffusi dell'attributo e considera gli stati rimanenti mancanti.

Il valore predefinito è 100.

Flag di modellazione

L'algoritmo Microsoft Decision Trees supporta i flag di modellazione seguenti. Quando si crea la struttura o il modello di data mining, i flag di modellazione vengono definiti per specificare la modalità di gestione dei valori presenti in ogni colonna durante l'analisi. Per altre informazioni, vedere Flag di modellazione (data mining).

Flag di modellazione	Descrizione
MODEL_EXISTENCE_ONLY	Indica che la colonna verrà considerata come se presentasse due stati possibili, ovvero Missing ed Existing. Un valore Null è un valore mancante. Si applica alla colonna del modello di data mining.
NOT NULL	Indica che la colonna non può contenere un valore Null. Se Analysis Services rileva un valore Null durante il training del modello, viene generato un errore. Si applica alla colonna della struttura di data mining.

Requisiti

Un modello di albero Naive Bayes deve contenere una colonna chiave e almeno un attributo stimabile e un attributo di input. Nessun attributo può essere continuo. Se i dati contengono elementi numerici continui, vengono ignorati o discretizzati.

Colonne di input e stimabili

L'algoritmo Microsoft Naive Bayes supporta le colonne di input specifiche e le colonne prevedibili elencate nella tabella seguente. Per altre informazioni sui tipi di contenuto usati in un modello di data mining, vedere Tipi di contenuto (data mining).

Colonna	Tipi di contenuto
Attributo di input	Cyclical, Discrete, Discretized, Key, Table e Ordered
Attributo stimabile	Cyclical, Discrete, Discretized, Table e Ordered

Nota

Sono supportati i tipi di contenuto Cyclical e Ordered ma l'algoritmo li considera come valori discreti e non esegue un'elaborazione speciale.

Vedere anche

Algoritmo Microsoft Naive Bayes
Esempi di query sul modello Naive Bayes
Contenuto dei modelli di data mining per i modelli Naive Bayes (Analysis Services - Data mining)