Algoritmo Microsoft Naive BayesMicrosoft Naive Bayes Algorithm

Si applica a: yesSQL Server Analysis Services alcunAzure Analysis ServicesAPPLIES TO: yesSQL Server Analysis Services noAzure Analysis Services

L'algoritmo MicrosoftMicrosoft Naive Bayes è un algoritmo di classificazione basato su teoremi di Bayes e può essere usato sia per la modellazione predittiva che per quella esplorativa.The MicrosoftMicrosoft Naive Bayes algorithm is a classification algorithm based on Bayes’ theorems, and can be used for both exploratory and predictive modeling. La parola naive nel nome Naive Bayes deriva dal fatto che nell'algoritmo vengono utilizzate tecniche di Bayes, ma non vengono considerate le dipendenze eventualmente presenti.The word naïve in the name Naïve Bayes derives from the fact that the algorithm uses Bayesian techniques but does not take into account dependencies that may exist.

Questo algoritmo include funzionalità di calcolo più semplici di quelle di altri algoritmi MicrosoftMicrosoft ed è utile pertanto per generare rapidamente i modelli di data mining al fine di individuare le relazioni tra colonne di input e colonne stimabili.This algorithm is less computationally intense than other MicrosoftMicrosoft algorithms, and therefore is useful for quickly generating mining models to discover relationships between input columns and predictable columns. È possibile utilizzare questo algoritmo per eseguire l'esplorazione iniziale dei dati e applicare successivamente i risultati ottenuti per creare modelli di data mining aggiuntivi con altri algoritmi dotati di funzionalità di calcolo più avanzate e accurate.You can use this algorithm to do initial exploration of data, and then later you can apply the results to create additional mining models with other algorithms that are more computationally intense and more accurate.

EsempioExample

Come strategia promozionale continuativa, il reparto marketing dell'azienda Adventure Works Cycle ha deciso di inviare volantini ai potenziali clienti mediante mailing diretto.As an ongoing promotional strategy, the marketing department for the Adventure Works Cycle company has decided to target potential customers by mailing out fliers. Per ridurre i costi, i volantini verranno inviati solo ai clienti che probabilmente risponderanno.To reduce costs, they want to send fliers only to those customers who are likely to respond. L'azienda archivia in un database le informazioni demografiche e relative alla risposta dei clienti a un mailing precedente.The company stores information in a database about demographics and response to a previous mailing. L'obiettivo è analizzare tali dati per scoprire in che modo è possibile utilizzare informazioni demografiche come l'età e il luogo di residenza per eseguire la stima relativa alla risposta a una promozione, confrontando i potenziali clienti con quelli che presentano caratteristiche analoghe e in passato hanno acquistato prodotti dell'azienda.They want to use this data to see how demographics such as age and location can help predict response to a promotion, by comparing potential customers to customers who have similar characteristics and who have purchased from the company in the past. In particolare, si intende esaminare le differenze tra i clienti che hanno acquistato una bicicletta e quelli che non l'hanno acquistata.Specifically, they want to see the differences between those customers who bought a bicycle and those customers who did not.

Tramite l'algoritmo MicrosoftMicrosoft Naive Bayes, il reparto marketing può eseguire rapidamente la stima relativa al profilo di un cliente specifico e determinare quindi i clienti che, con maggiore probabilità, risponderanno ai volantini.By using the MicrosoftMicrosoft Naive Bayes algorithm, the marketing department can quickly predict an outcome for a particular customer profile, and can therefore determine which customers are most likely to respond to the fliers. Mediante il Visualizzatore MicrosoftMicrosoft Naive Bayes disponibile in SQL Server Data Tools (SSDT)SQL Server Data Tools (SSDT), il reparto può inoltre individuare visivamente in modo specifico le colonne di input che contribuiscono alle risposte positive ai volantini.By using the MicrosoftMicrosoft Naive Bayes Viewer in SQL Server Data Tools (SSDT)SQL Server Data Tools (SSDT), they can also visually investigate specifically which input columns contribute to positive responses to fliers.

Funzionamento dell'algoritmoHow the Algorithm Works

L'algoritmo MicrosoftMicrosoft Naive Bayes consente di calcolare la probabilità di ogni stato per ogni colonna di input, considerando ogni stato possibile della colonna stimabile.The MicrosoftMicrosoft Naive Bayes algorithm calculates the probability of every state of each input column, given each possible state of the predictable column.

Per comprendere questo funzionamento, utilizzare il Visualizzatore MicrosoftMicrosoft Naive Bayes in SQL Server Data Tools (SSDT)SQL Server Data Tools (SSDT) (come mostrato nel grafico seguente) per esplorare in modo visivo la distribuzione degli stati eseguita dall'algoritmo.To understand how this works, use the MicrosoftMicrosoft Naive Bayes Viewer in SQL Server Data Tools (SSDT)SQL Server Data Tools (SSDT) (as shown in the following graphic) to visually explore how the algorithm distributes states.

Naive bayes distribuzione degli statiNaive bayes distribution of states

Nel Visualizzatore MicrosoftMicrosoft Naive Bayes viene elencata ogni colonna di input nel set di dati e viene mostrata la distribuzione degli stati corrispondenti, considerando ogni stato della colonna stimabile.Here, the MicrosoftMicrosoft Naive Bayes Viewer lists each input column in the dataset, and shows how the states of each column are distributed, given each state of the predictable column.

Questa vista del modello consente di identificare le colonne di input significative ai fini della differenziazione degli stati della colonna stimabile.You would use this view of the model to identify the input columns that are important for differentiating between states of the predictable column.

Ad esempio, nella riga per Distanza dal lavoro qui indicata, la distribuzione dei valori di input è visibilmente diversa per gli acquirenti rispetto ai non acquirenti.For example, in the row for Commute Distance shown here, the distribution of input values is visibly different for buyers vs. non-buyers. Questo indica che l'input, Distanza dal lavoro = 0-1 chilometri, è un potenziale criterio di stima.What this tells you is that the input, Commute Distance = 0-1 miles, is a potential predictor.

Il visualizzatore fornisce inoltre valori per le distribuzioni, pertanto è possibile visualizzare che, per i clienti che risiedono a una distanza dal posto di lavoro compresa tra uno e due chilometri, la probabilità che acquistino una bicicletta è pari a 0,387, mentre la probabilità che non effettuino tale acquisto è pari a 0,287.The viewer also provides values for the distributions, so you can see that for customers who commute from one to two miles to work, the probability of them buying a bike is 0.387, and the probability that they will not buy a bike is 0.287. In questo esempio nell'algoritmo vengono utilizzate le informazioni numeriche derivate da caratteristiche del cliente, ad esempio la distanza dal posto di lavoro, per stimare se il cliente acquisterà una bicicletta.In this example, the algorithm uses the numeric information, derived from customer characteristics (such as commute distance), to predict whether a customer will buy a bike.

Per altre informazioni sull'uso del visualizzatore MicrosoftMicrosoft Naive Bayes, vedere Visualizzare un modello utilizzando il Visualizzatore Microsoft Naive Bayes.For more information about using the MicrosoftMicrosoft Naive Bayes Viewer, see Browse a Model Using the Microsoft Naive Bayes Viewer.

Dati necessari per i modelli Naive BayesData Required for Naive Bayes Models

Quando si preparano i dati da utilizzare per il training di un modello Naive Bayes, verificare che siano chiari i requisiti dell'algoritmo, tra cui la quantità di dati necessari e la modalità di utilizzo dei dati.When you prepare data for use in training a Naive Bayes model, you should understand the requirements for the algorithm, including how much data is needed, and how the data is used.

I requisiti di un modello Naive Bayes sono i seguenti:The requirements for a Naive Bayes model are as follows:

  • Una colonna a chiave singola Ogni modello deve contenere una colonna numerica o di testo che identifichi in modo univoco ogni record.A single key column Each model must contain one numeric or text column that uniquely identifies each record. Le chiavi composte non sono consentite.Compound keys are not allowed.

  • Colonne di input In un modello Naive Bayes tutte le colonne devono essere colonne discrete, oppure devono contenere valori suddivisi.Input columns In a Naive Bayes model, all columns must be either discrete, or the values must have been binned. Per informazioni su come eseguire la discretizzazione (bin) delle colonne, vedere Metodi di discretizzazione (data mining).For information about how to discretize (bin) columns, see Discretization Methods (Data Mining).

  • Le variabili possono essere indipendenti.Variables must be independent. Per un modello Naive Bayes, è importante verificare inoltre che gli attributi di input siano indipendenti uno dall'altro.For a Naive Bayes model, it is also important to ensure that the input attributes are independent of each other. Questo aspetto è particolarmente importante quando si utilizza il modello per la stima.This is particularly important when you use the model for prediction. L'uso di due colonne di dati già strettamente correlati comporterebbe un'influenza ancora maggiore di tali colonne e verrebbero pertanto messi in secondo piano gli altri fattori che influiscono sul risultato.If you use two columns of data that are already closely related, the effect would be to multiply the influence of those columns, which can obscure other factors that influence the outcome.

    Viceversa, la possibilità dell'algoritmo di identificare le correlazioni fra variabili è utile quando si esplora un modello o un set di dati, per identificare le relazioni fra input.Conversely, the ability of the algorithm to identify correlations among variables is useful when you are exploring a model or dataset, to identify relationships among inputs.

  • Almeno una colonna stimabile Nell'attributo stimabile devono essere contenuti valori discreti o discretizzati.At least one predictable column The predictable attribute must contain discrete or discretized values.

    I valori della colonna stimabile possono essere utilizzati come input.The values of the predictable column can be treated as inputs. Ciò può essere utile quando si esplora un nuovo set di dati, per trovare le relazioni fra le colonne.This practice can be useful when you are exploring a new dataset, to find relationships among the columns.

Visualizzazione del modelloViewing the Model

Per esplorare il modello, è possibile usare il Visualizzatore Microsoft Naive Bayes.To explore the model, you can use the Microsoft Naive Bayes Viewer. Nel visualizzatore viene illustrato il modo in cui gli attributi di input sono correlati all'attributo stimabile.The viewer shows you how the input attributes relate to the predictable attribute. Nel visualizzatore viene inoltre fornito un profilo dettagliato di ogni cluster, un elenco degli attributi che consentono di distinguere ogni cluster dagli altri e le caratteristiche dell'intero set di dati di training.The viewer also provides a detailed profile of each cluster, a list of the attributes that distinguish each cluster from the others, and the characteristics of the entire training data set. Per altre informazioni, vedere Visualizzare un modello utilizzando il Visualizzatore Microsoft Naive Bayes.For more information, see Browse a Model Using the Microsoft Naive Bayes Viewer.

Per maggiori dettagli, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer (Data Mining).If you want to know more detail, you can browse the model in the Microsoft Generic Content Tree Viewer (Data Mining). Per altre informazioni sul tipo di informazioni archiviate nel modello, vedere Contenuto dei modelli di data mining per i modelli Naive Bayes (Analysis Services - Data mining).For more information about the type of information stored in the model, see Mining Model Content for Naive Bayes Models (Analysis Services - Data Mining).

Esecuzione di stimeMaking Predictions

In seguito al training del modello, i risultati vengono archiviati come set di modelli, esplorabili o utilizzabili per eseguire stime.After the model has been trained, the results are stored as a set of patterns, which you can explore or use to make predictions.

È possibile creare query per restituire stime sul modo in cui i nuovi dati sono correlati all'attributo stimabile oppure recuperare statistiche che descrivono le correlazioni rilevate dal modello.You can create queries to return predictions about how new data relates to the predictable attribute, or you can retrieve statistics that describe the correlations found by the model.

Per informazioni sulla creazione di query in base a un modello di data mining, vedere Query di data mining.For information about how to create queries against a data mining model, see Data Mining Queries. Per esempi di come usare le query con un modello Naive Bayes, vedere Esempi di query sul modello Naive Bayes.For examples of how to use queries with a Naive Bayes model, see Naive Bayes Model Query Examples.

OsservazioniRemarks

  • Supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.Supports the use of Predictive Model Markup Language (PMML) to create mining models.

  • Supporta il drill-through.Supports drillthrough.

  • Non supporta la creazione di dimensioni di data mining.Does not support the creation of data mining dimensions.

  • Supporta l'utilizzo di modelli di data mining OLAP.Supports the use of OLAP mining models.

Vedere ancheSee Also

Algoritmi di Data Mining & #40; Analysis Services - Data Mining & #41; Data Mining Algorithms (Analysis Services - Data Mining)
Selezione funzionalità & #40; Data Mining & #41; Feature Selection (Data Mining)
Esempi di Query modello Naive Bayes Naive Bayes Model Query Examples
Contenuto del modello di data mining per i modelli Naive Bayes & #40; Analysis Services - Data Mining & #41; Mining Model Content for Naive Bayes Models (Analysis Services - Data Mining)
Riferimento tecnico di Microsoft Naive Bayes algoritmoMicrosoft Naive Bayes Algorithm Technical Reference