Referência técnica do algoritmo Microsoft Naive Bayes

Artigo
12/23/2023

Aplica-se a: SQL Server 2019 e anteriores do Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora foi descontinuada no SQL Server 2022 Analysis Services. A documentação não foi atualizada para recursos preteridos e descontinuados. Para saber mais, confira Compatibilidade com versões anteriores do Analysis Services.

O algoritmo Microsoft Naive Bayes é um algoritmo de classificação fornecido pela Microsoft SQL Server SQL Server Analysis Services para uso na modelagem preditiva. O algoritmo calcula a probabilidade condicional entre as colunas de entrada e as previsíveis e assume que as colunas são independentes. Esta pressuposição de independência leva ao nome Naive Bayes.

Implementação do algoritmo Naive Bayes da Microsoft

Esse algoritmo é menos computacionalmente intenso do que outros algoritmos da Microsoft e, portanto, é útil para gerar rapidamente modelos de mineração para descobrir relações entre colunas de entrada e colunas previsíveis. O algoritmo considera cada par de valores de atributo de entrada e valores de atributo de saída.

Uma descrição das propriedades matemáticas do Teorema de Bayes está além do escopo desta documentação; para obter mais informações, consulte o documento da Microsoft Research denominado Learning Bayesian Networks: The Combination of Knowledge and Statistical Data(Aprendendo sobre redes Bayesianas: a combinação de dados de conhecimento e estatísticos).

Para obter uma descrição de como as probabilidades em todos os modelos são ajustadas para considerar possíveis valores ausentes, consulte Valores ausentes (Analysis Services – Mineração de Dados).

Seleção de recursos

O algoritmo Microsoft Naive Bayes executa a seleção automática de recursos para limitar o número de valores considerados ao criar o modelo. Para obter mais informações, consulte Seleção de recursos (mineração de dados).

Algoritmo	Método de análise	Comentários
Naive Bayes	Entropia de Shannon Bayesian com K2 a priori Bayesian Dirichlet com uniforme a priori (padrão)	Naive Bayes aceita somente atributos discretos ou diferenciados; portanto, não pode usar a pontuação de interesse.

O algoritmo foi projetado para minimizar o tempo de processamento e selecionar com eficiência os atributos que têm a maior importância; no entanto, você pode controlar os dados usados pelo algoritmo definindo parâmetros da seguinte forma:

Para limitar os valores usados como entradas, diminua o valor de MAXIMUM_INPUT_ATTRIBUTES.
Para limitar o número de atributos analisados pelo modelo, diminua o valor de MAXIMUM_OUTPUT_ATTRIBUTES.
Para limitar o número de valores que podem ser considerados para qualquer atributo, diminua o valor de MINIMUM_STATES.

Personalizando o algoritmo Naive Bayes

O algoritmo Microsoft Naive Bayes dá suporte a vários parâmetros que afetam o comportamento, o desempenho e a precisão do modelo de mineração resultante. Também é possível definir sinalizadores de modelagem nas colunas de modelo para controlar o modo como os dados são processados ou definir sinalizadores na estrutura de mineração para especificar como valores ausentes ou nulos devem ser manipulados.

Definindo parâmetros de algoritmo

O algoritmo Microsoft Naive Bayes dá suporte a vários parâmetros que afetam o desempenho e a precisão do modelo de mineração resultante. A tabela a seguir descreve cada parâmetro.

MAXIMUM_INPUT_ATTRIBUTES
Especifica o número máximo de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recurso. Definir esse valor como 0 desabilita a seleção do recurso para os atributos de entrada.

O padrão é 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Define o número máximo de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recurso. Definir esse valor como 0 desabilita a seleção do recurso para os atributos de saída.

O padrão é 255.

MINIMUM_DEPENDENCY_PROBABILITY
Especifica a probabilidade mínima de dependência entre os atributos de entrada e de saída. Esse valor é usado para limitar o tamanho do conteúdo gerado pelo algoritmo. Essa propriedade pode ser definida de 0 a 1. Valores maiores reduzem o número de atributos no conteúdo do modelo.

O padrão é 0,5.

MAXIMUM_STATES
Especifica o número máximo de estados de atributo para os quais o algoritmo dá suporte. Se o número de estados que um atributo tem for maior que o número máximo de estados, o algoritmo usará os estados mais populares do atributo e tratará os estados restantes como ausentes.

O padrão é 100.

Sinalizadores de modelagem

O algoritmo Árvores de Decisão da Microsoft dá suporte aos seguintes sinalizadores de modelagem. Ao criar um modelo ou uma estrutura de mineração, você define sinalizadores de modelagem para especificar como os valores em cada coluna são manipulados durante a análise. Para obter mais informações, consulte Modelagem de sinalizadores (mineração de dados).

Sinalizador de modelagem	Descrição
MODEL_EXISTENCE_ONLY	Significa que a coluna será tratada como tendo dois estados possíveis: Ausente e Existente. Nulo é um valor ausente. Aplica-se à coluna de modelo de mineração.
NOT NULL	Indica que a coluna não pode conter um nulo. Um erro ocorrerá se o Analysis Services encontrar um valor nulo durante o treinamento do modelo. Aplica-se à coluna de estrutura de mineração.

Requisitos

Um modelo de árvore Naive Bayes deve conter uma coluna de chave, pelo menos um atributo previsível e pelo menos um atributo de entrada. Nenhum atributo pode ser contínuo; se seus dados contiverem dados numéricos contínuos, eles serão ignorados ou diferenciados.

Colunas de entrada e colunas previsíveis

O algoritmo Microsoft Naive Bayes dá suporte às colunas de entrada específicas e colunas previsíveis listadas na tabela a seguir. Para obter mais informações sobre o que os tipos de conteúdo significam quando usados em um modelo de mineração, consulte Tipos de conteúdo (mineração de dados).

Coluna	Tipos de conteúdo
Atributo de entrada	Cíclico, discreto, diferenciado, chave, tabela, e ordenado
Atributo previsível	Cíclico, discreto, diferenciado, tabela, e ordenado

Observação

Os tipos de conteúdo Cíclico e Ordenado têm suporte, mas o algoritmo os trata como valores discretos e não executa processamento especial.

Consulte Também

Referência técnica do algoritmo Naive Bayes da Microsoft
Exemplos de consulta de modelo Naive Bayes
Conteúdo do modelo de mineração para modelos Naive Bayes (Analysis Services – Mineração de Dados)

Compartilhar via