Технический справочник по упрощенному алгоритму Байеса (Майкрософт)

Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium

Важно!

Интеллектуальный анализ данных не рекомендуется использовать в службах SQL Server 2017 Analysis Services, а в SQL Server 2022 Analysis Services его поддержка прекращена. Документация не обновляется для устаревших и неподдерживаемых функций. Дополнительные сведения см. в статье об обратной совместимости служб Analysis Services.

Упрощенный алгоритм Байеса (Майкрософт) — это алгоритм классификации, предоставляемый Microsoft SQL Server SQL Server Analysis Services для использования в прогнозном моделировании. Этот алгоритм вычисляет условную вероятность между входными и прогнозируемыми столбцами и предполагает, что столбцы являются независимыми. Из-за этого предположения о независимости алгоритм и называется упрощенным алгоритмом Байеса.

Реализация упрощенного алгоритма Байеса (Майкрософт)

Этот алгоритм менее ресурсоемкий, чем другие алгоритмы Майкрософт, поэтому он полезен для быстрого создания моделей интеллектуального анализа данных для обнаружения связей между входными и прогнозируемыми столбцами. Алгоритм учитывает все пары значений входного атрибута и выходного атрибута.

Описание математических свойств теоремы Байеса выходит за рамки данной документации; дополнительные сведения см. в статье Microsoft Research под названием Learning Bayesian Networks: The Combination of Knowledge and Statistical Data(Обучаемые байесовские сети: сочетание знаний и статистических данных).

Описание того, как вероятности во всех моделях корректируются с учетом потенциальных отсутствующих значений, см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).

Выбор компонентов

Упрощенный алгоритм Байеса (Майкрософт) выполняет автоматический выбор признаков, чтобы ограничить количество значений, которые учитываются при построении модели. Дополнительные сведения см. в разделе Выбор признаков (интеллектуальный анализ данных).

Алгоритм Метод анализа Комментарии
упрощенный алгоритм Байеса Энтропия Шеннона

Алгоритм Байеса с априорной оценкой K2

Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию)
В упрощенном алгоритме Байеса допускается применение только дискретных или дискретизированных атрибутов, поэтому в нем не может использоваться оценка интересности.

Алгоритм разработан для минимизации времени обработки; он эффективно отбирает атрибуты с наибольшей важностью. Однако данные, используемые алгоритмом, можно контролировать, изменяя следующие параметры.

  • Для ограничения количества входных значений следует уменьшить параметр MAXIMUM_INPUT_ATTRIBUTES.

  • Для ограничения количества атрибутов, анализируемых моделью, следует уменьшить параметр MAXIMUM_OUTPUT_ATTRIBUTES.

  • Для ограничения количества значений, учитываемых для каждого атрибута, следует уменьшить параметр MINIMUM_STATES.

Настройка упрощенного алгоритма Байеса

Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на поведение, производительность и точность результирующей модели интеллектуального анализа данных. Можно также изменять способ обработки данных в модели, устанавливая на столбцах флаги модели или устанавливая флаги на структуре интеллектуального анализа данных, чтобы задать способы обработки отсутствующих значений столбцов и значений, равных NULL.

Задание параметров алгоритма

Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на производительность и точность результирующей модели интеллектуального анализа данных. В следующей таблице содержатся описания всех параметров.

MAXIMUM_INPUT_ATTRIBUTES
Указывает максимальное количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установка этого значения равным 0 отключает выбор компонентов для входных атрибутов.

Значение по умолчанию — 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Задает максимальное количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установка этого значения равным 0 отключает выбор компонентов для выходных атрибутов.

Значение по умолчанию — 255.

MINIMUM_DEPENDENCY_PROBABILITY
Задает минимальную вероятность зависимости между входным и выходным атрибутами. Это значение используется для ограничения размера содержимого, формируемого алгоритмом. Для этого свойства можно задать значение от 0 до 1. Большие значения уменьшают количество атрибутов в содержимом модели.

Значение по умолчанию равно 0,5.

MAXIMUM_STATES
Указывает максимальное количество состояний атрибутов, поддерживаемое алгоритмом. Если количество состояний атрибута больше максимального числа состояний, алгоритм использует наиболее популярные состояния атрибута и рассматривает остальные состояния как отсутствующие.

Значение по умолчанию — 100.

Флаги моделирования

Алгоритм деревьев принятия решений (Майкрософт) поддерживает следующие флаги моделирования. Чтобы задать порядок обработки в ходе анализа значений в каждом столбце, во время создания структуры или модели интеллектуального анализа данных определяются флаги модели. Дополнительные сведения см. в разделе Флаги моделирования (интеллектуальный анализ данных).

Флаг моделирования Описание
MODEL_EXISTENCE_ONLY Означает, что столбец будет обрабатываться так, будто у него два возможных состояния: отсутствует и присутствует. NULL означает отсутствие значения.

Применяется к столбцу модели интеллектуального анализа данных.
NOT NULL Указывает, что столбец не может принимать значение NULL. Если во время обучения модели службы Analysis Services обнаружат значение NULL, возникнет ошибка.

Применяется к столбцу структуры интеллектуального анализа данных.

Требования

Древовидная модель упрощенного алгоритма Байеса должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Непрерывные атрибуты не допускаются; если в данных содержатся непрерывные числовые данные, они будут пропущены или дискретизированы.

Входные и прогнозируемые столбцы

Упрощенный алгоритм Байеса (Майкрософт) поддерживает определенные входные и прогнозируемые столбцы, перечисленные в следующей таблице. Дополнительные сведения о том, что означают типы контента при использовании в модели интеллектуального анализа данных, см. в разделе Типы содержимого (интеллектуальный анализ данных).

Столбец Типы содержимого
Входной атрибут Cyclical, Discrete, Discretized, Key, Table и Ordered
Прогнозируемый атрибут Cyclical, Discrete, Discretized, Table и Ordered

Примечание

Типы содержимого Cyclical и Ordered поддерживаются, но алгоритм обрабатывает их как дискретные величины и не производит их особой обработки.

См. также:

Microsoft Naive Bayes Algorithm
Примеры запросов к модели упрощенного алгоритма Байеса
Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных)