Использование увеличивающегося дерева принятия решений для прогнозирования обновлений с помощью Машинное обучение Azure конструктораUse boosted decision tree to predict churn with Azure Machine Learning designer

Конструктор (Предварительная версия) — пример 5Designer (preview) sample 5

Применимо к: нетБазовый выпуск даКорпоративный выпуск                       (Перейти на выпуск "Корпоративный")APPLIES TO: noBasic edition yesEnterprise edition                       (Upgrade to Enterprise)

Узнайте, как создать сложный конвейер машинного обучения без написания единой строки кода с помощью конструктора (Предварительная версия).Learn how to build a complex machine learning pipeline without writing a single line of code using the designer (preview).

Этот конвейер обучает 2 классификаторов дерева принятия решений с двумя классами для прогнозирования общих задач для систем управления отношениями с клиентами (CRM).This pipeline trains 2 two-class boosted decision tree classifiers to predict common tasks for customer relationship management (CRM) systems - customer churn. Значения данных и метки разбиваются по нескольким источникам данных и передаются в Анонимизация информацию о клиентах, однако мы по-прежнему можем использовать конструктор для объединения наборов данных и обучения модели с помощью скрытых значений.The data values and labels are split across multiple data sources and scrambled to anonymize customer information, however, we can still use the designer to combine data sets and train a model using the obscured values.

Так как вы пытаетесь ответить на вопрос "какой из них?"Because you're trying to answer the question "Which one?" Это называется проблемой классификации, но вы можете применить ту же логику, показанную в этом примере, чтобы решить любой тип проблемы машинного обучения, будь то регрессия, классификация, кластеризация и т. д.this is called a classification problem, but you can apply the same logic shown in this sample to tackle any type of machine learning problem whether it be regression, classification, clustering, and so on.

Вот завершенный граф для этого конвейера:Here's the completed graph for this pipeline:

Граф конвейера

предварительным требованиямPrerequisites

  1. Создайте рабочую область Машинного обучения Azure, если у вас ее нет.Create an Azure Machine Learning workspace if you don't have one.

  2. Войдите в ml.Azure.com и выберите рабочую область, с которой вы хотите работать.Sign into ml.azure.com and select the workspace you want to work with.

  3. Выберите конструктор.Select Designer.

    Запуск конструктора

  1. Щелкните пример 5, чтобы открыть его.Click sample 5 to open it.

ДанныеData

Данные для этого конвейера находятся в KDDной чашке 2009.The data for this pipeline is from KDD Cup 2009. Он содержит 50 000 строк и 230 столбцов функций.It has 50,000 rows and 230 feature columns. Задача заключается в прогнозировании обновлений, стремления и продаж для клиентов, использующих эти функции.The task is to predict churn, appetency, and up-selling for customers who use these features. Дополнительные сведения о данных и задачах см. на веб-сайте KDD.For more information about the data and the task, see the KDD website.

Сводка по конвейеруPipeline summary

В этом образце конвейера в конструкторе показана двоичная классификация по обработке, стремления и продажам в двоичном виде, которая представляет собой общую задачу управления отношениями с клиентами (CRM).This sample pipeline in the designer shows binary classifier prediction of churn, appetency, and up-selling, a common task for customer relationship management (CRM).

Во первых, это упрощает обработку данных.First, some simple data processing.

  • Необработанный набор данных содержит много отсутствующих значений.The raw dataset has many missing values. Используйте модуль Clean Missing Data (очистка недостающих данных ), чтобы заменить отсутствующие значения на 0.Use the Clean Missing Data module to replace the missing values with 0.

    Очистка набора данных

  • Функции и соответствующие обновления находятся в разных наборах данных.The features and the corresponding churn are in different datasets. Используйте модуль Добавление столбцов , чтобы добавить столбцы меток в столбцы компонентов.Use the Add Columns module to append the label columns to the feature columns. Первый столбец col1является столбцом меток.The first column, Col1, is the label column. В результате визуализации можно увидеть, что набор данных не сбалансирован.From the visualization result we can see the dataset is unbalanced. Есть более отрицательные (-1) примеры, чем положительные примеры (+ 1).There way more negative (-1) examples than positive examples (+1). Мы будем использовать модуль смоте для увеличения количества несоответствующих вариантов позже.We will use SMOTE module to increase underrepresented cases later.

    Добавление набора данных столбца

  • Используйте модуль Split Data (разделение данных ), чтобы разделить набор данных на обучение и тестирование наборов.Use the Split Data module to split the dataset into train and test sets.

  • Затем используйте двоичный классификатор увеличивающегося дерева принятия решений с параметрами по умолчанию для построения моделей прогнозирования.Then use the Boosted Decision Tree binary classifier with the default parameters to build the prediction models. Создайте одну модель для каждой задачи, то есть одну модель для прогнозирования продаж, стремления и обработки.Build one model per task, that is, one model each to predict up-selling, appetency, and churn.

  • В правой части конвейера мы используем модуль смоте для увеличения процента положительных примеров.In the right part of the pipeline, we use SMOTE module to increase the percentage of positive examples. Значение СМОТЕ в процентах устанавливается равным 100, чтобы удвоить положительные примеры.The SMOTE percentage is set to 100 to double the positive examples. Узнайте больше о работе модуля СМОТЕ с reference0 модуля смоте.Learn more on how SMOTE module works with SMOTE module reference0.

РезультатыResults

Визуализируйте выходные данные модуля « Анализ модели », чтобы оценить производительность модели в тестовом наборе.Visualize the output of the Evaluate Model module to see the performance of the model on the test set.

анализ результатов;

Можно переместить ползунок порога и просмотреть изменения метрик для задачи двоичной классификации.You can move the Threshold slider and see the metrics change for the binary classification task.

Очистка ресурсовClean up resources

Важно!

Созданные ресурсы можно использовать в качестве необходимых компонентов для других учебников и статей с практическими рекомендациями по Машинному обучению Azure.You can use the resources that you created as prerequisites for other Azure Machine Learning tutorials and how-to articles.

Удаление всех ресурсовDelete everything

Если вы не планируете использовать созданные ресурсы, удалите всю группу ресурсов, чтобы с вас не взималась плата.If you don't plan to use anything that you created, delete the entire resource group so you don't incur any charges.

  1. На портале Azure слева выберите Группы ресурсов.In the Azure portal, select Resource groups on the left side of the window.

    Удаление группы ресурсов на портале Azure

  2. В списке выберите созданную группу ресурсов.In the list, select the resource group that you created.

  3. Выберите Удалить группу ресурсов.Select Delete resource group.

При удалении группы ресурсов будут также удалены все ресурсы, созданные в конструкторе.Deleting the resource group also deletes all resources that you created in the designer.

Удаление отдельных ресурсовDelete individual assets

В конструкторе, в котором вы создали эксперимент, удалите отдельные ресурсы, выбрав их и нажав кнопку Удалить.In the designer where you created your experiment, delete individual assets by selecting them and then selecting the Delete button.

Созданный вами целевой объект вычислений автоматически масштабируется до нуля узлов, когда он не используется.The compute target that you created here automatically autoscales to zero nodes when it's not being used. Это действие предпринимается для снижения расходов.This action is taken to minimize charges. Чтобы удалить целевой объект вычислений, сделайте следующее: If you want to delete the compute target, take these steps:

Удаление ресурсов

Вы можете отменить регистрацию наборов данных в рабочей области. Для этого выберите каждый набор данных и щелкните Отменить регистрацию.You can unregister datasets from your workspace by selecting each dataset and selecting Unregister.

Отмена регистрации набора данных

Чтобы удалить набор данных, перейдите к учетной записи хранения на портале Azure или в приложении "Обозреватель службы хранилища Azure", а затем вручную удалите эти ресурсы.To delete a dataset, go to the storage account by using the Azure portal or Azure Storage Explorer and manually delete those assets.

Дополнительная информацияNext steps

Изучите другие примеры, доступные для конструктора:Explore the other samples available for the designer: