Руководство по созданию первой модели классификации в службе автоматического машинного обученияTutorial: Create your first classification model with automated machine learning

Применимо к: нетБазовый выпуск даКорпоративный выпуск                       (Перейти на выпуск "Корпоративный")APPLIES TO: noBasic edition yesEnterprise edition                       (Upgrade to Enterprise)

Из этого руководства вы узнаете, как создать свой первый эксперимент автоматического машинного обучения с помощью Студии машинного обучения Azure, не создавая ни единой строки кода.In this tutorial, you learn how to create your first automated machine learning experiment through Azure Machine Learning studio without writing a single line of code. Этот пример создает модель классификации, которая прогнозирует согласие клиента на депозит с фиксированным сроком, предложенный финансовым учреждением.This example creates a classification model to predict if a client will subscribe to a fixed term deposit with a financial institution.

Автоматическое машинное обучение позволяет автоматизировать задачи, которые занимают много времени.With automated machine learning, you can automate away time intensive tasks. Автоматическое машинное обучение позволяет быстро выполнить итерацию множества сочетаний алгоритмов и гиперпараметров, пока не будет найдена лучшая модель на основе выбранных удачных метрик.Automated machine learning rapidly iterates over many combinations of algorithms and hyperparameters to help you find the best model based on a success metric of your choosing.

Из этого руководства вы узнаете, как выполнять такие задачи:In this tutorial, you learn how to do the following tasks:

  • Создайте рабочую область машинного обучения Azure.Create an Azure Machine Learning workspace.
  • Выполнение эксперимента автоматического машинного обучения.Run an automated machine learning experiment.
  • Просмотр сведений об эксперименте.View experiment details.
  • Развертывание модели.Deploy the model.

Предварительные требованияPrerequisites

  • Подписка Azure.An Azure subscription. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись.If you don’t have an Azure subscription, create a free account.

  • Скачайте файл данных bankmarketing_train.csv.Download the bankmarketing_train.csv data file. Столбец y в нем указывает, подписан ли клиент на депозит с фиксированным сроком. Впоследствии он будет выбран в этом учебнике как целевой столбец для прогнозов.The y column indicates if a customer subscribed to a fixed term deposit, which is later identified as the target column for predictions in this tutorial.

Создание рабочей областиCreate a workspace

Рабочая область машинного обучения Azure — это основной ресурс в облаке для экспериментов, обучения и развертывания моделей машинного обучения.An Azure Machine Learning workspace is a foundational resource in the cloud that you use to experiment, train, and deploy machine learning models. Она связывает подписку и группу ресурсов Azure с легко используемым объектом в службе.It ties your Azure subscription and resource group to an easily consumed object in the service.

Вы создаете рабочую область с помощью Студии машинного обучения Azure — веб-консоли для управления ресурсами Azure.You create a workspace via the Azure Machine Learning studio, a web-based console for managing your Azure resources.

  1. Войдите на портал Azure с помощью учетных данных вашей подписки Azure.Sign in to the Azure portal by using the credentials for your Azure subscription.

  2. В верхнем левом углу окна портала Azure щелкните + Создать ресурс.In the upper-left corner of the Azure portal, select + Create a resource.

    Создать новый ресурс

  3. С помощью строки поиска выполните поиск по запросу Машинное обучение.Use the search bar to find Machine Learning.

  4. Выберите Машинное обучение.Select Machine Learning.

  5. В области Машинное обучение выберите Создать.In the Machine Learning pane, select Create to begin.

  6. Укажите следующие сведения для настройки новой рабочей области:Provide the following information to configure your new workspace:

    ПолеField ОПИСАНИЕDescription
    имя рабочей области.Workspace name Введите уникальное имя для идентификации рабочей области.Enter a unique name that identifies your workspace. В этом примере мы используем docs-ws.In this example, we use docs-ws. Имена должны быть уникальными в группе ресурсов.Names must be unique across the resource group. Используйте имя, которое позволит легко запомнить рабочую область и отличить ее от областей, созданных другими пользователями.Use a name that's easy to recall and to differentiate from workspaces created by others.
    SubscriptionSubscription Выберите подписку Azure, которую нужно использовать.Select the Azure subscription that you want to use.
    группа ресурсов.Resource group Используйте группу ресурсов, которая есть в подписке, или введите имя, чтобы создать группу ресурсов.Use an existing resource group in your subscription, or enter a name to create a new resource group. Группа ресурсов содержит связанные ресурсы для решения Azure.A resource group holds related resources for an Azure solution. В этом примере мы используем docs-aml.In this example, we use docs-aml.
    LocationLocation Выберите ближайшее к пользователям и ресурсам данных расположение, чтобы создать рабочую область.Select the location closest to your users and the data resources to create your workspace.
    Выпуск рабочей областиWorkspace edition Выберите выпуск Корпоративный.Select Enterprise. Для работы с этим руководством требуется выпуск "Корпоративный".This tutorial requires the use of the Enterprise edition. Корпоративный выпуск находится на стадии предварительной версии и в настоящее время не требует дополнительных затрат.The Enterprise edition is in preview and doesn't currently add any extra costs.
  7. Настроив рабочую область, щелкните Создать.After you're finished configuring the workspace, select Create.

    Предупреждение

    Создание рабочей области в облаке может занять несколько минут.It can take several minutes to create your workspace in the cloud.

    По завершении процесса появится сообщение об успешном развертывании.When the process is finished, a deployment success message appears.

  8. Чтобы просмотреть новую рабочую область, выберите Перейти к ресурсу.To view the new workspace, select Go to resource.

Важно!

Запишите рабочую область и подписку.Take note of your workspace and subscription. Они понадобятся вам для того, чтобы создать эксперимент в нужном месте.You'll need these to ensure you create your experiment in the right place.

Создание и запуск экспериментаCreate and run the experiment

Выполните следующие действия по настройке и выполнению эксперимента в студии машинного обучения Azure — объединенном интерфейсе, включающем в себя средства машинного обучения для выполнения сценариев обработки и анализа данных, основанных на всех уровнях навыков.You complete the following experiment set-up and run steps in Azure Machine Learning studio, a consolidated interface that includes machine learning tools to perform data science scenarios for data science practitioners of all skill levels. Студия не поддерживается в браузерах Internet Explorer.The studio is not supported on Internet Explorer browsers.

  1. Войдите в Студию машинного обучения Azure.Sign in to Azure Machine Learning studio.

  2. Выберите свою подписку и рабочую область, которую создали.Select your subscription and the workspace you created.

  3. Выберите Начать.Select Get started.

  4. На панели слева выберите Automated ML (Автоматизированное ML) в разделе Автор.In the left pane, select Automated ML under the Author section.

    Так как это ваш первый эксперимент автоматизированного машинного обучения, вы увидите пустой список и ссылки на документацию.Since this is your first automated ML experiment, you'll see an empty list and links to documentation.

    Студия машинного обучения Azure.

  5. Выберите New automated ML run (Новое выполнение автоматизированного машинного обучения).Select New automated ML run.

  6. Создайте набор данных, выбрав из раскрывающегося списка + Create DataSet (+Создать набор данных) пункт From local files (Из локальных файлов).Create a new dataset by selecting From local files from the +Create dataset drop-down.

    1. Щелкните Обзор.Select Browse.

    2. Выберите файл bankmarketing_train.csv на локальном компьютере.Choose the bankmarketing_train.csv file on your local computer. Это тот файл, который вы скачали при подготовке необходимых компонентов.This is the file you downloaded as a prerequisite.

    3. Выберите Tabular (Табличный) в качестве типа набора данных.Select Tabular as your dataset type.

    4. Присвойте набору данных уникальное имя и укажите дополнительное описание.Give your dataset a unique name and provide an optional description.

    5. Нажмите кнопку Далее внизу слева, чтобы отправить его в контейнер по умолчанию, который был автоматически настроен при создании рабочей области.Select Next on the bottom left, to upload it to the default container that was automatically set up during your workspace creation.

      Когда загрузка завершится, форма "Settings and preview" (Настройки и предварительный просмотр) будет автоматически заполнена в зависимости от типа файла.When the upload is complete, the Settings and preview form is pre-populated based on the file type.

    6. Убедитесь, что форма Settings and preview (Настройки и предварительный просмотр) заполнена, как описано ниже, и щелкните Далее.Verify that the Settings and preview form is populated as follows and select Next.

      ПолеField ОПИСАНИЕDescription Значение для руководстваValue for tutorial
      Формат файлаFile format Свойство определяет структуру и тип данных, хранящихся в файле.Defines the layout and type of data stored in a file. С разделителямиDelimited
      РазделительDelimiter Один или несколько символов для указания границы между  отдельными, независимыми регионами в виде простого текста или других потоков данных.One or more characters for specifying the boundary between  separate, independent regions in plain text or other data streams. ЗапятаяComma
      КодированиеEncoding Определяет, какой бит следует использовать в таблице схемы символов, чтобы считать набор данных.Identifies what bit to character schema table to use to read your dataset. UTF-8UTF-8
      Заголовки столбцовColumn headers Указывает, как будут обрабатываться заголовки набора данных, если таковые имеются.Indicates how the headers of the dataset, if any, will be treated. Все файлы имеют одинаковые заголовкиAll files have same headers
      Пропустить строкиSkip rows Указывает, сколько строк, если таковые имеются, пропускается в наборе данных.Indicates how many, if any, rows are skipped in the dataset. НетNone
    7. Форма Схема позволяет выполнять дальнейшую настройку данных для этого эксперимента.The Schema form allows for further configuration of your data for this experiment. В этом примере выберите переключатель для функции day_of_week, чтобы не включать его в этот эксперимент.For this example, select the toggle switch for the day_of_week feature, so as to not include it for this experiment. Щелкните Далее.Select Next.

      Конфигурация на вкладке "Предварительный просмотр"

    8. В форме Confirm details (Подтверждение сведений) проверьте правильность сведений, которые ранее были введены в формах Basic info (Базовые сведения) и Settings and preview (Параметры и просмотр).On the Confirm details form, verify the information matches what was previously populated on the Basic info and Settings and preview forms.

    9. Выберите Создать, чтобы завершить создание набора данных.Select Create to complete the creation of your dataset.

    10. Выберите набор данных, когда он появится в списке.Select your dataset once it appears in the list.

    11. Используйте Просмотр данных, чтобы убедиться, что вы не включили day_of_week, затем выберите ОК.Review the Data preview to ensure you didn't include day_of_week then, select OK.

    12. Нажмите кнопку Далее.Select Next.

  7. Заполните форму Configure Run (Настройка выполнения) следующим образом.Populate the Configure Run form as follows:

    1. Введите для эксперимента имя my-1st-automl-experiment.Enter this experiment name: my-1st-automl-experiment

    2. Выберите y в качестве столбца целевого объекта, для которого будут выполняться прогнозы.Select y as the target column, what you want to predict. Этот столбец содержит сведения о том, подписан ли клиент на срочный депозит или нет.This column indicates whether the client subscribed to a term deposit or not.

    3. Щелкните Create a new compute (Создать новую вычислительную среду) и настройте целевой объект вычислений.Select Create a new compute and configure your compute target. Целевым объектом вычислений называется локальная или облачная среда, в которой будет запущен сценарий обучения или размещена развернутая служба.A compute target is a local or cloud-based resource environment used to run your training script or host your service deployment. Для этого эксперимента мы используем облачный вычислительный ресурс.For this experiment, we use a cloud-based compute.

      ПолеField ОПИСАНИЕDescription Значение для руководстваValue for tutorial
      Имя вычислительной средыCompute name Уникальное имя для идентификации контекста вычислительной среды.A unique name that identifies your compute context. automl-computeautoml-compute
      Virtual machine sizeVirtual machine size Выберите размер виртуальной машины для вычислительной среды.Select the virtual machine size for your compute. Standard_DS12_V2Standard_DS12_V2
      Минимальное и максимальное кол-во узлов (в дополнительных параметрах)Min / Max nodes (in Advanced Settings) Для профилирования данных необходимо указать один или больше узлов.To profile data, you must specify 1 or more nodes. Min nodes (Минимум узлов): 1Min nodes: 1
      Max nodes (Максимум узлов): 6Max nodes: 6
      1. Выберите Создать, чтобы получить целевой объект вычислений.Select Create to get the compute target.

        Операция займет несколько минут.This takes a couple minutes to complete.

      2. Когда создание целевого объекта вычислений завершится, выберите его из раскрывающегося списка.After creation, select your new compute target from the drop-down list.

    4. Щелкните Далее.Select Next.

  8. В форме Тип и параметры задачи в качестве типа задачи машинного обучения выберите Классификация.On the Task type and settings form, select Classification as the machine learning task type.

    1. Выберите View additional configuration settings (Просмотреть дополнительные параметры конфигурации) и заполните поля следующим образом.Select View additional configuration settings and populate the fields as follows. Эти настройки предназначены для лучшего управления заданием для обучения.These settings are to better control the training job. В противном случае применяются значения по умолчанию, основанные на выборе эксперимента и данных.Otherwise, defaults are applied based on experiment selection and data.

      Примечание

      В рамках этого руководства не нужно задавать метрику или максимальное количество ядер для каждого порога итерации.In this tutorial, you won't set a metric score or max cores per iterations threshold. Также не требуется блокировать тестирование алгоритмов.Nor will you block algorithms from being tested.

      Дополнительные конфигурацииAdditional configurations ОПИСАНИЕDescription Значение для руководстваValue for tutorial
      Основная метрикаPrimary metric Оценочная метрика, по которой будет проверяться алгоритм машинного обучения.Evaluation metric that the machine learning algorithm will be measured by. AUC_weightedAUC_weighted
      Автоматическое выделение признаковAutomatic featurization Обеспечивает предварительную обработку.Enables preprocessing. Сюда входит автоматическая очистка данных, подготовка и преобразование для создания синтетических функций.This includes automatic data cleansing, preparing, and transformation to generate synthetic features. ВключениеEnable
      Запрещенные алгоритмыBlocked algorithms Алгоритмы, которые вы хотите исключить из задания обучения.Algorithms you want to exclude from the training job НетNone
      Критерий выходаExit criterion Если условия соблюдены, задание обучения останавливается.If a criteria is met, the training job is stopped. Время задания обучения (ч): 1Training job time (hours): 1
      Порог оценки метрики: НетMetric score threshold: None
      ПроверкаValidation Выберите тип перекрестной проверки и число тестов.Choose a cross-validation type and number of tests. Тип проверки:Validation type:
      перекрестная проверка в  k-кратном порядке . k-fold cross-validation

      Количество проверок: 2Number of validations: 2
      ПараллелизмConcurrency Максимальное число выполняемых параллельных итераций и ядер, используемых на итерацию.The maximum number of parallel iterations executed and cores used per iteration Максимальное число параллельных итераций: 5Max concurrent iterations: 5
      Максимальное число ядер на итерацию : НетMax cores per iteration: None

      Нажмите кнопку ОК.Select OK.

  9. Нажмите кнопку Создать, чтобы запустить эксперимент.Select Create to run the experiment. Откроется экран Сведения о выполнении, содержащий значение Состояние выполнения после начала подготовки эксперимента.The Run Detail screen opens with the Run status as the experiment preparation begins.

Важно!

Подготовка к запуску эксперимента занимает 10-15 минут.Preparation takes 10-15 minutes to prepare the experiment run. С начала эксперимента на каждую итерацию уходит 2-3 минуты.Once running, it takes 2-3 minutes more for each iteration.
Чтобы увидеть состояние выполнения в ходе выполнения эксперимента, периодически щелкайте Обновить.Select Refresh periodically to see the status of the run as the experiment progresses.

В рабочей среде у вас будет время заняться другими делами.In production, you'd likely walk away for a bit. Но в рамках этого руководства мы рекомендуем начинать изучение протестированных алгоритмов на вкладке "Модели" сразу по мере их появления, пока остальные алгоритмы еще выполняются.But for this tutorial, we suggest you start exploring the tested algorithms on the Models tab as they complete while the others are still running.

Изучение моделейExplore models

Перейдите на вкладку Модели, чтобы просмотреть протестированные алгоритмы (модели).Navigate to the Models tab to see the algorithms (models) tested. По умолчанию модели упорядочиваются по оценке метрики по мере их завершения.By default, the models are ordered by metric score as they complete. В этом учебнике в начале списка отображается модель, имеющая наибольшее значение по выбранной метрике AUC_weighted.For this tutorial, the model that scores the highest based on the chosen AUC_weighted metric is at the top of the list.

В ожидании завершения всех моделей эксперимента вы можете щелкнуть Algorithm name (Имя алгоритма) для любой завершенной модели, чтобы просмотреть сведения о ее эффективности.While you wait for all of the experiment models to finish, select the Algorithm name of a completed model to explore its performance details.

Чтобы просмотреть свойства, метрики и диаграммы эффективности выбранной модели, воспользуйтесь вкладками Сведения о модели и Визуализации.The following navigates through the Model details and the Visualizations tabs to view the selected model's properties, metrics and performance charts.

Сведения о выполнении итераций

Развертывание моделиDeploy the model

Автоматизированное машинное обучение в Студии машинного обучения Azure позволяет развернуть лучшую модель как веб-службу всего с помощью нескольких действий.Automated machine learning in Azure Machine Learning studio allows you to deploy the best model as a web service in a few steps. Развертывание — это интеграция модели для прогнозирования по новым данным и определения потенциальных новых возможностей.Deployment is the integration of the model so it can predict on new data and identify potential areas of opportunity.

Для этого эксперимента развертывание в веб-службе предоставит финансовому учреждению итеративное и масштабируемое решение для определения потенциальных клиентов по депозитам с фиксированным сроком.For this experiment, deployment to a web service means that the financial institution now has an iterative and scalable web solution for identifying potential fixed term deposit customers.

После завершения выполнения вернитесь на страницу Сведения о выполнении и выберите вкладку Модели. Выберите Обновить.Once the run is complete, navigate back to the Run Detail page and select the Models tab. Select Refresh.

В контексте этого эксперимента лучшей моделью принимается VotingEnsemble, исходя из значения метрики AUC_weighted.In this experiment context, VotingEnsemble is considered the best model, based on the AUC_weighted metric. Мы развернем эту модель. Учитывайте, что процесс развертывания занимает около 20 минут.We deploy this model, but be advised, deployment takes about 20 minutes to complete. Процесс развертывания выполняется за несколько шагов, включая регистрацию модели, создание ресурсов и их настройку для веб-службы.The deployment process entails several steps including registering the model, generating resources, and configuring them for the web service.

  1. Нажмите кнопку Deploy Best Model (Развернуть лучшую модель) в нижнем левом углу.Select the Deploy Best Model button in the bottom-left corner.

  2. Заполните панель Deploy a model (Развертывание модели), как показано ниже.Populate the Deploy a model pane as follows:

    ПолеField ЗначениеValue
    Deployment name (Имя развертывания)Deployment name my-automl-deploymy-automl-deploy
    Deployment description (Описание развертывания)Deployment description My first automated machine learning experiment deployment (Первое развертывание эксперимента автоматического машинного обучения)My first automated machine learning experiment deployment
    Тип вычисленияCompute type Выберите "Вычислительная операция Azure (ACI)"Select Azure Compute Instance (ACI)
    Включить проверку подлинностиEnable authentication Отключите.Disable.
    Использовать настраиваемые развертыванияUse custom deployments Отключите.Disable. Это позволяет автоматически создавать файл драйвера (скрипт оценки) и файл среды по умолчанию.Allows for the default driver file (scoring script) and environment file to be autogenerated.

    Для этого примера мы воспользуемся стандартными параметрами, доступными в меню Дополнительно.For this example, we use the defaults provided in the Advanced menu.

  3. Выберите Развернуть.Select Deploy.

    В верхней части экрана Выполнение появится сообщение об успешном выполнении, выделенное зеленым цветом, а под надписью Состояние развертывания на панели Рекомендуемая модель появится сообщение о состоянии.A green success message appears at the top of the Run screen, and in the Recommended model pane, a status message appears under Deploy status. Периодически щелкайте Обновить, чтобы проверять состояние развертывания.Select Refresh periodically to check the deployment status.

Теперь у вас есть рабочая веб-служба для создания прогнозов.Now you have an operational web service to generate predictions.

Перейдите к дальнейшим действиям, чтобы узнать больше о том, как использовать новую веб-службу, и протестируйте прогнозы, используя встроенную поддержку Power BI в Машинном обучении Azure.Proceed to the Next Steps to learn more about how to consume your new web service, and test your predictions using Power BI's built in Azure Machine Learning support.

Очистка ресурсовClean up resources

Файлы развертывания имеют больший размер, чем файлы данных и экспериментов, поэтому их хранение обходится дороже.Deployment files are larger than data and experiment files, so they cost more to store. Вы можете удалить только файлы развертывания, чтобы снизить затраты на учетную запись, если хотите сохранить рабочую области и файлы экспериментов.Delete only the deployment files to minimize costs to your account, or if you want to keep your workspace and experiment files. В противном случае, если вы не планируете дальше использовать эти файлы, удалите всю группу ресурсов.Otherwise, delete the entire resource group, if you don't plan to use any of the files.

Удаление промежуточного развертыванияDelete the deployment instance

Чтобы сохранить группу ресурсов и рабочую область для изучения других руководств и собственных исследований, удалите из Студии машинного обучения Azure только экземпляр развертывания.Delete just the deployment instance from the Azure Machine Learning studio, if you want to keep the resource group and workspace for other tutorials and exploration.

  1. Перейдите в Студию машинного обучения Azure.Go to the Azure Machine Learning studio. Перейдите в свою рабочую область и слева под областью Ресурсы выберите Конечные точки.Navigate to your workspace and on the left under the Assets pane, select Endpoints.

  2. Выберите развертывание для удаления и щелкните Удалить.Select the deployment you want to delete and select Delete.

  3. Выберите Продолжить.Select Proceed.

удаление группы ресурсов.Delete the resource group

Важно!

Созданные ресурсы могут использоваться в качестве необходимых компонентов при работе с другими руководствами по Машинному обучению Azure.The resources you created can be used as prerequisites to other Azure Machine Learning tutorials and how-to articles.

Если вы не планируете использовать созданные ресурсы, удалите их, чтобы с вас не взималась плата.If you don't plan to use the resources you created, delete them, so you don't incur any charges:

  1. На портале Azure выберите Группы ресурсов в левой части окна.In the Azure portal, select Resource groups on the far left.

    Удаление ресурсов на портале AzureDelete in the Azure portal

  2. В списке выберите созданную группу ресурсов.From the list, select the resource group you created.

  3. Выберите Удалить группу ресурсов.Select Delete resource group.

  4. Введите имя группы ресурсов.Enter the resource group name. Теперь щелкните Удалить.Then select Delete.

Дополнительная информацияNext steps

В ходе работы с этим руководством по автоматизированному машинному обучению вы создали и развернули модель классификации с помощью Студии машинного обучения Azure.In this automated machine learning tutorial, you used Azure Machine Learning studio to create and deploy a classification model. Дополнительные сведения и дальнейшие процедуры вы найдете в следующих статьях:See these articles for more information and next steps:

Примечание

Этот набор данных о банковском маркетинге предоставляется на условиях лицензии Creative Commons (CCO: Public Domain).This Bank Marketing dataset is made available under the Creative Commons (CCO: Public Domain) License. Все права на отдельное содержимое базы данных предоставляются на условиях лицензии на содержимое базы данных и доступны в Kaggle.Any rights in individual contents of the database are licensed under the Database Contents License and available on Kaggle. Этот набор данных изначально предоставлялся в базе данных UCI для машинного обучения.This dataset was originally available within the UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez and P. Rita.[Moro et al., 2014] S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. (Основанный на данных подход, позволяющий прогнозировать успешность телемаркетинга в банке.)A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems (Системы поддержки принятия решений), Elsevier, 62:22-31, Июнь 2014 г.Decision Support Systems, Elsevier, 62:22-31, June 2014.