Создание наборов данных для Машинного обучения Azure из Открытых наборов данных Azure

Внимание

Эта статья ссылается на CentOS, дистрибутив Linux, который приближается к состоянию конца жизни (EOL). Пожалуйста, рассмотрите возможность использования и планирования соответствующим образом. Дополнительные сведения см. в руководстве centOS End Of Life.

Из этой статьи вы узнаете, как перенести проверенные данные обогащения в локальные или удаленные эксперименты машинного обучения с помощью наборов данных Машинного обучения Azure и Открытых наборов данных Azure.

Создавая набор данных Машинного обучение Azure, вы создаете ссылку на расположение источника данных, а также копию его метаданных. Поскольку наборы данных оцениваются в медленном режиме и данные остаются в существующем расположении,

  • Дополнительная плата за хранение не взимается.
  • Снижаются риски непреднамеренного изменения исходных источников данных.
  • улучшается производительность рабочих процессов машинного обучения.

Сведения о работе с наборами данных в общем рабочем процессе доступа к данным в машинном обучении Azure см. в статье Безопасный доступ к данным.

Открытые наборы данных Azure — это проверенные общедоступные наборы данных, которые можно использовать для добавления функций для конкретных сценариев, чтобы расширить возможности прогнозных решений и повысить их точность. В разделе Каталог Открытых наборов данных см. сведения об общедоступных доменах, которые могут помочь в обучении моделей машинного обучения, таких как:

Открытые наборы данных находятся в облаке на Microsoft Azure и включены в пакет Python SDK для Машинного обучения Azure и в Студии Машинного обучения Azure.

Необходимые компоненты

Для работы с этой статьей вам потребуется:

Примечание.

Некоторые классы наборов данных имеют зависимости от пакета azureml-dataprep, совместимого только с 64-разрядным Python. В системе Linux эти классы поддерживаются только в следующих дистрибутивах: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) и CentOS (7).

Создание наборов данных при помощи пакета средств разработки

Чтобы создать наборы данных Машинного обучения Azure с помощью классов Открытых наборов данных Azure в пакете SDK для Python, убедитесь, что пакет установлен с использованием pip install azureml-opendatasets. Каждый дискретный набор данных представлен собственным классом в пакете SDK, а некоторые классы доступны в виде TabularDataset Машинного обучения Azure, FileDataset или и того и другого. Полный список классов см. в справочной документацииopendatasets.

Некоторые классы opendatasets можно извлечь как TabularDataset или FileDataset, что позволяет напрямую управлять файлами и (или) скачивать их. Другие классы могут получить набор данных только с помощью функций get_tabular_dataset() или get_file_dataset() из класса Dataset в пакете SDK Python.

В следующем коде показано, что класс MNIST opendatasets может возвращать значение TabularDataset или FileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

В этом примере класс Diabetes opendatasets доступен только в качестве TabularDataset, поэтому используется get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Регистрация наборов данных

Зарегистрируйте набор данных Машинного обучения Azure в рабочей области, чтобы вы могли поделиться ими с другими пользователями и использовать их в разных экспериментах в рабочей области. При регистрации набора данных Машинного обучения Azure, созданного из Открытых наборов данных, данные сразу не загружаются, но при запросе к данным они будут доступны позже (например, во время обучения) из центрального хранилища.

Чтобы зарегистрировать наборы данных в рабочей области, используйте метод register().

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Создание наборов данных с помощью студии

Вы также можете создавать наборы данных Машинного обучения Azure из Открытых наборов данных Azure с помощью Студии машинного обучения Azure, объединенного веб-интерфейса, включающего средства машинного обучения, для выполнения сценариев обработки и анализа данных для специалистов по обработке и анализу и обработке данных на всех уровнях навыков.

Примечание.

Наборы данных, созданные с помощью Студии машинного обучения Azure, автоматически регистрируются в рабочей области.

  1. В рабочей области перейдите на вкладку Наборы данных в разделе Ресурсы. В раскрывающемся меню Создать набор данных выберите пункт Из Открытых наборов данных.

    Открытый набор данных с пользовательским интерфейсом

  2. Выберите набор данных, щелкнув его плитку. (Можно выполнить фильтрацию с помощью панели поиска.) Нажмите кнопку Далее.

    Выбор набора данных

  3. Выберите имя, под которым будет зарегистрирован набор данных, и при необходимости отфильтруйте данные с помощью доступных фильтров. В этом случае для набора данных public holidays вы фильтруете период времени в один год и код страны только в США. Подробные сведения о данных, такие как описания полей и диапазоны дат, см. в разделе Каталог Открытых наборов данных Azure. Нажмите кнопку создания.

    Установка параметров набора данных и создание набора данных

    Набор данных теперь доступен в рабочей области в разделе Наборы данных. Его можно использовать точно так же, как и другие созданные наборы данных.

Доступ к наборам данных для экспериментов

Используйте наборы данных в экспериментах машинного обучения для обучения моделей машинного обучения. Узнайте больше об обучении с наборами данных.

Примеры записных книжек

Примеры и демонстрацию функций Открытых наборов данных см. в примерах записных книжек.

Следующие шаги