Подключение к данным с помощью Студии машинного обучения Azure

В этой статье вы узнаете, как получить доступ к данным с помощью Студии машинного обучение Azure. Подключайтесь к данным в службах хранилища Azure с помощью хранилищ данных машинного обучения Azure, а затем упаковывайте эти данные для задач в рабочих процессах машинного обучения с помощью наборов данных Машинного обучение Azure.

В таблице ниже определены и обобщены преимущества хранилищ данных и наборов данных.

Объект Описание Преимущества
Хранилища данных Безопасное подключение к службе хранилища в Azure путем сохранения сведений о подключении, таких как идентификатор подписки и авторизация маркеров в Key Vault, связанных с рабочей областью Поскольку ваша информация хранится безопасно, вам не потребуется:

  • Подвергать риску учетные данные для проверки подлинности или исходные источники данных.
  • Жестко кодировать данные в скриптах.
  • Наборы данных Создавая набор данных, вы создаете ссылку на расположение источника данных, а также копию его метаданных. С помощью наборов данных можно:

  • Осуществлять доступ к данным во время обучения модели.
  • Совместно использовать данные и совместно работать с другими пользователями.
  • Использовать библиотеки с открытым исходным кодом, такие как pandas, для изучения данных.
  • Поскольку наборы данных оцениваются в медленном режиме, и данные остаются в существующем расположении,

  • сохраняется одна копия данных в хранилище.
  • Снижаются расходы на хранение
  • Снижаются риски непреднамеренного изменения исходных источников данных.
  • Улучшается производительность рабочих процессов Машинного обучения.
  • Сведения о работе с хранилищами данных и наборами данных в общем рабочем процессе доступа к данным в Машинном обучении Azure см. в статье о безопасном доступе к данным.

    Сведения о подходе "сперва код" см. в следующих статьях, посвященных использованию Машинного обучения Azure Python SDK, чтобы:

    Предварительные требования

    • Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу. Попробуйте бесплатную или платную версию Машинного обучения Azure.

    • Доступ к Студии машинного обучения Azure.

    • Рабочая область машинного обучения Azure. См.раздел Создание ресурсов рабочей области.

      • При создании рабочей области в ней автоматически регистрируются контейнер BLOB-объектов Azure и общая папка Azure как источники данных рабочей области. Они называются workspaceblobstore и workspacefilestore, соответственно. Если хранилище BLOB-объектов достаточно для ваших потребностей, workspaceblobstore задается как хранилище данных по умолчанию и уже настроено для использования. В противном случае потребуется учетная запись хранилища в Azure с поддерживаемым типом хранилища.

    Создание хранилищ данных

    Хранилища данных можно создавать на основе этих решений службы хранилища Azure. Для неподдерживаемых решений хранилища и для снижения затрат на исходящие данные во время экспериментов c Машинным обучением необходимо переместить данные в поддерживаемое решение службы хранилища Azure. Дополнительные сведения о хранилищах данных.

    Вы можете создавать хранилища данных с доступом на основе учетных данных или на основе удостоверений.

    Создайте хранилище данных, выполнив всего несколько шагов в Студии машинного обучения Azure.

    Важно!

    Если учетная запись хранилища данных находится в виртуальной сети, необходимы дополнительные действия по настройке, чтобы обеспечить доступ к данным в студии. Соответствующие инструкции по настройке вы найдете в статье о сетевой изоляции и конфиденциальности.

    1. Войдите в Студию машинного обучения Azure.
    2. Выберите Данные в области слева в разделе Активы.
    3. В верхней части окна выберите Хранилища данных.
    4. Выберите +Создать.
    5. Заполните форму, чтобы создать и зарегистрировать новое хранилище данных. Форма самостоятельно интеллектуально обновится в соответствии с выбранным типом хранилища Azure и типа проверки подлинности. Сведения о том, где найти учетные данные для проверки подлинности, необходимые для заполнения этой формы, см. в разделе по доступу к хранилищу и разрешения.

    В следующем примере показано, как выглядит форма при создании хранилища BLOB-объектов Azure.

    Форма для нового хранилища данных.

    Создание ресурсов данных

    После формирования хранилища данных создайте набор данных для взаимодействия с данными. Наборы данных упаковывают ваши данные в медленном режиме в вычисляемый объект для задач машинного обучения, например для тренировки. Дополнительные сведения о наборах данных.

    Существует два типа наборов данных: FileDataset и TabularDataset. Наборы FileDatasets создают ссылки на один или несколько файлов или на общедоступные URL-адреса. Наборы же TabularDatasets представляют данные в табличном формате. TabularDatasets можно создать из файлов CSV, TSC, PARQUET, JSONL и из результатов SQL-запроса.

    Ниже описано, как создать набор данных в Студия машинного обучения Azure.

    Примечание

    Наборы данных, созданные с помощью Студии машинного обучения Azure, автоматически регистрируются в рабочей области.

    1. Перейдите к Студия машинного обучения Azure

    2. В разделе Ресурсы в области навигации слева выберите Данные. На вкладке Ресурсы данных выберите Создать На снимке экрана выделены элементы Создать на вкладке Ресурсы данных.

    3. Присвойте ресурсу данных имя и необязательное описание. Затем в разделе Тип выберите один из типов наборов данных: Файл или Табличные. На этом снимку экрана показано, как задать имя, описание и тип ресурса данных.

    4. У вас есть несколько вариантов для источника данных. Если данные уже хранятся в Azure, выберите "Из хранилища Azure". Если вы хотите отправить данные с локального диска, выберите "Из локальных файлов". Если данные хранятся в общедоступном веб-расположении, выберите "Из веб-файлов". Вы также можете создать ресурс данных из базы данных SQL или из открытых наборов данных Azure.

    5. Для шага выбора файла выберите, где должны храниться данные в Azure и какие файлы данных вы хотите использовать.

      1. Включите отказ от проверки, если данные находятся в виртуальной сети. Изучите вопросы изоляции и конфиденциальности виртуальной сети.
    6. Выполните действия, чтобы задать параметры синтаксического анализа данных и схему для ресурса данных. Параметры будут предварительно заполнены в зависимости от типа файла, и вы можете дополнительно настроить параметры перед созданием ресурса данных.

    7. Когда вы перейдете к шагу Проверка, нажмите кнопку Создать на последней странице.

    Предварительный просмотр данных и профиль

    После создания набора данных убедитесь, что вы можете просмотреть предварительный просмотр и профиль в студии, выполнив следующие действия.

    1. Войдите в Студию машинного обучения Azure.
    2. В разделе Ресурсы в области навигации слева выберите Данные. Снимок экрана: выделенный элемент
    3. Выберите имя набора данных для просмотра.
    4. Выберите вкладку Explore (Изучение).
    5. Выберите вкладку Предварительный просмотр . Снимок экрана: предварительный просмотр набора данных.
    6. Выберите вкладку Профиль . Снимок экрана: метаданные столбца набора данных на вкладке Профиль.

    Вы можете получить обширную сводную статистику по набору данных, чтобы проверить, готов ли он к машинному обучению. Для нечисловых столбцов она включает только базовые статистические данные, например минимальное и максимальное значение, а также число ошибок. Для числовых столбцов можно также просмотреть статистические моменты и предполагаемые квантили.

    В частности, профиль данных набора данных Машинного обучения Azure включает в себя:

    Примечание

    Для признаков с неуместными типами отображаются пустые записи.

    Статистика Описание
    Компонент Имя столбца, по которому предоставляется сводка.
    Профиль Встроенная визуализация на основе выводимого типа. Например, для строк, логических значений и дат будут отображаться счетчики значений, а для десятичных (числовых значений) — аппроксимированные гистограммы. Это позволит быстро получить представление о распределении данных.
    Распределение по типам Встроенный счетчик значений для типов в столбце. Значения NULL имеют собственный тип, поэтому эта визуализация полезна для обнаружения необычных или отсутствующих значений.
    Тип Выводимый тип столбца. Возможные значения: строчные и логические значения, даты и десятичные числа.
    Min Минимальное значение в столбце. Пустые записи отображаются для признаков, относящихся к типам без возможности упорядочивания (например, логические значения).
    Max Максимальное значение в столбце.
    Count Общее число отсутствующих и присутствующих записей в столбце.
    Присутствующее количество Количество присутствующих записей в столбце. Пустые строки и ошибки обрабатываются как значения, поэтому они не будут учитываться при подсчете количества присутствующих записей.
    Квантили Аппроксимированные значения в каждом квантиле для создания подобия распределения данных.
    Среднее значение Среднее арифметическое или среднее значение столбца.
    Стандартное отклонение Величина дисперсии или вариации данных в этом столбце.
    Variance Мера того, насколько сильно отклоняются данные этого столбца от среднего значения.
    Асимметрия Мера того, насколько отличаются данные этого столбца от нормального распределения.
    Эксцесс Мера того, насколько медленнее убывают данные этого столбца по сравнению с нормальным распределением.

    Доступ к хранилищу и разрешения

    Чтобы обеспечить безопасное подключение к службе хранилища Azure, Машинному обучению Azure требуется разрешение на доступ к соответствующему хранилищу данных. Этот доступ зависит от учетных данных проверки подлинности, используемых для регистрации хранилища данных.

    Виртуальная сеть

    Если учетная запись хранилища данных находится в виртуальной сети, необходимы дополнительные действия по настройке, чтобы обеспечить доступ к данным в студии Машинного обучения Azure. Соответствующие инструкции по настройке при создании и регистрации хранилища данных см. в статье Использование Студии машинного обучения Azure в виртуальной сети.

    Проверка доступа

    Предупреждение

    Кросс-клиентский доступ к учетным записям хранения не поддерживается. Если для вашего сценария требуется доступ между клиентами, обратитесь к псевдониму группы поддержки данных Машинного обучения Azure по адресу amldatasupport@microsoft.com для получения помощи с пользовательским решением для кода.

    В ходе создания и регистрации начального хранилища данных Машинное обучение Azure проверяет, существует ли базовая служба хранилища и имеет ли предоставленный пользователем субъект (имя пользователя, субъект-служба или маркер SAS) доступ к этому хранилищу.

    После создания хранилища данных эта проверка осуществляется только для методов, которым требуется доступ к базовому контейнеру хранилища, а не при каждом извлечении объектов хранилища данных. Например, проверка выполняется, если требуется скачать файлы из хранилища данных. Но если вы просто хотите изменить хранилище данных по умолчанию, проверки не будет.

    Чтобы проверить подлинность доступа к базовой службе хранилища, можно указать ключ учетной записи, маркеры общего доступа (SAS) или субъект-службу в соответствии с типом хранилища данных, который требуется создать. В матрице типа хранилища перечислены поддерживаемые типы проверки подлинности, соответствующие каждому типу хранилища данных.

    Сведения о ключе учетной записи, маркере SAS и субъекте-службе можно найти на портале Azure.

    • Если для проверки подлинности вы планируете использовать ключ учетной записи или маркер SAS, выберите элемент Учетные записи хранения на панели слева и выберите учетную запись хранения, которую требуется зарегистрировать.

      • На странице Обзор приводятся такие сведения, как имя учетной записи, контейнер и имя общей папки.
        1. Чтобы использовать ключи учетной записи, перейдите к элементу Ключи доступа на панели Параметры.
        2. Чтобы использовать маркеры SAS, перейдите к элементу Подписанные URL-адреса на панели Параметры.
    • Если вы планируете использовать субъект-службу для проверки подлинности, перейдите к Регистрации приложений и выберите приложение, которое вы хотите использовать.

      • На соответствующей странице Обзор находятся такие необходимые сведения, как идентификаторы клиентов (tenant ID и client iD).

    Важно!

    • Если необходимо изменить ключи доступа для учетной записи хранилища Azure (ключ учетной записи или маркер SAS), не забудьте синхронизировать новые учетные данные с рабочей областью и хранилищами данных, подключенными к ней. Изучите, как синхронизировать обновленные учетные данные.

    • При отмене регистрации и попытке повторной регистрации хранилища данных с тем же именем операция завершится сбоем, Azure Key Vault для вашей рабочей области не сможет включить обратимое удаление. По умолчанию обратимое удаление включается для экземпляра хранилища ключей, созданного рабочей областью, но оно может не включиться, если использовалось существующее хранилище ключей, или рабочая область была создана до октября 2020 г. О том, как включить обратимое удаление, см. в разделе Включение обратимого удаления для существующего хранилища ключей.

    Разрешения

    Для контейнера BLOB-объектов Azure и хранилища Azure Data Lake Gen 2 убедитесь, что учетные данные проверки подлинности имеют доступ роли читателя хранилища BLOB-объектов. Узнайте больше о роли читателя хранилища BLOB-объектов. По умолчанию маркер SAS учетной записи не имеет разрешений.

    • Для доступа на чтение данных учетные данные проверки подлинности должны иметь минимум из списка разрешений на чтение для контейнеров и объектов.

    • Для доступа на запись данных также требуются разрешения на запись и добавление.

    Обучение с наборами данных

    Используйте наборы данных в экспериментах машинного обучения для обучения моделей машинного обучения. Узнайте больше об обучении с наборами данных.

    Дальнейшие действия