Импорт из локальной базы данных SQL Server

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описывается, как использовать модуль import Data (импорт данных ) в Машинное обучение Studio (классическая модель) для импорта данных из локальной SQL Server базы данных в эксперимент машинного обучения.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Машинное обучение может получить доступ к локальной базе данных SQL Server, если данные предоставляются с помощью шлюза Microsoft Управление данными. Поэтому перед использованием импорта данныхнеобходимо соблюдать следующие требования.

После установки подключения шлюза можно указать дополнительные свойства, такие как имена сервера и базы данных, метод проверки подлинности и запрос к базе данных.

установка шлюза Microsoft Управление данными

чтобы получить доступ к локальной базе данных SQL Server в Машинное обучение, необходимо скачать и установить шлюз Microsoft Управление данными, а затем зарегистрировать шлюз в Машинное обучение Studio (классическая модель).

Дополнительные сведения об установке и регистрации шлюза см. в следующих статьях:

импорт данных из локальной базы данных SQL Server

после установки шлюза Управление данными на компьютере, на котором он может получить доступ к базе данных SQL Server и вы зарегистрировали шлюз в Машинное обучение Studio (классическая модель), необходимо настроить модуль импорт данных .

Прежде чем начать, отключите для сайта studio.azureml.net блокирование всплывающих окон в браузере.

Если вы используете браузер Google Chrome, необходимо скачать и установить один из подключаемых модулей, доступных в Интернет-магазине Google Chrome: щелкните один раз в поле расширение приложения.

Использование мастера импорта данных

Модуль содержит новый мастер, помогающий выбрать вариант хранения, выбрать один из существующих подписок и учетных записей и быстро настроить все параметры.

  1. Добавьте модуль Импорт данных в эксперимент. Модуль можно найти в Studio (классическая модель) в категории входные и выходные данные .

  2. Щелкните запустить мастер импорта данных и следуйте инструкциям.

  3. После завершения настройки, чтобы фактически скопировать данные в эксперимент, щелкните модуль правой кнопкой мыши и выберите команду Выполнить выбранное.

Если необходимо изменить существующее подключение к данным, мастер загрузит все предыдущие сведения о конфигурации, чтобы не начинать с нуля.

Установка свойств вручную в модуле "Импорт данных"

  1. Добавьте модуль Импорт данных в эксперимент. Модуль можно найти в Studio (классическая модель) в категории входные и выходные данные .

  2. в качестве источника данныхвыберите локальный База данных SQL.

  3. задайте следующие параметры, относящиеся к SQL Server базе данных.

    • Data Gateway (шлюз данных). Выберите созданный шлюз. Шлюз должен быть зарегистрирован или не отображаться в списке.

    • имя сервера базы данных: введите имя экземпляра SQL Server.

    • Имя базы данных: введите имя базы данных.

    • Нажмите кнопку Enter values (Введите значения) в разделе Имя пользователя и пароль и введите учетные данные базы данных. Можно использовать встроенную аутентификацию Windows или аутентификацию SQL Server, в зависимости от настроек локального сервера SQL Server.

      Важно!

      диспетчер учетных данных должен быть запущен в той же сети, что и экземпляр SQL Server, и клиент шлюза. Учетные данные не могут передаваться между доменами.

    • введите или вставьте в базу данных запрос инструкции SQL, описывающей данные, которые необходимо считать. всегда проверяйте SQLную инструкцию и сначала проверяйте результаты запроса, используя такие средства, как Visual Studio обозреватель сервера или SQL Server Data Tools.

    • Если набор данных не должен изменяться между запусками эксперимента, выберите параметр использовать кэшированные результаты . Если этот параметр выбран, то при отсутствии других изменений параметров модуля эксперимент загрузит данные при первом запуске модуля, а затем будет использовать кэшированную версию набора данных.

  4. Запустите эксперимент.

Результаты

Поскольку данные импорта загружают данные в Studio (классическая модель), в зависимости от типов данных, используемых в базе данных-источнике, может быть выполнено неявное преобразование типов. Дополнительные сведения о типах данных см. в разделе типы данных модулей.

По завершении щелкните выходной набор данных и выберите визуализировать , чтобы узнать, успешно ли импортированы данные.

При необходимости можно изменить набор данных и его метаданные с помощью средств в Studio (классическая модель):

  • Используйте команду изменить метаданные , чтобы изменить имена столбцов, преобразовать столбец в другой тип данных или указать, какие столбцы являются метками или компонентами.

  • Для выбора подмножества столбцов используйте команду Выбор столбцов в наборе данных .

  • Используйте Partition и Sample для разделения набора данных по критериям или получения n верхних строк.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Часто задаваемые вопросы

Можно ли фильтровать данные по мере их считывания из источника?

Модуль импорта данных не поддерживает фильтрацию по мере считывания данных. Рекомендуется создать представление или определить запрос, создающий только нужные строки.

Примечание

Если вы загрузили больше данных, чем требуется, вы можете перезаписать кэшированный набор данных. Для этого необходимо считать новый набор данных и сохранить его под именем, идентичным имени большего, ранее записанного набора данных.

Почему возникает ошибка «тип Decimal не поддерживается»

при чтении данных из SQL базы данных может появиться сообщение об ошибке, сообщающее о неподдерживаемом типе данных.

если данные, получаемые из базы данных SQL, содержат типы данных, которые не поддерживаются в Машинное обучение, перед чтением данных следует привести или преобразовать десятичные числа в поддерживаемый тип данных. Причина в том, что Импорт данных не может автоматически выполнять преобразования, которые приведут к утрате точности.

Почему некоторые символы отображаются неправильно

Машинное обучение поддерживает кодировку UTF-8. Если в строковых столбцах базы данных используется другая кодировка, символы могут быть неправильно импортированы.

Одним из вариантов сохранения этих символов является экспорт данных в CSV-файл в службе хранилища Azure и использование параметра CSV с параметром Encoding для указания параметров для пользовательских разделителей, кодовой страницы и т. д.

я настроил шлюз Управление данными на локальном сервере. Можно ли совместно использовать один шлюз между рабочими областями

Нет. Для каждой рабочей области необходимо создать отдельный шлюз.

хотя в одной рабочей области можно настроить несколько шлюзов Управление данными (например, один для разработки, тестирования, рабочей среды и т. д.), шлюз нельзя совместно использовать в рабочих областях.

я настроил шлюз Управление данными на локальном сервере, который я использую для Power BI или Фабрика данных Azure и хочу использовать тот же шлюз для Машинное обучение

для каждой службы требуется отдельный шлюз Управление данными. если у вас уже есть шлюз, который используется для Power BI или Фабрика данных Azure, необходимо настроить отдельный сервер и установить шлюз для машинного обучения.

На одном сервере нельзя установить несколько шлюзов.

мне нужна возможность экспорта данных на локальный сервер SQL. можно ли использовать шлюз с модулем Export Data для записи данных на локальный SQL сервер?

в настоящее время Машинное обучение поддерживает только импорт данных. Мы оцениваем, сможете ли вы выполнять запись в локальную базу данных в будущем. тем временем вы можете использовать Фабрика данных Azure для копирования данных из облака в локальную базу данных.

у меня есть источник данных, который не Microsoft SQL Server (Oracle, Teradata и т. д.). можно ли читать данные в Машинное обучение с помощью локального параметра в модуле "импорт данных"?

в настоящее время модуль импорта данных Машинное обучение поддерживает только Microsoft SQL Server.

в качестве обходного решения можно использовать Фабрика данных Azure для копирования локальных данных в облачное хранилище, например Хранилище BLOB-объектов Azure или базу данных Azure, а затем использовать облачный источник данных в модуле импорт данных .

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Источник данных Список Источник данных или приемник хранилище BLOB-объектов Azure источником данных может быть HTTP, FTP, anonymous HTTPS или FTPS, файл в хранилище BLOB-объектов azure, таблица Azure, База данных SQL Azure, локальная SQL Server база данных, таблица Hive или конечная точка OData.
Шлюз данных any датагатевайнаме нет Имя шлюза данных
Имя сервера базы данных any Строка нет Локальный сервер SQL Server
Имя базы данных any Строка нет локальный экземпляр SQL Server базы данных
Имя пользователя и пароль. any SecureString нет Имя пользователя и пароль.
Запрос к базе данных any StreamReader нет локальный SQL запрос

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Набор данных с загруженными данными

Исключения

Исключение Описание
Ошибка 0027 Исключение возникает, если два объекта должны быть одинакового размера, но это не так.
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0029 Исключение возникает при передаче недопустимого универсального кода ресурса.
Ошибка 0030 Исключение возникает, когда не удается скачать файл.
Ошибка 0002 Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип.
Ошибка 0048 Исключение возникает, когда не удается открыть файл.
Ошибка 0015 Исключение возникает, если произошел сбой подключения к базе данных.
Ошибка 0046 Исключение возникает, если не удается создать каталог по указанному пути.
Ошибка 0049 Исключение возникает, когда не удается проанализировать файл.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Импорт данных
Экспорт данных
Импорт с URL-адреса в Интернете с использованием HTTP
Импорт из запроса Hive
Импорт из Базы данных SQL Azure
Импорт из таблицы Azure
Импорт из Хранилища BLOB-объектов Azure
Импорт из поставщиков веб-каналов данных