Импорт с URL-адреса в Интернете с использованием HTTP

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

в этой статье описывается, как использовать модуль Import Data (импорт данных ) в Машинное обучение Studio (классическая модель) для чтения данных из общедоступной веб-страницы для использования в эксперименте машинного обучения.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

К данным, опубликованным на веб-странице, применяются следующие ограничения.

Данные должны быть в одном из поддерживаемых форматов: CSV, TSV, ARFF или SvmLight. Другие данные приведут к ошибкам.
Проверка подлинности не требуется или не поддерживается. Данные должны быть общедоступными.

Импорт данных с помощью HTTP

Получить данные можно двумя способами: с помощью мастера настройте источник данных или настройте его вручную.

Использование мастера импорта данных

Добавьте модуль Импорт данных в эксперимент. Модуль можно найти в Studio (классическая модель) в категории входные и выходные данные .
Щелкните запустить мастер импорта данных и выберите URL-адрес через HTTP.
Вставьте URL-адрес и выберите формат данных.
После завершения настройки щелкните правой кнопкой мыши модуль и выберите пункт Выполнить выбранное.

Чтобы изменить существующее подключение к данным, запустите мастер еще раз. Мастер загрузит все предыдущие сведения о конфигурации, чтобы не приступить к повторному запуску с нуля.

Установка свойств вручную в модуле "Импорт данных"

Следующие шаги описывают настройку источника импорта вручную.

Добавьте модуль Импорт данных в эксперимент. Модуль можно найти в Studio (классическая модель) в категории входные и выходные данные .
В качестве источника данныхвыберите URL-адрес в Интернете через HTTP.
В поле URL-адресвведите или вставьте полный URL-адрес страницы, содержащей данные, которые требуется загрузить.

URL-адрес должен содержать URL-адрес сайта и полный путь, с именем и расширением файла, на страницу, содержащую данные для загрузки.

Например, на следующей странице приведен набор данных IRI из репозитория машинного обучения штата Калифорния, Ирвин:

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
В поле Формат данныхвыберите один из поддерживаемых форматов данных из списка.

Рекомендуется всегда проверять данные, чтобы определить формат. На странице UC Ирвин используется формат CSV. Другие поддерживаемые форматы данных: TSV, ARFF и SvmLight.
Если данные представлены в формате CSV или TSV, используйте параметр « файл содержит строку заголовка », чтобы указать, содержат ли исходные данные строку заголовка. Строка заголовка используется для назначения имен столбцов.
Установите флажок использовать кэшированные результаты , если вы не предполагаете, что данные изменяют много, или если вы хотите избежать перезагрузки данных при каждом запуске эксперимента.

Если выбран этот параметр, эксперимент загружает данные при первом запуске модуля, а затем использует кэшированную версию набора данных.

Если необходимо повторно загрузить набор данных при каждой итерации набора данных эксперимента, снимите флажок использовать кэшированные результаты . Кроме того, результаты повторно загружаются при наличии изменений параметров импорта данных.
Запустите эксперимент.

Результаты

По завершении щелкните выходной набор данных и выберите визуализировать , чтобы узнать, успешно ли импортированы данные.

Примеры

Эти примеры приведены в Коллекция решений ии Azure экспериментов машинного обучения, которые получают данные с общедоступных веб-сайтов:

Пример распознавания букв: получает набор данных для обучения из репозитория общедоступного машинного обучения, размещенного в UC Ирвин.
Загрузить набор данных UCI: считывает набор данных в формате CSV.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Часто задаваемые вопросы

Можно ли фильтровать данные по мере их считывания из источника

Нет. Этот параметр не поддерживается для этого источника данных.

после считывания данных в Машинное обучение Studio (классическая модель) можно разделить набор данных, использовать выборку и т. д., чтобы получить только нужные строки:

Напишите некоторый простой код R в скрипте Execute r , чтобы получить часть данных по строкам или столбцам.
Используйте модуль Split Data (разделение данных ) с относительным выражением или регулярным выражением для изоляции нужных данных.
Если вы загрузили больше данных, чем требуется, перепишите кэшированный набор данных, прочитав новый набор данных и сохранив его с тем же именем.

Как избежать повторной загрузки одних и тех же данных

При изменении исходных данных можно обновить набор данных и добавить новые данные путем повторного выполнения импорта данных.

Если вы не хотите повторно считывать из источника при каждом запуске эксперимента, установите для параметра использовать кэшированные результаты значение true. Если этот параметр имеет значение TRUE, модуль проверяет, выполнялся ли этот эксперимент ранее, используя тот же источник и те же параметры ввода. Если предыдущий запуск найден, используются данные в кэше вместо повторной загрузки данных из источника.

Почему в конец набора данных была добавлена дополнительная строка

Если модуль Импорт данных встречает строку данных, за которой следует пустая строка или символ новой строки, в конец таблицы добавляется дополнительная строка. Эта новая строка содержит недостающие значения.

Причиной интерпретации новой строки в качестве новой строки является то, что данные импорта не могут определить разницу между фактической пустой строкой и пустой строкой, созданной пользователем нажатием клавиши Ввод в конце файла.

Поскольку некоторые алгоритмы машинного обучения поддерживают отсутствующие данные и, таким образом, обрабатывают эту строку как вариант (что, в свою очередь, может повлиять на результаты), следует использовать чистые отсутствующие данные для проверки отсутствующих значений (в частности, полностью пустых строк) и удалять их по мере необходимости.

Перед продолжением проверки на наличие пустых строк может также потребоваться разделить набор данных с помощью разбиения данных. Эта операция отделяет строки с частично недостающими значениями, которые являются фактическими недостающими значениями в исходных данных. Используйте параметр Выбор N строк заголовка для считывания первой части набора данных в отдельном контейнере из последней строки.

Почему некоторые символы в исходном файле отображаются неправильно

Машинное обучение поддерживает кодировку UTF-8. Если в исходном файле используется другой тип кодировки, символы могут импортироваться неправильно.

Параметры модуля

Имя	Диапазон	Тип	По умолчанию	Описание
Источник данных	Список	Источник данных или приемник	хранилище BLOB-объектов Azure	источником данных может быть HTTP, FTP, anonymous HTTPS или FTPS, файл в хранилище BLOB-объектов azure, таблица Azure, База данных SQL Azure, локальная SQL Server база данных, таблица Hive или конечная точка OData.
URL-адрес	any	Строка	нет	URL-адрес для HTTP
Формат данных	CSV TSV ARFF SvmLight	Формат данных	CSV	Тип файла источника HTTP
CSV- или TSV-файл содержит строку заголовков	True или false	Логическое	false	Указывает, содержит ли CSV-файл или TSV строку заголовка
Использование кэшированных результатов	True или false	Логическое	FALSE	Модуль выполняется, только если не существует допустимого кэша. В противном случае используется кэшированные данные из предыдущего выполнения.

Выходные данные

Имя	Тип	Описание
Набор данных результатов	Таблица данных	Набор данных с загруженными данными

Исключения

Исключение	Описание
Ошибка 0027	Исключение возникает, если два объекта должны быть одинакового размера, но это не так.
Ошибка 0003	Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0029	Исключение возникает при передаче недопустимого универсального кода ресурса.
Ошибка 0030	Исключение возникает, когда не удается скачать файл.
Ошибка 0002	Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип.
Ошибка 0048	Исключение возникает, когда не удается открыть файл.
Ошибка 0046	Исключение возникает, если не удается создать каталог по указанному пути.
Ошибка 0049	Исключение возникает, когда не удается проанализировать файл.

список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.

список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Импорт данных
Экспорт данных
Импорт из запроса Hive
Импорт из Базы данных SQL Azure
Импорт из таблицы Azure
Импорт из Хранилища BLOB-объектов Azure
Импорт из поставщиков веб-каналов данных
Импорт из локальной базы данных SQL Server