Importar desde dirección web mediante HTTP

En este artículo se describe cómo usar el módulo importar datos en Azure machine learning Studio (clásico) para leer datos de una página web pública para su uso en un experimento de aprendizaje automático.

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Los datos publicados en una página web tienen las siguientes restricciones:

  • Los datos deben estar en uno de los formatos admitidos: CSV, TSV, ARFF o SvmLight. Otros datos provocarán errores.
  • No se requiere ni se admite la autenticación. Los datos deben estar disponibles públicamente.

Cómo importar datos a través de HTTP

Hay dos maneras de obtener datos: usar el asistente para configurar el origen de datos o configurarlo manualmente.

Usar el Asistente para importación de datos

  1. Agregue el módulo Importación de datos al experimento. Puede encontrar el módulo en Studio (clásico), en la categoría entrada y salida de datos .

  2. Haga clic en Iniciar el Asistente para importación de datos y seleccione Dirección web mediante HTTP.

  3. Pegue la dirección URL y seleccione un formato de datos.

  4. Una vez finalizada la configuración, haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.

Para editar una conexión de datos existente, vuelva a iniciar el asistente. El asistente carga todos los detalles de configuración anteriores para que no tenga que volver a empezar desde cero

Establecer manualmente las propiedades en el módulo Importar datos

En los pasos siguientes se describe cómo configurar manualmente el origen de la importación.

  1. Agregue el módulo Importación de datos al experimento. Puede encontrar el módulo en Studio (clásico), en la categoría entrada y salida de datos .

  2. Para Origen de datos, seleccione Dirección web mediante HTTP.

  3. Para URL, escriba o pegue la dirección URL completa de la página que contiene los datos que desea cargar.

    La dirección URL debe incluir la dirección URL del sitio y la ruta de acceso completa a la página que contiene los datos que se van a cargar, incluyendo el nombre de archivo y la extensión.

    Por ejemplo, la página siguiente contiene el conjunto de datos Iris del repositorio de aprendizaje automático de la Universidad de California, Irvine:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. Para Formato de datos, seleccione uno de los formatos de datos admitidos de la lista.

    Se recomienda que compruebe siempre los datos con antelación para determinar el formato. La página de la UC Irvine utiliza el formato CSV. Otros formatos de datos admitidos son TSV, ARFF y SvmLight.

  5. Si los datos están en formato CSV o TSV, use la opción El archivo tiene fila de encabezado para indicar si el origen de datos incluye una fila de encabezado. La fila de encabezado se usa para asignar nombres de columna.

  6. Seleccione la opción Usar resultados en caché si no prevé que los datos cambien mucho o si desea evitar tener que volver a cargar los datos cada vez que ejecute el experimento.

    Cuando se selecciona esta opción, el experimento carga los datos la primera vez que se ejecuta el módulo y, a partir de entonces, usa una versión almacenada en caché del conjunto de datos.

    Si desea volver a cargar el conjunto de resultados en cada iteración del conjunto de pruebas, anule la selección de la opción usar resultados almacenados en caché . Los resultados también se vuelven a cargar si se producen cambios en los parámetros de los datos de importación.

  7. Ejecute el experimento.

Results

Cuando haya terminado, haga clic en el conjunto de datos de salida y seleccione Visualizar para ver si los datos se han importado correctamente.

Ejemplos

Consulte estos ejemplos en el Azure AI Gallery de experimentos de aprendizaje automático que obtienen datos de sitios web públicos:

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Preguntas frecuentes

¿Se pueden filtrar los datos a medida que se leen desde el origen?

No. Esta opción no se admite con este origen de datos.

Después de leer los datos en Azure Machine Learning Studio (clásico), puede dividir el conjunto de datos, usar el muestreo y así sucesivamente para obtener solo las filas que desee:

  • Escriba un código R simple en el script de ejecución de r para obtener una parte de los datos por filas o columnas.

  • Use el módulo dividir datos con una expresión relativa o una expresión regular para aislar los datos que desee.

  • Si cargó más datos de los que necesita, sobrescriba el conjunto de datos almacenado en caché leyendo un nuevo conjunto de datos y guardándolo con el mismo nombre.

¿Cómo puedo evitar volver a cargar los mismos datos innecesariamente?

Si los datos de origen cambian, puede actualizar el conjunto de datos y agregar nuevos datos volviendo a ejecutar importar datos.

Si no desea volver a leer desde el origen cada vez que ejecute el experimento, seleccione la opción usar resultados almacenados en caché como true. Cuando esta opción se establece en TRUE, el módulo comprueba si el experimento se ejecutó previamente con las mismas opciones de entrada y de origen. Si se encuentra una ejecución anterior, se usan los datos de la memoria caché, en lugar de volver a cargar los datos desde el origen.

¿Por qué se agregó una fila adicional al final de mi conjunto de filas?

Si el módulo importar datos encuentra una fila de datos seguida de una línea vacía o un carácter de nueva línea final, se agrega una fila adicional al final de la tabla. Esta fila nueva contiene valores que faltan.

La razón para interpretar una nueva línea final como una nueva fila es que los datos de importación no pueden determinar la diferencia entre una línea vacía real y una línea vacía creada por el usuario al presionar entrar al final de un archivo.

Dado que algunos algoritmos de aprendizaje automático admiten datos que faltan y, por tanto, tratarían esta línea como un caso (lo que a su vez podría afectar a los resultados), debe usar limpiar datos que faltan para comprobar los valores que faltan (en particular, las filas que están completamente vacías) y quitarlos según sea necesario.

Antes de comprobar si hay filas vacías, es posible que también desee dividir el conjunto de datos con datos divididos. Esto separa las filas con valores que faltan parciales, que representan los valores que faltan reales en el origen de datos. Use la opción Seleccionar N filas de encabezado para leer la primera parte del conjunto de datos en un contenedor independiente de la última línea.

¿Por qué algunos caracteres del archivo de origen no se muestran correctamente?

Azure Machine Learning admite la codificación UTF-8. Si el archivo de origen utiliza otro tipo de codificación, puede que los caracteres no se importen correctamente.

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Origen de datos List Origen de datos o receptor Azure Blob Storage El origen de datos puede ser HTTP, FTP, HTTPS anónimo o FTPS, un archivo de Azure BLOB Storage, una tabla de Azure, una Azure SQL Database, una base de datos de SQL Server local, una tabla de Hive o un extremo de OData.
URL cualquiera String ninguno URL para HTTP
Formato de datos CSV

TSV

ARFF

SvmLight
Formato de datos CSV Tipo de archivo de origen HTTP
El archivo TSV o CSV tiene fila de encabezado TRUE/FALSE Boolean false Indica si el archivo CSV o TSV tiene una fila de encabezado
Usar resultados almacenados en caché TRUE/FALSE Boolean false El módulo solo se ejecuta si no existe una caché válida. De lo contrario, se usarán los datos almacenados en caché de la ejecución anterior.

Salidas

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos con datos descargados

Excepciones

Excepción Descripción
Error 0027 Se produce una excepción cuando dos objetos tienen que ser del mismo tamaño pero no lo son.
Error 0003 Se produce una excepción si una o varias de las entradas son nulas o están vacías.
Error 0029 Se produce una excepción cuando se pasa un URI no válido.
Error 0030 Se produce una excepción cuando no es posible descargar un archivo.
Error 0002 Se produce una excepción si uno o más parámetros no se pudieron analizar o convertir del tipo especificado al tipo requerido por el método de destino.
Error 0048 Se produce una excepción cuando no es posible abrir un archivo.
Error 0046 Se produce una excepción si no es posible crear el directorio en la ruta de acceso especificada.
Error 0049 Se produce una excepción cuando no es posible analizar un archivo.

Para obtener una lista de los errores específicos de los módulos de Studio (clásico), consulte Machine Learning de los códigos de error.

Para obtener una lista de excepciones de API, consulte códigos de error de la API de REST de machine learning.

Vea también

Importar datos
Exportar datos
Importar desde consulta de Hive
Importar desde Azure SQL Database
Importar desde la tabla de Azure
Importar desde Azure Blob Storage
Importar desde proveedores de fuentes de distribución de datos
Importar desde la base de datos de SQL Server local