Importación desde Azure Table

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

En este artículo se describe cómo usar el módulo Importar datos en Machine Learning Studio (clásico) para importar datos estructurados o semiestructurados de tablas de Azure en un experimento de aprendizaje automático.

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Azure Table service es un servicio de administración de datos de Azure que puede almacenar grandes cantidades de datos estructurados y no relacionales. Se trata de un almacén de datos NoSQL que acepta llamadas autenticadas desde dentro y fuera de Azure.

La importación desde Azure Table Storage requiere que elija uno de los dos tipos de cuenta: una cuenta de almacenamiento a la que se puede acceder mediante una dirección URL de SAS o una cuenta de almacenamiento privada que requiera credenciales de inicio de sesión.

Importación de datos desde tablas de Azure

Usar el Asistente para importación de datos

El módulo incluye un nuevo asistente para ayudarle a elegir una opción de almacenamiento, seleccionar entre las suscripciones y cuentas existentes y configurar rápidamente todas las opciones.

  1. Agregue el módulo Importación de datos al experimento. Puede encontrar el módulo en Entrada y salida de datos.

  2. Haga clic en Iniciar el Asistente para importar datos y siga las indicaciones.

  3. Una vez completada la configuración, para copiar realmente los datos en el experimento, haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.

Si necesita editar una conexión de datos existente, el asistente carga todos los detalles de configuración anteriores para que no tenga que volver a empezar desde cero.

Establecer manualmente las propiedades en el módulo Importar datos

En los pasos siguientes se describe cómo configurar manualmente el origen de la importación.

  1. Agregue el módulo Importación de datos al experimento. Puede encontrar este módulo en el grupo Entrada y salida de datos en la lista de elementos del experimento en Machine Learning Studio (clásico).

  2. En Origen de datos, seleccione Tabla de Azure.

  3. Para Tipo de autenticación, elija Public (SAS URL) (Público [dirección URL de SAS]) si sabe que la información se ha proporcionado como origen de datos público. Una dirección URL de SAS es una dirección URL de acceso con límite de tiempo que se puede generar mediante una utilidad de almacenamiento de Azure.

    De lo contrario, elija Cuenta.

  4. Si los datos están en un blob público al que se puede acceder mediante una dirección URL de SAS, no necesita credenciales adicionales, ya que la cadena de dirección URL contiene toda la información necesaria para la descarga y autenticación.

    En el campo Table SAS URI (URI de SAS de tabla), escriba o pegue el URI completo que define la cuenta y el blob público.

    Nota:

    En una página accesible a través de la dirección URL de SAS, los datos solo se pueden almacenar con estos formatos: CSV, TSV y ARFF.

  5. Si los datos están en una cuenta privada, debe proporcionar credenciales, incluido el nombre de cuenta y la clave.

    • En Nombre de la cuenta de tabla, escriba o pegue el nombre de la cuenta que contiene el blob al que desea acceder.

      Por ejemplo, si la dirección URL completa de la cuenta de almacenamiento es https://myshared.table.core.windows.net, escribiría myshared.

    • En Clave de cuenta de tabla, pegue la clave de acceso asociada a la cuenta de almacenamiento.\

      Si no conoce la clave de acceso, consulte la sección "Ver, copiar y regenerar claves de acceso de almacenamiento" en este artículo: Acerca de Azure Storage Cuentas.

    • En Nombre de tabla, escriba el nombre de la tabla específica que desea leer.

  6. Elija una opción que indique cuántas filas debe examinar importar datos. Importar datos usa el examen para obtener la lista de columnas de los datos y para determinar cuáles deben ser los tipos de datos de columna.

    • TopN: analice solo el número especificado de filas, empezando desde la parte superior del conjunto de datos.

      De forma predeterminada, se examinan 10 filas, pero puede aumentar o disminuir ese valor mediante la opción Recuento de filas para TopN .

      Si los datos son homogéneos y predecibles, seleccione TopN y escriba un número para N. En el caso de las tablas grandes, esto puede dar lugar a tiempos de lectura más rápidos.

    • ScanAll: examinar todas las filas de la tabla.

      Si los datos están estructurados con conjuntos de propiedades que varían en función de la profundidad y la posición de la tabla, elija la opción ScanAll para examinar todas las filas. Esto garantiza la integridad de la propiedad resultante y la conversión de metadatos.

  7. Indique si desea que los datos se actualicen cada vez que se ejecute el experimento. Si selecciona la opción Usar resultados almacenados en caché (valor predeterminado), el módulo Importar datos leerá los datos del origen especificado la primera vez que se ejecute el experimento y, a continuación, almacenará en caché los resultados. Si hay algún cambio en los parámetros del módulo Importar datos, los datos se cargan de nuevo.

    Si anula la selección de esta opción, los datos se leerán del origen cada vez que se ejecute el experimento, independientemente de si los datos son iguales o no.

Ejemplos

Para obtener ejemplos de cómo usar el módulo Exportar datos, vea el Azure AI Gallery.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Preguntas frecuentes

¿Cómo puedo evitar volver a cargar innecesariamente los mismos datos?

Si los datos de origen cambian, puede actualizar el conjunto de datos y agregar nuevos datos si vuelve a ejecutar Importar datos. Sin embargo, si no desea volver a leer el origen cada vez que ejecute el experimento, seleccione TRUE para la opción Use cached results (Utilizar resultados almacenados en caché). Cuando esta opción se establece en TRUE, el módulo comprueba si el experimento se ha ejecutado previamente con el mismo origen y las mismas opciones de entrada, y si se encuentra una ejecución anterior, se usan los datos de la memoria caché, en lugar de volver a cargar los datos del origen.

¿Puedo filtrar los datos mientras se leen desde el origen?

El módulo Importar datos no admite el filtrado mientras se leen los datos. La excepción es la lectura de fuentes de distribución de datos, que a veces permiten especificar una condición de filtro como parte de la dirección URL de fuente.

Sin embargo, puede cambiar o filtrar los datos después de leerlo en Machine Learning Studio (clásico):

  • Use un script de R personalizado para cambiar o filtrar datos.
  • Use el módulo Split Data (Dividir datos) con una expresión relativa o una expresión regular para aislar los datos que desea y, a continuación, guárdelos como un conjunto de datos.

Nota:

Si descubre que ha cargado más datos de los que necesita, puede sobrescribir el conjunto de datos en caché. Para ello, lea un nuevo conjunto de datos y guárdelo con el mismo nombre que los datos más antiguos y más grandes.

¿Cómo controla Import Data los datos cargados desde diferentes regiones geográficas?

Si la cuenta de almacenamiento de blobs o tablas se encuentra en una región diferente del nodo de proceso usado para el experimento de aprendizaje automático, el acceso a los datos podría ser más lento. Además, se le cobrará por la entrada y salida de datos en la suscripción.

¿Por qué algunos caracteres de la tabla no se muestran correctamente?

Machine Learning admite la codificación UTF-8. Si la tabla usa otra codificación, es posible que los caracteres no se importen correctamente.

¿Hay algún carácter o carácter prohibido que se cambie durante la importación?

Si los datos de atributo contienen comillas o secuencias de caracteres de escape, se controlarán mediante las reglas para dichos caracteres de Microsoft Excel. Todos los demás caracteres se controlan mediante las siguientes especificaciones como guía: RFC 4180.

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Default
Origen de datos Lista Origen de datos o receptor Azure Blob Storage El origen de datos puede ser HTTP, FTP, HTTPS anónimo o FTPS, un archivo en Azure BLOB Storage, una tabla de Azure, un Azure SQL Database, una base de datos SQL Server local, una tabla de Hive o un punto de conexión de OData.
Tipo de autenticación PublicOrSas

Cuenta
tableAuthType Cuenta Especifique si los datos están en un contenedor público accesible a través de la dirección URL de SAS o si están en una cuenta de almacenamiento privada que requiere autenticación para el acceso.

Pública o SAS: opciones de almacenamiento público

Nombre Intervalo Tipo Valor predeterminado Descripción
URI de tabla cualquiera String
Filas para buscar nombres de propiedad vía SAS integer
Recuento de filas para TopN vía SAS

Cuenta: opciones de almacenamiento privado

Nombre Intervalo Tipo Valor predeterminado Descripción
Nombre de cuenta de tabla
Clave de cuenta de tabla cualquiera SecureString
Nombre de la tabla cualquiera
Filas para buscar nombres de propiedad TopN

ScanAll
Recuento de filas para TopN cualquiera integer

Salidas

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos con datos descargados

Excepciones

Excepción Descripción
Error 0027 Se produce una excepción cuando dos objetos tienen que ser del mismo tamaño pero no lo son.
Error 0003 Se produce una excepción si una o varias de las entradas son nulas o están vacías.
Error 0029 Se produce una excepción cuando se pasa un URI no válido.
Error 0030 Se produce una excepción cuando no es posible descargar un archivo.
Error 0002 Se produce una excepción si uno o más parámetros no se pudieron analizar o convertir del tipo especificado al tipo requerido por el método de destino.
Error 0009 Se produce una excepción si se especifica incorrectamente el nombre de la cuenta de almacenamiento de Azure o el nombre del contenedor.
Error 0048 Se produce una excepción cuando no es posible abrir un archivo.
Error 0046 Se produce una excepción si no es posible crear el directorio en la ruta de acceso especificada.
Error 0049 Se produce una excepción cuando no es posible analizar un archivo.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Import Data
Export Data
Importar desde una dirección web mediante HTTP
Importar desde una consulta de Hive
Importación desde Azure SQL Database
Importación desde Azure Blob Storage
Importar desde los proveedores de fuentes de distribución de datos
Importar desde la base de datos de SQL Server local