Desempaquetar los conjuntos de datos comprimidos

Desempaquete conjuntos de datos de un paquete ZIP en el almacenamiento de usuarios

Categoría: Entrada y salida de datos

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Desempaquetar conjuntos de datos comprimidos en Machine Learning Studio (clásico) para cargar archivos de datos y scripts en formato comprimido y, a continuación, descomprimirlos para usarlos en un experimento.

El propósito de este módulo es reducir los tiempos de transferencia de datos cuando se trabaja con conjuntos de datos muy grandes guardando y cargando los archivos de datos en un formato comprimido. Por lo general, comprimir archivos es una buena opción cuando el conjunto de datos es tan grande que desea usar la compresión para la carga, para minimizar el tiempo de carga y los costos asociados.

El módulo toma como entrada un conjunto de datos en el área de trabajo. El conjunto de datos se debe haber cargado en un formato comprimido. A continuación, el módulo descomprime el conjunto de datos y agrega los datos al área de trabajo.

Cómo usar Desempaquetar conjuntos de datos comprimidos

En esta sección se describe cómo preparar los datos y, a continuación, descomprimirlos en Machine Learning Studio (clásico).

Paso 1. Preparación de los archivos

Antes de cargar el archivo, asegúrese de que los datos del archivo se pueden usar en Machine Learning:

  • Asegúrese de que los datos del archivo usan la codificación UTF-8.

    Si el archivo es lo suficientemente pequeño, puede abrirlo en Bloc de notas guardar el archivo en la codificación deseada. Muchos otros editores de texto ofrecen una funcionalidad similar. En el caso de los archivos CSV, puede Excel los comandos Guardar como o Exportar para especificar un formato de archivo y una codificación.

  • Compruebe que los archivos de datos usan un formato compatible, como CSV, TSV, ARFF o SVMLight.

  • Comprima los datos agregando el archivo de datos a un .ZIP o . Archivo de archivo de formato GZ. No se admiten otros tipos de archivo.

  • Quite la protección con contraseña. Si alguno de los archivos o la propia carpeta comprimida se ha cifrado o protegido con contraseña, debe desbloquear o descifrar el archivo antes de cargarlo. El módulo no puede detectar tipos de datos cifrados y no admite cuadros de diálogo para la entrada de contraseña de clientes arbitrarios.

Paso 2. Upload conjunto de datos al área de trabajo

A continuación, cargue el conjunto de datos comprimido en el área de trabajo del experimento.

  1. Haga clic en NUEVO, seleccione CONJUNTO DE DATOS y seleccione FROM LOCAL FILE (DESDE ARCHIVO LOCAL).

  2. Busque el archivo comprimido que se cargará. Al seleccionar el archivo, el tipo debe establecerse automáticamente en Archivo ZIP (.zip).

Paso 3. Adición de un conjunto de datos comprimido al experimento

Una vez que el conjunto de datos se haya cargado completamente, agrégarlo al experimento en formato comprimido.

  1. En el panel de navegación izquierdo de Machine Learning Studio (clásico), seleccione Conjuntos de datos guardados y expanda Mis conjuntos de datos.

  2. Busque el conjunto de datos comprimido que acaba de cargar y arrástrelo al lienzo del experimento.

Paso 4. Desempaquetar conjunto de datos

El último paso es desempaquetar el conjunto de datos.

  1. Conectar el conjunto de datos comprimido en la entrada del módulo Desempaquetar conjuntos de datos comprimidos.

  2. En Conjunto de datos para desempaquetar, escriba el nombre de un único conjunto de datos que se desempaquete.

    • Si guardó una hoja de cálculo con el nombre Sheet1 como un archivo CSV Excel denominado Test.csv, el nombre del conjunto de datos seríaTest.csv, no Sheet1.

    • El nombre que escriba en el cuadro de texto Conjunto de datos para desempaquetar debe ser exactamente el mismo que el nombre del archivo original antes de comprimirlo, incluida la extensión de nombre de archivo. Por ejemplo, si desea desempaquetar un conjunto de datos basado en el archivo de texto Users.txt, escribaUsers.txt, no Usuarios.

    • Si coloca varios archivos en una carpeta comprimida, debe desempaquetar un conjunto de datos a la vez.

    Sugerencia

    Si deja la propiedad en blanco, el módulo obtiene el nombre de archivo del archivo comprimido, suponiendo que el archivo de archivo comprimido contiene solo un archivo de código fuente. Si el archivo comprimido contiene varios archivos, se produce un error en tiempo de ejecución.

  3. En Formato de archivo de conjunto de datos, especifique el formato original del conjunto de datos: es decir, el formato antes de comprimirlo.

    Puede cargar y descomprimir conjuntos de datos creados con cualquiera de estos formatos: CSV, ARFF, TSV, SvmLight.

    Si esta propiedad se deja vacía, el módulo identifica el conjunto de datos mediante el nombre del archivo de origen.

  4. Seleccione la opción Archivo tiene fila de encabezado, si el conjunto de datos original tenía una fila de encabezado. De lo contrario, se usa la primera fila de datos como encabezado. Si esto no es lo que quiere, agregue un encabezado antes de la entrada.

    Esta opción solo se aplica a .CSV y . Archivos TSV.

    Nota:

    Si cambia el formato del archivo, esta opción se restablece.

  5. Si el archivo está comprimido, use la opción Formato de archivo de compresión para especificar el algoritmo que se usó para comprimir o expandir el archivo.

    Actualmente se admiten .ZIP y GZ (o Gzip).

  6. Ejecute el experimento.

Results

  • Para comprobar que los datos se importaron correctamente, haga clic con el botón derecho en el módulo Conjuntos de datos comprimidos desempaquetados y seleccione Visualizar .

  • Para cambiar el nombre del conjunto de datos, haga clic con el botón derecho en el módulo Conjuntos de datos comprimidos desempaquetados y seleccione Guardar como conjunto de datos. En este momento, puede escribir un nombre diferente.

    Esta opción es útil si va a desempaquetar varios conjuntos de datos de un solo archivo ZIP.

Ejemplos

Para demostrar cómo funciona este módulo, creamos un archivo de ejemplo .ZIP que contiene cuatro archivos CSV diferentes. Todos los archivos se guardaron de Excel.

Nombre de archivo Descripción
names-uni.csv Archivo Unicode con encabezados de columna
names-utf.csv Archivo UTF-8 con encabezados de columna
nonames-uni.csv Archivo Unicode sin encabezados de columna
nonames-utf8.csv Archivo UTF-8 sin encabezados de columna

Se cargó todo el archivo comprimido y, a continuación, el módulo Desempaquetar conjuntos de datos comprimidos se ha ejecutado cuatro veces para extraer cada uno de los cuatro archivos, con esta configuración:

  1. Conjunto de datos para desempaquetar = names-uni.csv, archivo tiene fila de encabezado = TRUE
  2. Conjunto de datos para desempaquetar = names-utf8.csv, archivo tiene fila de encabezado = TRUE
  3. Conjunto de datos para desempaquetar = nonames-uni.csv, archivo tiene fila de encabezado = FALSE
  4. Conjunto de datos para desempaquetar = nonames-utf8.csv, archivo tiene fila de encabezado = FALSE

Los resultados fueron los esperados:

Nombre de archivo Upload resultado
names-uni.csv Error 0049: Error al analizar el archivo. El archivo no está codificado en Unicode (UTF-8).
names-utf8.csv Correcto. Usa nombres de columna originales del archivo de código fuente.
nonames-uni.csv Error 0049: Error al analizar el archivo. El archivo no está codificado en Unicode (UTF-8).
nonames-utf8.csv Correcto. Nombres de columna Col1, col2, ... Coln se agrega automáticamente al conjunto de datos.

Nota:

Si usa la opción Archivo tiene una fila de encabezado = TRUE y el archivo de origen realmente no tiene un encabezado de columna, la primera fila de datos se usa como encabezado de columna.

Notas técnicas

No puede usar este módulo para desempaquetar paquetes de R comprimidos en el área de trabajo. Los paquetes de R se deben cargar y consumir como archivos comprimidos.

Para obtener más información sobre cómo trabajar con paquetes de R comprimidos, vea Ejecutar script de R.

Nota:

¿Está confuso sobre la diferencia entre UTF-8 y Unicode? Consulte este artículo de Wikipedia: ¿Qué es UTF-8?

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Formato de archivo de compresión Zip

Gzip
regla de compresión Zip Algoritmo de compresión utilizado para comprimir o expandir el archivo.
Conjunto de datos para desempaquetar Any Cadena ninguno Nombre del conjunto de datos que se registrará en Azure ML Studio (clásico). Si no se especifica el nombre de un conjunto de datos, el nombre se obtiene del nombre de archivo del archivo comprimido.
Formato de archivo de conjunto de datos CSV

TSV

ARFF

SVMLIGHT
Formato de archivo CSV Formato de archivo del conjunto de datos en el archivo comprimido
El archivo tiene la fila de encabezado TRUE/FALSE Boolean False Establezca en True solo si el archivo CSV/TSV tiene una fila de encabezado

Entradas esperadas

Nombre Tipo Descripción
Dataset Zip Archivo comprimido que contiene conjuntos de datos

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos de salida

Consulte también

Entrada y salida de datos