Desempaquetar los conjuntos de datos comprimidos

Desempaquetar los conjuntos de valores de un paquete zip en el almacenamiento de usuario

Categoría: entrada y salida de datos

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo unpack Compressed datasets en Azure machine learning Studio (clásico) para cargar datos y archivos de script en formato comprimido y, a continuación, descomprimirlos para usarlos en un experimento.

El propósito de este módulo es reducir los tiempos de transferencia de datos al trabajar con conjuntos de datos muy grandes guardando y cargando los archivos de datos en un formato comprimido. Por lo general, comprimir files es una buena opción cuando el conjunto de archivos es tan grande que desea usar la compresión para la carga, con el fin de minimizar el tiempo de carga y los costos asociados.

El módulo toma como entrada un conjunto de datos en el área de trabajo. El conjunto de DataSet debe haberse cargado en un formato comprimido. A continuación, el módulo descomprime el conjunto de datos y agrega los datos al área de trabajo.

Cómo usar los conjuntos de valores de unpack comprimidos

En esta sección se describe cómo preparar los datos y, a continuación, descomprimirlos en Azure Machine Learning Studio (clásico).

Paso 1. Preparación de los archivos

Antes de cargar el archivo, asegúrese de que los datos del archivo se pueden usar en Azure Machine Learning:

  • Asegúrese de que los datos del archivo utilizan la codificación UTF-8.

    Si el archivo es lo suficientemente pequeño, puede abrirlo en el Bloc de notas y, a continuación, guardar el archivo en la codificación deseada. Muchos otros editores de texto ofrecen una funcionalidad similar. En el caso de los archivos CSV, puede usar los comandos Guardar como o exportar de Excel para especificar un formato de archivo y una codificación.

  • Compruebe que los archivos de datos usan un formato admitido, como CSV, TSV, ARFF o SVMLight.

  • Comprimir los datos agregando el archivo de datos a un. ZIP o. Archivo de almacenamiento de formato GZ. No se admiten otros tipos de archivo.

  • Quitar la protección con contraseña. Si alguno de los archivos o la carpeta comprimida se ha cifrado o protegido con contraseña, debe desbloquear o descifrar el archivo antes de cargarlo. El módulo no puede detectar tipos de datos cifrados y no admite cuadros de diálogo para la entrada de contraseña de clientes arbitrarios.

Paso 2. Carga del conjunto de trabajo en el área de trabajo

Después, cargue el conjunto de pruebas comprimido en el área de trabajo del experimento.

  1. Haga clic en nuevo, seleccione conjunto de archivos y seleccione desde archivo local.

  2. Busque el archivo comprimido que se va a cargar. Al seleccionar el archivo, el tipo debe establecerse automáticamente en archivo zip (. zip).

Paso 3. Agregar conjunto de los conjuntos comprimidos al experimento

Una vez cargado el conjunto de los conjuntos de los mismos, agréguelo al experimento en formato comprimido.

  1. En el panel de navegación izquierdo de Azure Machine Learning Studio (clásico), seleccione conjuntos de valores guardados y, a continuación, expanda mis conjuntos de valores.

  2. Busque el conjunto de los conjuntos de los comprimidos que acaba de cargar y arrástrelo al lienzo del experimento.

Paso 4. Desempaquetar conjunto de

El último paso es desempaquetar el conjunto de de.

  1. Conecte el conjunto de datos comprimido a la entrada del módulo desempaquetar conjuntos de datos comprimidos .

  2. En DataSet to unpack, escriba el nombre de un único conjunto de nombres para desempaquetar.

    • Si guardó una hoja de cálculo con el nombre Hoja1 como un archivo CSV de Excel denominado Test.csv, el nombre del conjunto de archivos sería Test.csv, no Hoja1.

    • El nombre que escriba en el cuadro de texto DataSet to unpack debe ser exactamente el mismo que el nombre del archivo original antes de comprimirlo, incluida la extensión de nombre de archivo. Por ejemplo, si desea desempaquetar un conjunto de archivos basado en el archivo de texto Users.txt, escriba Users.txt, no usuarios.

    • Si coloca varios archivos en una sola carpeta comprimida, debe desempaquetar un conjunto de archivos a la vez.

    Sugerencia

    Si deja la propiedad en blanco, el módulo obtiene el nombre de archivo del archivo comprimido, suponiendo que el archivo comprimido contiene un solo archivo de origen. Si el archivo comprimido contiene varios archivos, se genera un error en tiempo de ejecución.

  3. En el formato de archivo DataSet, especifique el formato original del conjunto de los conjuntos de archivos: es decir, el formato antes de comprimirlo.

    Puede cargar y descomprimir los conjuntos de valores que se crearon con cualquiera de estos formatos: CSV, ARFF, TSV, SvmLight.

    Si esta propiedad se deja vacía, el módulo identifica el conjunto de archivos usando el nombre del archivo de código fuente.

  4. Seleccione la opción el archivo tiene la fila de encabezado si el conjunto de filas original tenía una fila de encabezado. De lo contrario, la primera fila de datos se utiliza como encabezado. Si no es lo que desea, agregue un encabezado antes de la entrada.

    Esta opción solo se aplica a. CSV y. Archivos TSV.

    Nota

    Si cambia el formato del archivo, se restablece esta opción.

  5. Si el archivo está comprimido, use la opción de formato de archivo de compresión para especificar el algoritmo que se usó para comprimir o expandir el archivo.

    Actualmente, el. Se admiten los formatos ZIP y GZ (o gzip).

  6. Ejecute el experimento.

Results

  • Para comprobar que los datos se importaron correctamente, haga clic con el botón derecho en el módulo conjuntos de datos comprimidos desempaquetados y seleccione visualizar .

  • Para cambiar el nombre del conjunto de cambios, haga clic con el botón derecho en el módulo conjuntos de valores comprimidos desempaquetados y seleccione Guardar como conjunto de cambios. En este punto puede escribir un nombre diferente.

    Esta opción es útil si va a Desempaquetar varios conjuntos de archivos de un solo archivo ZIP.

Ejemplos

Para demostrar cómo funciona este módulo, creamos un ejemplo. Archivo ZIP que contiene cuatro archivos CSV distintos. Todos los archivos se guardaron desde Excel.

Nombre de archivo Descripción
names-uni.csv Archivo Unicode con encabezados de columna
names-utf.csv Archivo UTF-8 con encabezados de columna
nonames-uni.csv Archivo Unicode sin encabezados de columna
nonames-utf8.csv Archivo UTF-8 sin encabezados de columna

Se cargó todo el archivo comprimido y, a continuación, se ejecutó el módulo unpack comported datasets cuatro veces para extraer cada uno de los cuatro archivos con esta configuración:

  1. Conjunto de archivos para desempaquetar = names-uni.csv, el archivo tiene la fila de encabezado = true
  2. Conjunto de archivos para desempaquetar = names-utf8.csv, el archivo tiene la fila de encabezado = true
  3. Conjunto de archivos para desempaquetar = nonames-uni.csv, el archivo tiene la fila de encabezado = false
  4. Conjunto de archivos para desempaquetar = nonames-utf8.csv, el archivo tiene la fila de encabezado = false

Los resultados eran los esperados:

Nombre de archivo Resultado de carga
names-uni.csv Error 0049: error al analizar el archivo. El archivo no es de codificación Unicode (UTF-8)
names-utf8.csv Correcto. Utiliza los nombres de columna originales del archivo de código fuente.
nonames-uni.csv Error 0049: error al analizar el archivo. El archivo no es de codificación Unicode (UTF-8)
nonames-utf8.csv Correcto. Nombres de columna col1, col2,... col n se agrega automáticamente al conjunto de DataSet.

Nota

Si usa la opción, el archivo tiene el encabezado Row = true y el archivo de origen realmente no tiene un encabezado de columna, la primera fila de datos se usa como encabezado de columna.

Notas técnicas

No puede usar este módulo para desempaquetar paquetes de R comprimidos en el área de trabajo. Los paquetes de R se deben cargar y consumir como archivos comprimidos.

Para obtener más información sobre cómo trabajar con paquetes de R comprimidos, vea Ejecutar script de r.

Nota

¿Se confunde la diferencia entre UTF-8 y Unicode? Consulte este artículo de Wikipedia: Qué es UTF-8

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Formato de archivo de compresión Zip

Gzip
regla de compresión Zip Algoritmo de compresión utilizado para comprimir o expandir el archivo.
Conjunto de DataSet para desempaquetar Any String ninguno Nombre del conjunto de registros que se va a registrar con Azure ML Studio (clásico). Si no se especifica el nombre de un conjunto de archivos, el nombre se obtiene del nombre del archivo en el archivo comprimido.
Formato del archivo DataSet CSV

TSV

ARFF

SVMLIGHT
Formato de archivo CSV Formato de archivo del conjunto de archivos del archivo comprimido
El archivo tiene la fila de encabezado TRUE/FALSE Boolean False Establézcalo en true solo si el archivo CSV o TSV tiene una fila de encabezado

Entradas esperadas

Nombre Tipo Descripción
Dataset Zip Archivo comprimido que contiene conjuntos de archivos

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos de salida

Vea también

Entrada y salida de datos