Conversión a CSV

Convierte la entrada de datos en un formato de valores separados por comas

Categoría: conversiones de formato de datos

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo convertir en CSV en Azure machine learning Studio (clásico) para convertir un conjunto de los conjuntos de los recursos de Azure en un formato CSV que se puede descargar, exportar o compartir con módulos de script R o Python.

Más información sobre el formato CSV

El formato CSV, que es el acrónimo de "valores separados por comas", es un formato de archivo utilizado por muchas herramientas externas de Machine Learning. Aunque el formato de conjunto de código nativo utilizado por Azure Machine Learning se basa en la DataTable de .NET y, por tanto, se puede leer en las bibliotecas de .NET, CSV es un formato de intercambio común al trabajar con lenguajes de código abierto como R o Python.

Incluso si realiza la mayor parte del trabajo en Azure Machine Learning Studio (clásico), habrá ocasiones en las que le resulte útil convertir el conjunto de cambios a CSV para usarlo en herramientas externas. Por ejemplo:

  • Descargue el archivo CSV para abrirlo con Excel o importarlo a una base de datos relacional.
  • Guarde el archivo CSV en el almacenamiento en la nube y conéctese desde Power BI para crear visualizaciones.
  • Use el formato CSV para preparar los datos para su uso en R y Python. Simplemente haga clic con el botón derecho en la salida del módulo a fin de generar el código necesario para tener acceso a los datos directamente desde Python o un cuaderno de Jupyter.

Al convertir un conjunto de datos a CSV, el archivo se guarda en el área de trabajo de Azure ML. Puede usar una utilidad de Azure Storage para abrir y usar el archivo directamente o puede hacer clic con el botón derecho en la salida del módulo y descargar el archivo CSV en el equipo o utilizarlo en código R o Python.

Procedimiento para configurar Convertir a CSV

  1. Agregue el módulo Convertir a CSV al experimento. Puede encontrar este módulo en el grupo conversiones de formato de datos en Studio (clásico).

  2. Conéctelo a cualquier módulo que genere un conjunto de datos.

  3. Ejecute el experimento o haga clic en el módulo convertir en CSV y haga clic en Ejecutar seleccionado.

Results

Haga doble clic en la salida de Convertir a CSV y seleccione una de estas opciones.

  • Descargar: abre inmediatamente una copia de los datos en formato CSV que puede guardar en una carpeta local. Si no especifica una carpeta, se aplica un nombre de archivo predeterminado y el archivo CSV se guarda en la biblioteca local Descargas.

    Si selecciona Descargar conjunto de archivos, debe indicar si desea abrir el conjunto de cambios o guardarlo en un archivo local.

    Si selecciona abrir, el conjunto de DataSet se carga utilizando la aplicación que está asociada de forma predeterminada con. Archivos CSV: por ejemplo, Microsoft Excel.

    Si selecciona Descargar conjunto de archivos, de forma predeterminada, el archivo se guarda con el nombre del módulo más un GUID que representa el identificador del área de trabajo. Sin embargo, puede seleccionar la opción Guardar como durante la descarga y cambiar el nombre o la ubicación del archivo.

  • Guardar como conjunto de datos: guarda el archivo CSV de nuevo en el área de trabajo de aprendizaje automático de Azure como un conjunto de datos independiente.

  • Generar código de acceso a datos: Azure ml genera dos conjuntos de código para tener acceso a los datos, ya sea mediante Python o mediante R. Para tener acceso a los datos, copie el fragmento de código en la aplicación.

  • Abra en un nuevo cuaderno: se crea un nuevo cuaderno de Jupyter para usted y el código insertado para leer los datos desde el área de trabajo, con el lenguaje de su elección: Python 2, Python 3 o r con Microsoft R Open.

    Por ejemplo, si elige la opción R, se proporciona código R de ejemplo que carga el archivo CSV en una trama de datos y muestra las primeras filas mediante la head función.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Requisitos del formato CSV

El formato de archivo CSV es un formato conocido que admiten muchos marcos de aprendizaje automático. El formato es extremos denominado "valores separados por comas" o "valores separados por caracteres".

Un archivo CSV almacena datos tabulares (números y texto) en forma de texto sin formato. Cada archivo CSV se compone de una serie de registros, separados por saltos de línea de algún tipo. Cada registro consta de campos, separados por una coma literal. En algunas regiones, el separador puede ser un punto y coma.

Normalmente, todos los registros tienen un número idéntico de campos y los valores que faltan se representan como valores NULL o cadenas vacías.

Sugerencia

Puede exportar fácilmente datos de Excel, Access o una base de datos relacional a archivos CSV, para usarlos en Azure Machine Learning. Aunque los nombres de archivo normalmente tienen el. La extensión CSV, Azure Machine Learning no requiere que esta extensión de nombre de archivo esté presente si desea importar los datos como CSV. Puede importar XLSX, TXT y otros archivos como CSV. Sin embargo, los campos del archivo deben tener el formato descrito en la sección anterior y el archivo debe usar la codificación UTF-8.

Preguntas y problemas comunes

En esta sección se describen algunos problemas conocidos, preguntas comunes y soluciones específicas para el módulo convertir a CSV .

Los encabezados deben ser filas únicas

El formato de archivo CSV usado en Azure Machine Learning admite una sola fila de encabezado. No se pueden insertar encabezados de varias líneas.

Se admiten separadores personalizados en la importación pero no se exportan

El módulo convertir a CSV no admite la generación de separadores de columna alternativos, como el punto y coma (;), que se usa a menudo en Europa.

Sin embargo, cuando se importan datos de archivos CSV en almacenamiento externo, se pueden especificar separadores alternativos. En el módulo importar datos , seleccione la opción CSV con codificaciones y elija una codificación compatible.

Separación de columnas inexacta en los datos de cadena que contienen comas

Es un problema común en el procesamiento de texto que casi todos los caracteres que se pueden especificar como separador de columnas (tabulaciones, espacios, comas, etc.) también se pueden encontrar de forma aleatoria en los campos de texto. La importación de texto desde CSV siempre requiere precaución para evitar separar texto entre nuevas columnas innecesarias.

Al intentar exportar una columna de datos de cadena que contiene comas, puede que también tenga problemas. Azure Machine Learning no admite ningún control especial ni traducción especial de estos datos, como incluir cadenas entre comillas. Además, no puede utilizar caracteres de escape delante de una coma para asegurarse de que las comas se controlan como un carácter literal.

Por lo tanto, se crean nuevos campos en el archivo de salida para cada coma que se encuentra en el campo de cadena. Para evitar este problema, hay varias soluciones alternativas:

  • Use el módulo de preprocesamiento de texto para quitar los caracteres de puntuación de los campos de cadena.

  • Use el script de R personalizado o el script de Python para procesar el texto y asegurarse de que los datos se pueden exportar correctamente.

Codificación UTF-8 necesaria

El módulo Convertir a CSV solo admite la codificación de caracteres UTF-8. Si necesita exportar datos con una codificación diferente, puede intentar usar los módulos Ejecutar script R o Ejecutar script de Python para generar la salida personalizada.

DataSet no tiene nombres de columna

Si el conjunto de datos que está exportando a un archivo CSV no tiene nombres de columna, se recomienda que use editar metadatos para agregar nombres de columna antes de convertirlos. No se pueden agregar nombres de columna como parte del proceso de conversión o exportación.

SYLK: el formato de archivo no es válido

Si la primera columna del conjunto de elementos que se convierte en CSV tiene el identificador de nombre, es posible que reciba el siguiente error al intentar abrir el archivo en Excel:

"SYLK: el formato del archivo no es válido".

Para evitar este error, debe cambiar el nombre de la columna. Para obtener más información, consulte: https://support.microsoft.com/kb/215591

Necesito ayuda para importar desde CSV

Para la importación, no use el módulo exportar a CSV . En su lugar, use el módulo importar datos .

Para obtener información general sobre la importación desde CSV, consulte estos recursos:

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Output

Nombre Tipo Descripción
Conjunto de datos de resultados GenericCsv Conjunto de datos de salida

Consulte también

Conversiones de formato de datos
Lista de módulos A-Z