Introducción manual de datos

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Permite escribir y editar conjuntos de datos pequeños mediante la escritura de valores

Categoría: Transformación y manipulación de datos

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Escribir datos manualmente en Machine Learning Studio (clásico) para crear un conjunto de datos pequeño escribiendo valores. El conjunto de datos puede tener varias columnas.

Este módulo puede ser útil en escenarios como los siguientes:

  • Generación de un pequeño conjunto de valores para las pruebas

  • Creación de una lista breve de etiquetas

  • Especificación de valores para su uso en Aplicar operación matemática

  • Especificar valores de reemplazo para su uso en Reemplazar valores discretos

  • Escritura de una lista de nombres de columna para insertarlas en un conjunto de datos

Cómo usar Especificar datos manualmente

  1. Agregue el módulo Introducción manual de datos al experimento. Puede encontrar este módulo en la categoría Entrada y salida de datos en Machine Learning Studio (clásico).

  2. Para DataFormat, seleccione una de las siguientes opciones. Estas opciones determinan cómo se deben analizar los datos proporcionados. Los requisitos para cada formato varían en gran medida, por lo que debe asegurarse de leer los temas relacionados.

    • ARFF. El formato de archivo de relación de atributos, usado por Weka. Para obtener más información, vea Convertir a ARFF.

    • CSV. Formato de valores separados por comas. Para obtener más información, consulte Convert to CSV (Convertir a CSV).

    • SVMLight. Formato usado por Vowpal Wabbit y otros marcos de aprendizaje automático. Para obtener más información, vea Convertir a SVMLight.

    • TSV. Formato de valores separados por tabulaciones. Para obtener más información, vea Convertir a TSV.

    Si elige un formato y no proporciona datos que cumplan las especificaciones de formato, se produce un error en tiempo de ejecución.

  3. Haga clic dentro del cuadro de texto Datos para empezar a escribir datos. Los formatos siguientes requieren una atención especial:

    • CSV: para crear varias columnas, pegue texto separado por comas o escriba varias columnas mediante comas entre campos.

      Si selecciona la opción HasHeader, puede usar la primera fila de valores como encabezado de columna.

      Si anula la selección de esta opción, se usan los nombres de las columnas, Col1, Col2, etc. Puede agregar o cambiar los nombres de columnas más adelante mediante Editar metadatos.

    • TSV: para crear varias columnas, pegue texto separado por tabulaciones o escriba varias columnas mediante tabulaciones entre campos.

      Si selecciona la opción HasHeader, puede usar la primera fila de valores como encabezado de columna.

      Si anula la selección de esta opción, se usan los nombres de las columnas, Col1, Col2, etc. Puede agregar o cambiar los nombres de columnas más adelante mediante Editar metadatos.

    • ARFF: pegue en un archivo de formato ARFF existente. Si escribe valores directamente, asegúrese de agregar el encabezado opcional y los campos de atributo necesarios al principio de los datos.

      Por ejemplo, las filas de encabezado y de atributo siguientes podrían agregarse a una lista simple. El encabezado de columna sería SampleText.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: escriba o pegue valores con el formato SVMLight.

      Por ejemplo, en el ejemplo siguiente se representa el primer par de líneas del conjunto de datos Blood Donation, en formato SVMight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Al ejecutar el módulo Introducción manual de datos, estas líneas se convierten en un conjunto de datos de columnas y valores de índice como sigue:

      Col1 Col2 Col3 Col4 Etiquetas
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. Presione ENTRAR después de cada fila, para iniciar una nueva línea.

    Asegúrese de presionar ENTRAR después de la fila final.

    Si presiona ENTRAR varias veces para agregar varias filas finales vacías, la fila final vacía se quita, pero las demás filas vacías se tratan como valores que faltan.

    Si crea filas con valores que faltan, siempre puede filtrarlas más adelante.

  5. Haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionados para analizar los datos y cargarlos en el área de trabajo como un conjunto de datos.

    Para ver el conjunto de datos, haga clic en el puerto de salida y seleccione Visualizar.

Ejemplos

Para obtener ejemplos de cómo se usa este módulo en el aprendizaje automático, consulte el Azure AI Gallery:

  • Ejemplo de descarga de datos: obtiene datos del repositorio Machine Learning UCI y, a continuación, usa Escribir datos manualmente para crear nombres de columna. También se proporciona código R de ejemplo, que puede utilizar para combinar las filas especificadas con el conjunto de datos.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

  • Independientemente del formato guardado, los datos especificados se convierten implícitamente al formato de conjunto de datos (tabla de datos) para su uso en experimentos. Sin embargo, los datos no se conservan como un conjunto de datos guardado a menos que elija explícitamente la opción Guardar como conjunto de datos.

    Si no guarda los datos en Escribir datos manualmente como un conjunto de datos, se quitarán de la caché del área de trabajo al finalizar la sesión. Sin embargo, puede volver a ejecutar el experimento para que los datos estén disponibles.

  • Si combina los datos de Escribir datos manualmente con otro conjunto de datos, el conjunto de datos combinado no puede tener dos columnas con el mismo nombre. Si hay nombres de columna duplicados, se anexa un sufijo numérico a la columna del conjunto de datos correcto para que los nombres de columna sean únicos.

    Por ejemplo, suponga que tiene dos instancias de Escribir datos manualmente que contienen la columna TestData y use el módulo Agregar columnas para combinarlos. La columna de la instancia izquierda de Escribir datos manualmente permanecería como TestData y la columna de la instancia derecha de Escribir datos manualmente se cambiaría por TestData (2).

Consulte también

Entrada y salida de datos
Lista de módulos A-Z