Compartir vía


Migración de un conjunto de datos de Studio a Azure Machine Learning

Importante

La compatibilidad con Azure Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning por esa fecha.

A partir del 1 de diciembre de 2021, no puede crear nuevos recursos de Machine Learning Studio (clásico) (área de trabajo y plan de servicio web). Hasta el 31 de agosto de 2024, puede seguir usando los experimentos y servicios web existentes de Machine Learning Studio (clásico). Para más información, vea:

La documentación de Machine Learning Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

En este artículo, aprenderá a migrar un conjunto de datos de Studio (clásico) a Azure Machine Learning. Para obtener más información sobre cómo migrar desde Studio (clásico), consulte el artículo de información general sobre la migración.

Cuenta con tres opciones para migrar un conjunto de datos a Azure Machine Learning. Lea cada sección para determinar cuál es la que mejor se adapta a su escenario.

¿Donde están los datos? Opción de migración
En Studio (clásico) Opción 1: descargue el conjunto de datos de Studio (clásico) y cárguelo en Azure Machine Learning.
El almacenamiento en la nube Opción 2: registre un conjunto de datos de un origen en la nube.

Opción 3: use el módulo de importación de datos para obtener datos de un origen en la nube.

Nota

Azure Machine Learning también admite flujos de trabajo de código primero para crear y administrar conjuntos de datos.

Requisitos previos

Descarga del conjunto de datos de Studio (clásico)

La manera más sencilla de migrar un conjunto de datos de Studio (clásico) a Azure Machine Learning es descargar el conjunto de datos y registrarlo en Azure Machine Learning. Así se crea una nueva copia del conjunto de datos que se carga en un almacén de datos de Azure Machine Learning.

Puede descargar los siguientes tipos de conjuntos de datos de Studio (clásico) directamente.

  • Texto sin formato (.txt)
  • Valores separados por coma (CSV) con un encabezado (.csv) o sin encabezado (.nh.csv)
  • Valores separados con tabulaciones (TSV) con un encabezado (.tsv) o sin encabezado (.nh.tsv)
  • Archivo de Excel
  • Archivo ZIP (.zip)

Para descargar los conjuntos de datos directamente, siga estos pasos:

  1. Vaya al área de trabajo de Studio (clásico) (https://studio.azureml.net).

  2. En la barra de navegación izquierda, seleccione la pestaña Conjuntos de datos.

  3. Seleccione los conjuntos de datos que desea descargar.

  4. En la barra de acciones inferior, seleccione Descargar.

    AScreenshot showing how to download a dataset in Studio (classic).

Con los siguientes tipos de datos debe utilizar el módulo Convert to CSV (Convertir a CSV) para descargar conjuntos de datos.

  • Datos de SVMLight (.svmlight)
  • Datos de formato de archivo de relación de atributos (.arff)
  • Archivo de área de trabajo u objeto de R (.RData)
  • Tipo de conjunto de datos (.data). Es el tipo de datos interno de Studio (clásico) para la salida del módulo.

Para convertir el conjunto de datos en un archivo CSV y descargar los resultados, siga estos pasos:

  1. Vaya al área de trabajo de Studio (clásico) (https://studio.azureml.net).

  2. Cree un experimento nuevo.

  3. Arrastre y coloque el conjunto de datos que desea descargar en el lienzo.

  4. Agregue un módulo Convert to CSV (Convertir a CSV).

  5. Conecte el puerto de entrada de Convert to CSV (Convertir a CSV) al puerto de salida del conjunto de datos.

  6. Ejecute el experimento.

  7. Haga clic con el botón derecho en el módulo Convert to CSV (Convertir a CSV).

  8. Seleccione Results dataset>Download (Conjunto de datos de resultados > Descargar).

    Screenshot showing how to setup a convert to CSV pipeline.

Carga del conjunto de datos en Azure Machine Learning

Después de descargar el archivo de datos, puede registrarlo como un activo de datos en Azure Machine Learning:

  1. Vaya a Estudio de Azure Machine Learning

  2. En Recursos en el panel de navegación izquierdo, seleccione Datos. En la pestaña Recursos de datos, seleccione Crear Screenshot highlights Create in the Data assets tab.

  3. Asigne un nombre al recurso de datos y una descripción opcional. A continuación, seleccione la opción Tabular en Tipo, en la sección Tipos de conjunto de datos de la lista desplegable.

    Nota

    También puede cargar archivos ZIP como activos de datos. Para cargar un archivo ZIP, seleccione Archivo para Tipo, en la sección Tipos de conjunto de datos de la lista desplegable. Screenshot shows data asset source choices.

  4. Para el origen de datos, seleccione la opción "De archivos locales" para cargar el conjunto de datos.

  5. Para la selección de archivos, elija primero dónde desea almacenar los datos en Azure. Seleccionará un almacén de datos de Azure Machine Learning. Para más información sobre los almacenes de datos, consulte Conexión a los servicios de almacenamiento en Azure. A continuación, cargue el conjunto de datos que descargó anteriormente.

  6. Siga los pasos para establecer la configuración y el esquema de análisis de datos para el recurso de datos.

  7. Una vez que llegue al paso Revisar, haga clic en Crear en la última página.

Importación de datos de orígenes en la nube

Si los datos ya están en un servicio de almacenamiento en nube y desea conservarlos en su ubicación nativa, puede usar una de estas dos opciones:

Método de ingesta Descripción
Registro de un conjunto de datos de Azure Machine Learning Ingiere datos de orígenes de datos locales y en línea (blob, ADLS Gen1, ADLS Gen2, recurso compartido de archivos, SQL DB).

Crea una referencia al origen de datos, que se evalúa de forma diferida en tiempo de ejecución. Utilice esta opción si accede repetidamente a este conjunto de datos y desea habilitar características de datos avanzadas como el control de versiones y la supervisión de los datos.
Módulo Importación de datos Ingiere datos de orígenes de datos en línea (blob, ADLS Gen1, ADLS Gen2, recurso compartido de archivos, SQL DB).

El conjunto de datos solo se importa en la ejecución de canalización del diseñador actual.

Nota

Los usuarios de Studio (clásico) deben tener en cuenta que los siguientes orígenes en la nube no se admiten de forma nativa en Azure Machine Learning:

  • Consulta de Hive
  • tabla de Azure
  • Azure Cosmos DB
  • SQL Database en el entorno local

Se recomienda que los usuarios migren sus datos a los servicios de almacenamiento compatibles mediante Azure Data Factory.

Registro de un conjunto de datos de Azure Machine Learning

Siga los pasos que se indican a continuación para registrar un conjunto de datos en Azure Machine Learning desde un servicio en la nube:

  1. Cree un almacén de datos que vincule el servicio de almacenamiento en nube a su área de trabajo de Azure Machine Learning.

  2. Registre un conjunto de datos. Si va a migrar un conjunto de datos de Studio (clásico), seleccione el valor de conjunto de datos Tabular.

Después de registrar un conjunto de datos en Azure Machine Learning, puede usarlo en el diseñador:

  1. Cree un nuevo borrador de canalización en el diseñador.
  2. En la paleta de módulos de la izquierda, expanda la sección Conjuntos de datos.
  3. Arrastre el conjunto de datos registrado al lienzo.

Uso del módulo Import Data (Importar datos)

Siga estos pasos para importar datos directamente a la canalización del diseñador:

  1. Cree un almacén de datos que vincule el servicio de almacenamiento en nube a su área de trabajo de Azure Machine Learning.

Después de crear el almacén de datos, puede usar el módulo Import Data (Importar datos) en el diseñador para ingerir datos de él:

  1. Cree un nuevo borrador de canalización en el diseñador.
  2. En la paleta de módulos de la izquierda, localice el módulo Import Data (Importar datos) y arrástrelo al lienzo.
  3. Seleccione el módulo Import Data (Importar datos) y use la configuración del panel derecho para configurar el origen de datos.

Pasos siguientes

En este artículo, ha aprendido a migrar un conjunto de datos de Studio (clásico) a Azure Machine Learning. El siguiente paso consiste en recompilar una canalización de entrenamiento de Studio (clásico).

Consulte los demás artículos de la serie de migración de Studio (clásico):

  1. Información general sobre la migración.
  2. Migración de conjuntos de datos.
  3. Recompilación de una canalización de entrenamiento de Studio (clásico).
  4. Recompilación de un servicio web de Studio (clásico).
  5. Integración de un servicio web de Azure Machine Learning con aplicaciones cliente.
  6. Migración de los módulos Execute R Script (Ejecutar script R) de Studio (Clásico).