Share via


Conceptos de ingesta del analizador de CSV

Un archivo CSV (valores separados por comas) es un archivo de texto delimitado por comas que se usa para guardar datos en formato estructurado de tabla.

Un analizador CSV DAG permite a un cliente cargar datos en la instancia de Microsoft Azure Data Manager for Energy en función de un esquema personalizado, es decir, un esquema que no coincide con el esquema OSDU® esquema conocido (WKS). Los clientes deben crear y registrar el esquema personalizado mediante el servicio Schema antes de cargar los datos.

Un DAG del analizador CSV implementa un enfoque ELT (extraer carga y transformación) para cargar datos, es decir, los datos se extraen primero del sistema de origen en un formato CSV y se cargan en la instancia de Azure Data Manager for Energy. Después, se podría transformar en el OSDU® esquema conocido mediante un servicio de asignación.

¿Qué hace la ingesta de archivos CSV?

Un DAG del analizador CSV permite a los clientes cargar los datos CSV en la instancia de Microsoft Azure Data Manager for Energy. Analiza cada fila de un archivo CSV y crea un registro de metadatos de almacenamiento. Realiza schema validation para asegurarse de que los datos CSV se ajustan al esquema personalizado registrado. Realiza automáticamente type coercion en las columnas en función de la definición del tipo de datos de esquema. Genera unique id para cada fila del registro CSV combinando el origen, el tipo de entidad y una cadena codificada en Base64 formada por la concatenación de claves naturales en los datos. Realiza unit conversion convirtiendo el marco declarado de información de referencia en una referencia persistente adecuada mediante el servicio Unidad. Realiza CRS conversion para las columnas con reconocimiento espacial en función de la información del marco de referencia (FoR) presente en el esquema. Crea relationships metadatos como se declara en el esquema de origen. Por último, persists el registro de metadatos mediante el servicio de Storage.

Componentes de ingesta del analizador de CSV

El flujo de trabajo DAG del analizador CSV consta de los siguientes servicios:

  • Servicio de archivos facilita la administración de archivos en la instancia de Azure Data Manager for Energy. Permite al usuario cargar, detectar y descargar archivos de forma segura desde la plataforma de datos.
  • Servicio de esquema facilita la administración de esquemas en la instancia de Azure Data Manager for Energy. Permite al usuario crear, capturar y buscar esquemas en la plataforma de datos.
  • Servicio de almacenamiento facilita el almacenamiento de información de metadatos para las entidades de dominio ingeridas en la plataforma de datos. También genera eventos de cambio de registros de almacenamiento que permiten a los servicios de bajada realizar operaciones en registros de metadatos ingeridos.
  • Servicio de unidad facilita la administración y conversión de unidades
  • Servicio de flujo de trabajo facilita la administración de flujos de trabajo en la instancia de Azure Data Manager for Energy. Es un servicio contenedor sobre el motor de orquestación Airflow.

Diagrama de componentes de ingesta de CSV

Captura de pantalla del diagrama de componentes de ingesta de CSV.

Flujo de trabajo de ingesta del analizador de CSV

Para ejecutar el flujo de trabajo DAG del analizador de CSV, el usuario debe tener un token de autorización válido y el acceso adecuado a los siguientes servicios: Búsqueda, Almacenamiento, Esquema, Servicio de archivos, Derecho, Legal y Flujo de trabajo.

En el diagrama de flujo de trabajo siguiente se muestra el flujo de trabajo DAG del analizador CSV: Captura de pantalla del diagrama de secuencia de ingesta de CSV.

Para ejecutar el flujo de trabajo DAG del analizador CSV, el usuario primero debe crear y registrar el esquema mediante el servicio de flujo de trabajo. Una vez creado el esquema, el usuario usa el servicio File para cargar el archivo CSV en las instancias de Microsoft Azure Data Manager for Energy y también crea el registro de almacenamiento de tipo genérico de archivo. A continuación, el servicio de archivos proporciona un identificador de archivo al usuario, que se usa al desencadenar el flujo de trabajo del analizador de CSV mediante el servicio Flujo de trabajo. El servicio Flujo de trabajo proporciona un identificador de ejecución que el usuario podría usar para realizar un seguimiento del estado de la ejecución del flujo de trabajo del analizador de CSV.

OSDU® es una marca comercial de The Open Group.

Pasos siguientes

Proceda al tutorial del analizador de CSV y aprenda a realizar una ingesta de analizadores de CSV