Funcionamiento de Azure Data Explorer

Completado

En esta unidad veremos cómo funciona Azure Data Explorer en segundo plano y hablaremos de los componentes principales del sistema. A continuación, obtendrá información sobre cómo interactuar con el servicio mediante la exploración de un flujo de trabajo común:

  • Ingesta de datos
  • Lenguaje de consulta Kusto
  • Visualización de datos

Estos conocimientos le ayudarán a decidir si Azure Data Explorer es una buena opción para las necesidades de datos.

Image representing architecture of Azure Data Explorer and data connections in and out of the service.

Componentes principales

Un clúster de Azure Data Explorer realiza todo el trabajo de ingesta, procesamiento y consulta de los datos. Los clústeres son escalables automáticamente según las necesidades. Azure Data Explorer también almacena los datos en Azure Storage y almacena en caché algunos de ellos en los nodos de proceso del clúster para lograr un rendimiento óptimo de las consultas.

¿Qué contiene un clúster de Azure Data Explorer?

Cada clúster de Azure Data Explorer puede contener hasta 10 000 bases de datos y cada base de datos hasta 10 000 tablas. Los datos de cada tabla se almacenan en particiones de datos, también denominadas extensiones. Todos los datos se indexan y particionan de forma automática en función del tiempo de ingesta. A diferencia de una base de datos relacional, no hay ninguna restricción de clave externa principal ni de otro tipo, como la exclusividad. Este diseño significa que puede almacenar grandes cantidades de datos variados. Y por la forma en que se almacenan, puede acceder a ellos rápidamente para consultarlos.

La estructura lógica de una base de datos es similar a otras muchas bases de datos relacionales. Una base de datos de Azure Data Explorer puede contener lo siguiente:

  • Tablas: formadas por un conjunto de columnas. Cada columna tiene uno de nueve tipos de datos diferentes.
  • Tablas externas: tablas cuyo almacenamiento subyacente se encuentra en otras ubicaciones, como Azure Data Lake.

Conocimiento del flujo de trabajo general

Por lo general, al interactuar con Azure Data Explorer, pasa por este flujo de trabajo: En primer lugar, ingiere los datos para obtenerlos en el sistema. A continuación, analiza los datos. Luego, visualiza los resultados del análisis. En cualquier momento también puede interactuar con las características de administración de datos. Este trabajo con Azure Data Explorer se realiza mediante la interacción con el clúster. Puede acceder a estos recursos en la interfaz de usuario web o mediante SDK.

¿Cómo se incorporan los datos a Azure Data Explorer?

La ingesta de datos es el proceso que se usa para cargar registros de datos desde uno o varios orígenes a una tabla de Azure Data Explorer. Una posterior manipulación de los datos incluye hacer coincidir los esquemas, así como organizar, indexar, codificar y comprimir los datos. A continuación, Data Manager confirma la ingesta de datos en el motor, donde están disponibles para su consulta.

Además del asistente para la interfaz de usuario web nativa, hay varias herramientas de ingesta disponibles. Inclusión de las canalizaciones administradas, Event Grid, IoT Hub y Azure Data Factory. Puede usar conectores y complementos como el complemento Logstash, el conector Kafka, Power Automate y el conector de Apache Spark. También puede usar la ingesta mediante programación por medio de SDK o LightIngest.

Los datos se pueden ingerir en dos modos: procesamiento por lotes o streaming. La ingesta de procesamiento por lotes está optimizada para un alto rendimiento de ingesta y resultados de consultas rápidos. La ingesta de streaming permite una latencia casi en tiempo real para pequeños conjuntos pequeños de datos por tabla.

¿Cómo se analizan los datos?

Azure Data Explorer usa el lenguaje de consulta Kusto (KQL) propietario para analizar los datos. Se usa ampliamente en Microsoft (Azure Monitor: Log Analytics y Application Insights, Microsoft Sentinel y Microsoft Defender XDR). KQL está optimizado para la exploración de macrodatos diversos y rápidos. Las consultas hacen referencia a tablas, vistas, funciones y cualquier otra expresión tabular. Inclusión de tablas en bases de datos diferentes o incluso clústeres. Las consultas se pueden ejecutar mediante la interfaz de usuario web, varias herramientas de consulta o con uno de los SDK de Azure Data Explorer.

¿Cómo funciona el lenguaje de consulta Kusto?

Kusto es un lenguaje de consulta expresivo, intuitivo y altamente productivo. Ofrece una transición sin problemas desde sencillos scripts de una línea a scripts de procesamiento de datos complejos, y admite la consulta de datos estructurados, semiestructurados y no estructurados (búsqueda de texto). Hay una amplia variedad de operadores y funciones del lenguaje de consulta (agregación, filtrado, funciones de series temporales, funciones geoespaciales, combinaciones, uniones, etc.) en el lenguaje. KQL admite consultas entre clústeres y entre bases de datos, y ofrece numerosas características de análisis (JSON, XML, etc.). Además, el lenguaje admite análisis avanzados de forma nativa.

¿Cómo se pueden mostrar los resultados de la consulta?

La interfaz de usuario web de Azure Data Explorer se ha diseñado pensando en los macrodatos, lo que le permite ejecutar consultas y crear paneles. Admite una presentación de hasta 500 000 registros y miles de columnas. Es altamente escalable y tiene multitud de funcionalidades que le ayudan a extraer conclusiones rápidas de los datos. También puede usar diferentes visualizaciones visuales de los datos en los paneles de Azure Data Explorer. Además, puede mostrar los resultados mediante conectores nativos de algunos de los principales servicios de visualización disponibles actualmente, como Power BI y Grafana. Azure Data Explorer también tiene compatibilidad con conectores ODBC y JDBC para herramientas como Tableau y Qlik.

¿Cómo se administran los datos?

Los administradores quieren realizar varias tareas de mantenimiento y de directivas en sus clústeres de Azure Data Explorer y los comandos Control les ofrecen la capacidad de hacerlo. Con los comandos Control pueden crear clústeres o bases de datos, establecer conexiones de datos, realizar el escalado automático y ajustar las configuraciones del clúster. También pueden controlar y modificar entidades, objetos de metadatos, administrar permisos y directivas de seguridad. Además, pueden modificar vistas materializadas (vistas filtradas actualizadas continuamente de otras tablas), funciones (funciones almacenadas y funciones definidas por el usuario) y la directiva de actualización (funciones que se desencadenan después de la ingesta).

Los comandos de control se ejecutan directamente en el motor mediante la IU web, Azure Portal, varias herramientas de consulta o uno de los SDK de Azure Data Explorer.