Sortie d’Azure Data Explorer dans Azure Stream Analytics

Article
10/20/2023

Vous pouvez utiliser Azure Data Explorer en tant que sortie pour analyser de grands volumes de données variées en provenance d’une source de données quelconque, telle qu’un site web, une application et un appareil Internet des objets (IoT). L’Explorateur de données Azure est un service d’exploration de données rapide et hautement évolutive pour les données des journaux et les données de télémétrie. Cela vous aide à gérer les nombreux flux de données émis par les logiciels actuels et ainsi de collecter, stocker et analyser les données. Ces données sont utilisées pour les diagnostics, la supervision, la création de rapports, l’apprentissage automatique et d’autres fonctionnalités d’analytique.

Azure Data Explorer prend en charge plusieurs méthodes d’ingestion, notamment des connecteurs à des services courants comme Azure Event Hubs, une ingestion par programmation via des kits de développement logiciel (SDK) comme .NET et Python, et un accès direct au moteur à des fins d’exploration. L’Explorateur de données Azure s’intègre avec des services de modélisation et d’analytique pour une plus grande analyse et visualisation des données.

Pour plus d’informations sur Azure Data Explorer, consultez Qu’est-ce qu’Azure Data Explorer ?

Pour en savoir plus sur la création d’un cluster Azure Data Explorer à l’aide du portail Azure, consultez Démarrage rapide : Créer un cluster et une base de données Azure Data Explorer.

Notes

Azure Data Explorer d’Azure Stream Analytics prend en charge la sortie vers l’explorateur de données Azure Synapse. Pour écrire dans vos clusters d’Azure Synapse Data Explorer, spécifiez l’URL de votre cluster dans le volet de configuration pour la sortie Azure Data Explorer dans votre travail Azure Stream Analytics.

Configuration de la sortie

Le tableau suivant liste les noms des propriétés et leur description pour la création d’une sortie Azure Data Explorer.

Nom de la propriété	Description
Alias de sortie	Nom convivial utilisé dans les requêtes pour diriger la sortie de celles-ci vers cette base de données.
Abonnement	Abonnement Azure que vous souhaitez utiliser pour votre cluster.
Cluster	Nom unique qui identifie votre cluster. Le nom de domaine <région>.kusto.windows.net est ajouté au nom de cluster que vous fournissez. Le nom doit être uniquement composé de lettres minuscules et de chiffres. Il doit contenir entre 4 et 22 caractères.
Base de données	Nom de la base de données où vous envoyez la sortie. Ce nom de base de données doit être unique dans le cluster.
Authentification	Une identité managée avec Microsoft Entra ID, qui permet à votre application d’accéder facilement à d’autres ressources protégées par Microsoft Entra, telles qu’Azure Key Vault. Managée par la plateforme Azure, l’identité ne nécessite pas que vous approvisionniez ou permutiez de secrets. La configuration des identités managées est actuellement prise en charge uniquement pour activer les clés gérées par le client pour votre cluster.
Table de charge de travail	Nom de la table dans laquelle la sortie sera écrite. Le nom de la table respecte la casse. Le schéma de cette table doit correspondre exactement au nombre de champs et aux types que votre sortie de travail génère.

Partitionnement

Le partitionnement doit être activé et est basé sur la clause PARTITION BY de la requête. Lorsque l’option Héritage du partitionnement est activée, elle suit le partitionnement d’entrée pour les requêtes entièrement parallélisables.

Quand utiliser Azure Stream Analytics et Azure Data Explorer

Les caractéristiques d’Azure Stream Analytics sont les suivantes :

Moteur de traitement de flux : analyse en temps réel et en continu du streaming
Basé sur un travail
Fenêtre de recherche arrière de 1 milliseconde à 7 jours pour l’analytique temporelle en mémoire et le traitement de flux
Ingestion à partir d’Azure Event Hubs et d’Azure IoT Hub avec une latence inférieure à la seconde

Les caractéristiques d’Azure Data Explorer sont les suivantes :

Moteur analytique : analyse en temps réel interactive et à la demande
Ingestion de données de streaming dans un magasin de données persistant avec des fonctionnalités d’interrogation
Ingestion de données à partir d’Event Hubs, IoT Hub, Stockage Blob Azure, Azure Data Lake Storage, Kafka, Logstash, Spark et Azure Data Factory
Latence de 10 secondes à 5 minutes pour les charges de travail à haut débit
Transformation de données simple via une stratégie de mise à jour pendant l’ingestion

Vous pouvez développer considérablement l’étendue de l’analytique en temps réel en utilisant Azure Stream Analytics et Azure Data Explorer ensemble. Voici quelques scénarios :

Stream Analytics identifie les anomalies en temps réel, et Azure Data Explorer aide à déterminer comment et pourquoi elles se sont produites par une exploration interactive.
Stream Analytics désérialise les flux de données entrants en vue de les utiliser dans Azure Data Explorer (par exemple, ingérer le format Protobuf à l’aide d’un désérialiseur personnalisé ou des formats binaires personnalisés).
Stream Analytics peut agréger, filtrer, enrichir et transformer les flux de données entrants en vue de les utiliser dans Azure Data Explorer.

Autres scénarios et limitations

Les noms de colonnes et le type de données doivent correspondre entre la requête SQL Azure Stream Analytics et la table Azure Data Explorer. La comparaison respecte la casse.
Les colonnes qui existent dans vos clusters Azure Data Explorer mais qui sont manquantes dans Azure Stream Analytics sont ignorées. Les colonnes qui sont manquantes dans Azure Stream Analytics génèrent une erreur.
L’ordre des colonnes dans la requête Azure Stream Analytics n’a pas d’importance. C’est le schéma de la table Azure Data Explorer qui détermine l’ordre.
Azure Data Explorer comporte une stratégie d’agrégation (traitement par lot) pour l’ingestion des données conçue pour optimiser le processus d’ingestion. Par défaut, la stratégie est configurée sur 5 minutes, 1 000 éléments ou 1 Go de données. Il se peut donc que vous observiez une certaine latence. Pour réduire la latence, activez l'ingestion en continu sur votre cluster, puis sur la table ou la base de données en suivant les étapes de la section Configurer l'ingestion en continu sur votre cluster explorateur de données Azure. Pour les options d’agrégation, consultez Stratégie IngestionBatching.

Étapes suivantes

Démarrage rapide : Créer un travail Stream Analytics à l’aide du portail Azure