Décrire l’ingestion et le traitement des données

Effectué

L’analytique données consiste à prendre des données et à rechercher des informations et des inférences significatives à partir de celles-ci. Il peut s’agit aussi bien de sélectionner la gamme de produits idéale pour un distributeur ou de sélectionner les meilleurs candidats vaccins pour une société de biotechnologie.

Par exemple, dans une entreprise, l’analytique données peut prendre les données produites par votre organisation, et les utiliser pour établir une image du fonctionnement de votre organisation et de ce que vous pouvez faire pour maintenir les performances de l’entreprise. L’analytique données vous aide à identifier les forces et les faiblesses de votre organisation, et vous permet de prendre des décisions métier appropriées.

Les données utilisées par une entreprise peuvent provenir de nombreuses sources. Il peut y avoir une masse de données historiques à parcourir et des données nouvelles qui continuent d’arriver en permanence. Ces données peuvent être le résultat d’achats des clients, de transactions bancaires, de mouvements des cours boursiers, de données météorologiques en temps réel, d’appareils de surveillance ou même de caméras. Dans une solution d’analytique des données, vous combinez ces données et vous construisez un entrepôt de données que vous pouvez utiliser pour poser des questions (et y répondre) sur le fonctionnement de votre entreprise. La création d’un entrepôt de données nécessite de pouvoir capturer les données dont vous avez besoin et d’en faire le wrangling vers un format approprié. Vous pouvez ensuite utiliser des outils d’analyse et des visualisations pour examiner les informations, et pour identifier les tendances et leurs causes.

Notes

Le wrangling est le processus par lequel vous transformez et vous mappez des données brutes dans un format plus pratique pour l’analyse. Il peut impliquer l’écriture de code pour capturer, filtrer, nettoyer, combiner et agréger des données provenant d’un grand nombre de sources.

Dans cette unité, vous allez découvrir deux étapes importantes de l’Analytique données : l’ingestion des données et le traitement des données. Le diagramme ci-dessous montre comment ces étapes s’articulent.

Diagramme d’une architecture d’analytique données standard montrant l’ingestion, le traitement et l’exploration des données.

Qu’est-ce que l’ingestion de données ?

L’ingestion de données est le processus qui consiste à obtenir et à importer des données pour les utiliser tout de suite ou les stocker dans une base de données. Les données peuvent arriver sous la forme d’un flux continu ou par lots, selon la source. L’objectif du processus d’ingestion est de capturer ces données et de les stocker. Ces données brutes peuvent être stockées dans un référentiel, comme un système de gestion de base de données, un ensemble de fichiers ou tout autre type de stockage rapide et facilement accessible.

Le processus d’ingestion peut également effectuer un filtrage. Par exemple, l’ingestion peut rejeter des données suspectes, endommagées ou dupliquées. Les données suspectes peuvent être des données provenant d’une source inattendue. Les données endommagées ou dupliquées peuvent être dues à une erreur d’un appareil, à un échec de la transmission ou à une falsification.

Il peut également être possible d’effectuer des transformations à ce stade, en convertissant les données dans un format standard en vue d’un traitement ultérieur. Par exemple, vous pouvez reformater toutes les données de date et d’heure pour utiliser les mêmes représentations de ces types de données, et convertir toutes les données de mesures pour utiliser les mêmes unités. Ces transformations doivent cependant être rapides à effectuer. N’essayez pas d’effectuer des calculs complexes ou des agrégations sur les données à ce stade.

Qu’est-ce que le traitement des données ?

L’étape de traitement des données se produit une fois que les données ont été ingérées et collectées. Le traitement des données prend les données dans leur forme brute, les nettoie et les convertit dans un format qui a davantage de signification (tables, graphes, documents, etc.). Le résultat est une base de données contenant des données que vous pouvez utiliser pour exécuter des requêtes et générer des visualisations, en lui donnant la forme et le contexte nécessaires pour être interprétées par des ordinateurs et utilisés par des employés dans toute l’organisation.

Notes

Le nettoyage des données est un terme générique qui englobe une série d’actions, comme la suppression des anomalies, et l’application de filtres et de transformations dont l’exécution serait trop longue lors l’étape d’ingestion.

L’objectif du traitement des données est de convertir les données brutes en un ou plusieurs modèles d’entreprise. Un modèle d’entreprise décrit les données en termes d’entités métier significatives, et peut agréger des éléments et synthétiser les informations. L’étape de traitement des données peut également générer des modèles prédictifs ou d’autres modèles d’analytique à partir des données. Le traitement des données peut être complexe, et impliquer des scripts automatisés et des outils comme Azure Databricks, Azure Functions et Azure Cognitive Services pour examiner et remettre en forme les données, et générer des modèles. Un analyste de données peut utiliser le machine learning pour déterminer des tendances futures en fonction de ces modèles.

Diagramme du traitement des données ingérées pour générer des modèles de données.

Qu’est-ce que l’ELT et l’ETL ?

Le mécanisme de traitement des données peut utiliser deux approches différentes pour récupérer les données ingérées, en traitant ces données pour les transformer et générer des modèles, puis en enregistrant les données transformées et les modèles. Ces approches sont appelées ETL et ELT.

ETL est l’acronyme de Extract, Transform, and Load (Extraire, Transformer et Charger). Les données brutes sont récupérées et transformées avant d’être enregistrées. Les étapes d’extraction, de transformation et de chargement peuvent être effectuées sous la forme d’un pipeline continu d’opérations. Il convient aux systèmes qui nécessitent seulement des modèles simples, avec peu de dépendances entre les éléments. Par exemple, ce type de processus est souvent utilisé pour les tâches de nettoyage de données de base, la déduplication des données et la remise en forme du contenu de champs individuels.

Diagramme d’une image montrant le processus ETL.

Une approche alternative est l’ELT. ELT est l’acronyme de Extract, Load, and Transform (Extraire, Charger et Transformer). Le processus diffère de l’ETL en cela que les données sont stockées avant d’être transformées. Le moteur de traitement des données peut mettre en œuvre une approche itérative, en récupérant et en traitant les données à partir du stockage, avant de réécrire les données transformées et les modèles dans le stockage. L’ELT est plus adapté à la construction de modèles complexes qui dépendent de plusieurs éléments dans la base de données, en utilisant souvent un traitement par lots régulier.

Diagramme d’une image montrant le processus ELT.

L’ELT est une approche scalable adaptée au cloud, car elle peut utiliser la grande puissance de traitement disponible. L’approche plus orientée flux de l’ETL met davantage l’accent sur le débit. L’ETL peut cependant filtrer les données avant qu’elles ne soient stockées. De cette façon, l’ETL peut contribuer à la confidentialité et à la conformité des données, en supprimant les données sensibles avant leur arrivée dans vos modèles de données analytiques.

Azure propose plusieurs options que vous pouvez utiliser pour implémenter les approches ELT et ETL. Par exemple, si vous stockez des données dans Azure SQL Database, vous pouvez utiliser SQL Server Integration Services. Integration Services peut extraire et transformer des données à partir d’une grande variété de sources, par exemple des fichiers de données XML, des fichiers plats et des sources de données relationnelles, puis charger les données dans une ou plusieurs destinations.

Il s’agit d’un tableau simple qui présente les avantages de l’ETL et de l’ELT dans la plupart des situations.

Diagramme d’ETL et ELT.

Une autre approche plus généralisée consiste à utiliser Azure Data Factory. Azure Data Factory est un service d’intégration de données cloud qui vous permet de créer des workflows basés sur les données, pour orchestrer le déplacement des données et transformer des données à grande échelle. Azure Data Factory vous permet de créer et de planifier des workflows basés sur les données (appelés pipelines) qui peuvent ingérer des données provenant de différents magasins de données. Vous pouvez créer des processus ETL complexes qui transforment des données visuellement avec des flux de données, ou en utilisant des services comme Azure HDInsight Hadoop, Azure Databricks et Azure SQL Database.