Cours DP-203T00-A: Data Engineering on Microsoft Azure

Dans ce cours, l'étudiant découvrira l'ingénierie des données dans le cadre du travail avec des solutions analytiques par lots et en temps réel utilisant les technologies de la plate-forme de données Azure. Les étudiants commenceront par comprendre les technologies de calcul et de stockage de base qui sont utilisées pour construire une solution analytique. Les étudiants apprendront à explorer de manière interactive les données stockées dans des fichiers dans un lac de données. Ils apprendront les différentes techniques d'ingestion qui peuvent être utilisées pour charger des données à l'aide de la fonctionnalité Apache Spark présente dans Azure Synapse Analytics ou Azure Databricks, ou comment l'utiliser à l'aide de Azure Data Factory ou des pipelines Azure Synapse. Les étudiants apprendront également les différentes façons de transformer les données à l'aide des mêmes technologies que celles utilisées pour l'acquisition des données. Ils comprendront l'importance de la mise en œuvre de la sécurité pour s'assurer que les données sont protégées au repos ou en transit. L'étudiant montrera ensuite comment créer un système analytique en temps réel pour créer des solutions analytiques en temps réel.

Profil du public

Le public principal de ce cours est constitué de professionnels des données, d'architectes de données et de professionnels de la veille stratégique qui souhaitent se familiariser avec l'ingénierie des données et la création de solutions analytiques à l'aide des technologies de plateforme de données qui existent sur Microsoft Azure. Le public secondaire de ce cours sont les analystes de données et les scientifiques de données qui travaillent avec des solutions analytiques construites sur Microsoft Azure.

Rôle : Ingénieur Data

Compétences obtenues

  • Explorer les options de calcul et de stockage pour les charges de travail d'ingénierie des données dans Azure
  • Exécuter des requêtes interactives à l'aide de pools SQL sans serveur
  • Exécuter l'exploration et la transformation de données dans Azure Databricks

Prérequis

Les étudiants qui réussissent commencent ce cours avec une connaissance du cloud computing et des concepts de données de base, ainsi qu'une expérience professionnelle des solutions de données.

Plus précisément en complétant:

  • AZ-900 - Azure Fundamentals
  • DP-900 - Microsoft Azure Data Fundamentals

Plan du cours

Module 1: Explorer les options de calcul et de stockage pour les charges de travail d'ingénierie des données.

Ce module offre une vue d'ensemble des options technologiques de calcul et de stockage Azure qui sont à la disposition des ingénieurs de données créant des charges de travail analytiques. Ce module enseigne les moyens de structurer le lac de données, et d'optimiser les fichiers pour les charges de travail d'exploration, de streaming et de batch. L'étudiant apprendra à organiser le lac de données en niveaux de raffinement des données au fur et à mesure qu'il transformera les fichiers par le biais du traitement par lots et en flux. Il apprendra ensuite à créer des index sur ses ensembles de données, tels que les fichiers CSV, JSON et Parquet, et à les utiliser pour accélérer les requêtes et les charges de travail.

Cours

  • Introduction à Azure Synapse Analytics
  • Décrire Azure Databricks
  • Introduction au stockage Azure Data Lake
  • Décrire l'architecture Delta Lake
  • Travailler avec des flux de données en utilisant Azure Stream Analytics

Laboratoire : Explorez les options de calcul et de stockage pour les charges de travail d'ingénierie des données.

  • Combiner le traitement en continu et le traitement par lots avec un seul pipeline.
  • Organiser le lac de données en niveaux de transformation de fichiers
  • Indexer le stockage du lac de données pour accélérer les requêtes et les charges de travail

Après avoir terminé ce module, les étudiants seront en mesure de:

  • Décrire Azure Synapse Analytics
  • Décrire Azure Databricks
  • Décrire le stockage Azure Data Lake
  • Décrire l'architecture Delta Lake
  • Décrire Azure Stream Analytics

Module 2: Exécuter des requêtes interactives à l'aide des pools SQL sans serveur Azure Synapse Analytics.

Dans ce module, les étudiants apprendront à travailler avec des fichiers stockés dans le lac de données et des sources de fichiers externes, par le biais d'instructions T-SQL exécutées par un pool SQL sans serveur dans Azure Synapse Analytics. Les étudiants interrogeront des fichiers Parquet stockés dans un lac de données, ainsi que des fichiers CSV stockés dans un magasin de données externe. Ensuite, ils créeront des groupes de sécurité Azure Active Directory et appliqueront l'accès aux fichiers dans le lac de données par le biais du contrôle d'accès basé sur les rôles (RBAC) et des listes de contrôle d'accès (ACL).

Cours

  • Explorer les capacités des pools SQL sans serveur Azure Synapse
  • Interroger les données du lac à l'aide des pools SQL sans serveur Azure Synapse.
  • Création d'objets de métadonnées dans les pools SQL sans serveur Azure Synapse
  • Sécuriser les données et gérer les utilisateurs dans les pools SQL sans serveur Azure Synapse.

Laboratoire : Exécuter des requêtes interactives à l'aide de pools SQL sans serveur

  • Interroger des données Parquet avec des pools SQL sans serveur
  • Créer des tables externes pour les fichiers Parquet et CSV
  • Créer des vues avec des pools SQL sans serveur
  • Sécuriser l'accès aux données dans un lac de données en utilisant des pools SQL sans serveur.
  • Configurer la sécurité du lac de données en utilisant le contrôle d'accès basé sur les rôles (RBAC) et la liste de contrôle d'accès.

Après avoir terminé ce module, les étudiants seront en mesure de:

  • Comprendre les capacités des pools SQL sans serveur Azure Synapse
  • Interroger les données dans le lac à l'aide des pools SQL sans serveur Azure Synapse
  • Créer des objets de métadonnées dans les pools SQL sans serveur Azure Synapse
  • Sécuriser les données et gérer les utilisateurs dans les pools SQL sans serveur Azure Synapse.

Module 3: Exploration et transformation des données dans Azure Databricks

Ce module enseigne comment utiliser diverses méthodes Apache Spark DataFrame pour explorer et transformer les données dans Azure Databricks. L'étudiant apprendra à exécuter les méthodes DataFrame standard pour explorer et transformer les données. Il apprendra également à effectuer des tâches plus avancées, telles que la suppression des données en double, la manipulation des valeurs de date/heure, le renommage des colonnes et l'agrégation des données.

Leçons

  • Décrire Azure Databricks

  • Lire et écrire des données dans Azure Databricks

  • Travailler avec des DataFrames dans Azure Databricks

  • Travailler avec les méthodes avancées des DataFrames dans Azure Databricks

Lab : Exploration et transformation de données dans Azure Databricks

  • Utiliser les DataFrames dans Azure Databricks pour explorer et filtrer les données.
  • Mettre en cache un DataFrame pour accélérer les requêtes ultérieures.
  • Suppression des données dupliquées
  • Manipulation des valeurs de date/heure
  • Supprimer et renommer les colonnes du DataFrame
  • Agrégation des données stockées dans un DataFrame

Après avoir terminé ce module, les étudiants seront en mesure de:

  • Décrire Azure Databricks

  • Lire et écrire des données dans Azure Databricks

  • Travailler avec des DataFrames dans Azure Databricks

  • Travailler avec les méthodes avancées des DataFrames dans Azure Databricks

Module 4: Explorer, transformer et charger des données dans l'entrepôt de données à l'aide de Apache Spark

Ce module enseigne comment explorer les données stockées dans un lac de données, transformer les données et les charger dans un magasin de données relationnelles. L'étudiant explorera les fichiers Parquet et JSON et utilisera des techniques pour interroger et transformer les fichiers JSON avec des structures hiérarchiques. Ensuite, l'étudiant utilisera Apache Spark pour charger des données dans l'entrepôt de données et joindre les données Parquet dans le lac de données avec les données dans le pool SQL dédié..

Leçons

  • Comprendre l'ingénierie du big data avec Apache Spark dans Azure Synapse Analytics

  • ingérer des données avec les carnets Apache Spark dans Azure Synapse Analytics

  • Transformer les données avec DataFrames dans les pools Apache Spark dans Azure Synapse Analytics.

  • Intégration de pools SQL et Apache Spark dans Azure Synapse Analytics

Lab: Explorer, transformer et charger des données dans l'entrepôt de données à l'aide de Apache Spark

  • Exploration des données dans Synapse Studio
  • Ingérer des données avec des carnets Spark dans Azure Synapse Analytics
  • Transformer des données avec des DataFrames dans des pools Spark dans Azure Synapse Analytics
  • Intégrer des pools SQL et Spark dans Azure Synapse Analytics

Après avoir terminé ce module, les étudiants seront en mesure de:

  • Décrire l'ingénierie du big data avec Apache Spark dans Azure Synapse Analytics.

  • Ingérer des données avec des carnets Apache Spark dans Azure Synapse Analytics

  • Transformer les données avec DataFrames dans les pools Apache Spark dans Azure Synapse Analytics.

  • Intégrer les pools SQL et Apache Spark dans Azure Synapse Analytics

Module 5: Ingérer et charger les données dans l'entrepôt de données

Ce module enseigne aux étudiants comment ingérer des données dans l'entrepôt de données au moyen de scripts T-SQL et de pipelines d'intégration Synapse Analytics. L'étudiant apprendra à charger des données dans des pools SQL dédiés à Synapse avec PolyBase et COPY en utilisant T-SQL. Il apprendra également à utiliser la gestion de la charge de travail ainsi qu'une activité de copie dans un pipeline Azure Synapse pour l'ingestion de données à l'échelle du pétaocte.

Leçons

  • Utiliser les meilleures pratiques de chargement de données dans Azure Synapse Analytics

  • Ingérer à l'échelle du pétaoctet avec Azure Data Factory

Lab : Ingérer et charger les données dans l'entrepôt de données

  • Effectuer une ingestion à l'échelle du pétaoctet avec Azure Synapse Pipelines
  • Importez des données avec PolyBase et COPY en utilisant T-SQL.
  • Utiliser les meilleures pratiques de chargement de données dans Azure Synapse Analytics

Après avoir terminé ce module, les étudiants seront en mesure de:

  • Utiliser les meilleures pratiques de chargement de données dans Azure Synapse Analytics.

  • ingestion à l'échelle du pétaoctet avec Azure Data Factory

Module 6: Transformer les données avec Azure Data Factory ou Azure Synapse Pipelines

Ce module apprend aux étudiants à construire des pipelines d'intégration de données pour ingérer des données provenant de plusieurs sources, les transformer à l'aide de flux de données cartographiques et les déplacer vers un ou plusieurs puits de données.

Leçons

  • Intégration des données avec Azure Data Factory ou Azure Synapse Pipelines

  • Transformation sans code à l'échelle avec Azure Data Factory ou Azure Synapse Pipelines

Lab : Transformer les données avec Azure Data Factory ou Azure Synapse Pipelines

  • Exécuter des transformations sans code à l'échelle avec Azure Synapse Pipelines.
  • Créez un pipeline de données pour importer des fichiers CSV mal formatés.
  • Créer des flux de données mappés

Après avoir terminé ce module, les étudiants seront en mesure de:

  • Effectuer l'intégration de données avec Azure Data Factory

  • Transformation sans code à l'échelle avec Azure Data Factory

Module 7 : Orchestrer le mouvement et la transformation des données dans Azure Synapse Pipelines

Dans ce module, vous apprendrez à créer des services liés et à orchestrer le mouvement et la transformation des données à l'aide de notebooks dans Azure Synapse Pipelines.

Leçons

  • Orchestrer le mouvement et la transformation des données dans Azure Data Factory

Laboratoire : Orchestrer le mouvement et la transformation des données dans Azure Synapse Pipelines

  • Intégrer les données des Notebooks avec Azure Data Factory ou Azure Synapse Pipelines

Après avoir terminé ce module, les étudiants seront en mesure de:

  • Orchestrer le mouvement et la transformation des données dans Azure Synapse Pipelines.

Module 8: Sécurité de bout en bout avec Azure Synapse Analytics

Dans ce module, les étudiants apprendront à sécuriser un espace de travail Synapse Analytics et son infrastructure de soutien. L'étudiant observera le SQL Active Directory Admin, gérera les règles de pare-feu IP, gérera les secrets avec Azure Key Vault et accédera à ces secrets par le biais d'un service lié à Key Vault et d'activités de pipeline. L'étudiant comprendra comment mettre en œuvre la sécurité au niveau des colonnes, la sécurité au niveau des lignes et le masquage dynamic des données lors de l'utilisation de pools SQL dédiés.

Leçons

  • Sécuriser un entrepôt de données dans Azure Synapse Analytics.

  • Configurer et gérer les secrets dans Azure Key Vault.

  • Mise en œuvre de contrôles de conformité pour les données sensibles

Lab : Sécurité de bout en bout avec Azure Synapse Analytics

  • Sécuriser l'infrastructure de support de Azure Synapse Analytics
  • Sécuriser l'espace de travail et les services gérés de Azure Synapse Analytics.
  • Sécurisation des données de l'espace de travail Azure Synapse Analytics

Après avoir terminé ce module, les étudiants seront en mesure de :

  • Sécuriser un entrepôt de données dans Azure Synapse Analytics.

  • Configurer et gérer les secrets dans Azure Key Vault

  • Mettre en œuvre des contrôles de conformité pour les données sensibles

Dans ce module, les étudiants apprendront comment Azure Synapse Link permet une connectivité transparente d'un compte Azure Cosmos DB à un espace de travail Synapse. L'étudiant comprendra comment activer et configurer le lien Synapse, puis comment interroger le magasin analytique Azure Cosmos DB à l'aide de Apache Spark et de SQL sans serveur.

Leçons

  • Concevoir un traitement transactionnel et analytique hybride à l'aide de Azure Synapse Analytics

  • Configurer Azure Synapse Link avec Azure Cosmos DB

  • Interroger Azure Cosmos DB avec des pools Apache Spark

  • Interroger Azure Cosmos DB avec des pools SQL sans serveur

  • Configurer le lien Azure Synapse avec Azure Cosmos DB
  • Interroger Azure Cosmos DB avec Apache Spark pour Synapse Analytics
  • Interroger Azure Cosmos DB avec un pool SQL sans serveur pour Azure Synapse Analytics

Après avoir suivi ce module, les étudiants seront en mesure de:

  • Concevoir un traitement transactionnel et analytique hybride à l'aide de Azure Synapse Analytics.

  • configurer Azure Synapse Link avec Azure Cosmos DB

  • Interroger Azure Cosmos DB avec Apache Spark pour Azure Synapse Analytics

  • Interroger Azure Cosmos DB avec SQL sans serveur pour Azure Synapse Analytics

Module 10: Traitement des flux en temps réel avec Stream Analytics

Dans ce module, les étudiants apprendront à traiter des données en continu avec Azure Stream Analytics. Ils ingéreront des données de télémétrie de véhicules dans des Event Hubs, puis traiteront ces données en temps réel, en utilisant diverses fonctions de fenêtrage dans Azure Stream Analytics. Ils transmettront les données à Azure Synapse Analytics. Enfin, l'étudiant apprendra à mettre à l'échelle le travail Stream Analytics pour augmenter le débit.

Leçons

  • Permettre une messagerie fiable pour les applications Big Data à l'aide de Azure Event Hubs

  • Travailler avec des flux de données en utilisant Azure Stream Analytics

  • Ingérer des flux de données avec Azure Stream Analytics

Lab : Traitement des flux en temps réel avec Stream Analytics

  • Utiliser Stream Analytics pour traiter les données en temps réel provenant des Event Hubs
  • Utiliser les fonctions de fenêtrage de Stream Analytics pour créer des agrégats et les transmettre à Synapse Analytics
  • Faire évoluer le travail Azure Stream Analytics pour augmenter le débit grâce au partitionnement
  • Repartitionner l'entrée du flux pour optimiser la parallélisation

Après avoir terminé ce module, les étudiants seront en mesure de :

  • Permettre une messagerie fiable pour les applications Big Data à l'aide de Azure Event Hubs

  • Travailler avec des flux de données en utilisant Azure Stream Analytics

  • Ingérer des flux de données avec Azure Stream Analytics

Module 11: Créer une solution de traitement en continu avec Event Hubs et Azure Databricks

Dans ce module, les étudiants apprendront à ingérer et à traiter des données en continu à l'échelle avec Event Hubs et Spark Structured Streaming dans Azure Databricks. L'étudiant découvrira les principales caractéristiques et utilisations du Structured Streaming. Il mettra en œuvre des fenêtres glissantes pour agréger des morceaux de données et appliquera le filigrane pour supprimer les données périmées. Enfin, l'étudiant se connectera à Event Hubs pour lire et écrire des flux.

Leçons

  • Traiter les données en streaming avec Azure Databricks structured streaming

Lab : Créer une solution de traitement de flux avec Event Hubs et Azure Databricks

  • Explorez les principales caractéristiques et utilisations du Structured Streaming
  • Stream de données à partir d'un fichier et écriture sur un système de fichiers distribué.
  • Utilisation de fenêtres glissantes pour agréger des morceaux de données plutôt que toutes les données.
  • Appliquer un filigrane pour supprimer les données périmées.
  • Connecter les flux de lecture et d'écriture aux Event Hubs.

Après avoir terminé ce module, les étudiants seront capables de:

  • Traiter les données en streaming avec Azure Databricks structured streaming