Datenintegration mit Azure Data Factory und Azure Data ShareData integration using Azure Data Factory and Azure Data Share

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Kunden benötigen für ihre modernen Data Warehouse- und Analyseprojekte nicht nur mehr Daten, sondern für den gesamten Datenbestand auch einen besseren Einblick und Transparenz.As customers embark on their modern data warehouse and analytics projects, they require not only more data but also more visibility into their data across their data estate. In diesem Workshop wird beschrieben, wie die Datenintegration und -verwaltung in Azure aufgrund der Verbesserungen, die an Azure Data Factory und Azure Data Share vorgenommen wurden, vereinfacht wird.This workshop dives into how improvements to Azure Data Factory and Azure Data Share simplify data integration and management in Azure.

Von der Aktivierung von ETL/ELT-Vorgängen ohne Code bis zur Ermöglichung eines umfassenden Überblicks über Ihre Daten: Dank der Verbesserungen in Azure Data Factory können Ihre Datentechniker problemlos größere Datenmengen verarbeiten und so den Nutzen für Ihr Unternehmen erhöhen.From enabling code-free ETL/ELT to creating a comprehensive view over your data, improvements in Azure Data Factory will empower your data engineers to confidently bring in more data, and thus more value, to your enterprise. Mit Azure Data Share haben Sie die volle Kontrolle über die B2B-Freigabe.Azure Data Share will allow you to do business to business sharing in a governed manner.

In diesem Workshop nutzen Sie Azure Data Factory (ADF) zum Erfassen von Daten aus Azure SQL-Datenbank in Azure Data Lake Storage Gen2 (ADLS Gen2).In this workshop, you'll use Azure Data Factory (ADF) to ingest data from Azure SQL Database into Azure Data Lake Storage Gen2 (ADLS Gen2). Nachdem die Daten im Lake angeordnet wurden, transformieren Sie sie mit Zuordnungsdatenflüssen (nativer Data Factory-Transformationsdienst) und binden sie in Azure Synapse Analytics ein.Once you land the data in the lake, you'll transform it via mapping data flows, data factory's native transformation service, and sink it into Azure Synapse Analytics. Anschließend geben Sie die Tabelle mit transformierten Daten sowie einigen zusätzlichen Daten per Azure Data Share frei.Then, you'll share the table with transformed data along with some additional data using Azure Data Share.

Bei den in diesem Lab verwendeten Daten handelt es sich um New York City-Taxidaten.The data used in this lab is New York City taxi data. Laden Sie die BACPAC-Datei „taxi-data“ herunter, um diese Daten in Ihre Datenbank in Azure SQL-Datenbank zu importieren.To import it into your database in SQL Database, download the taxi-data bacpac file.

VoraussetzungenPrerequisites

Einrichten Ihrer Azure Data Factory-UmgebungSet up your Azure Data Factory environment

In diesem Abschnitt wird beschrieben, wie Sie über das Azure-Portal auf die Benutzeroberfläche von Azure Data Factory (ADF UX) zugreifen.In this section, you'll learn how to access the Azure Data Factory user experience (ADF UX) from the Azure portal. Auf der ADF-Benutzeroberfläche konfigurieren Sie drei verknüpfte Dienste für die von uns genutzten Datenspeicher: Azure SQL-Datenbank, ADLS Gen2 und Azure Synapse Analytics.Once in the ADF UX, you'll configure three linked service for each of the data stores we are using: Azure SQL DB, ADLS Gen2, and Azure Synapse Analytics.

Unter den verknüpften Azure Data Factory-Diensten definieren Sie die Informationen für Verbindungen mit externen Ressourcen.In Azure Data Factory linked services define the connection information to external resources. Azure Data Factory unterstützt derzeit mehr als 85 Connectors.Azure Data Factory currently supports over 85 connectors.

Öffnen der Azure Data Factory-BenutzeroberflächeOpen the Azure Data Factory UX

  1. Öffnen Sie das Azure-Portal in Microsoft Edge oder Google Chrome.Open the Azure portal in either Microsoft Edge or Google Chrome.

  2. Verwenden Sie die Suchleiste oben auf der Seite, um nach „Data Factorys“ zu suchen.Using the search bar at the top of the page, search for 'Data Factories'

    Portal 1

  3. Klicken Sie auf Ihre Data Factory-Ressource, um das zugehörige Ressourcenblatt zu öffnen.Click on your data factory resource to open up its resource blade.

    Portal 2

  4. Klicken Sie auf Erstellen und überwachen, um die ADF-Benutzeroberfläche zu öffnen.Click on Author and Monitor to open up the ADF UX. Sie können auch unter „adf.azure.com“ auf die ADF-Benutzeroberfläche zugreifen.The ADF UX can also be accessed at adf.azure.com.

    Portal 3

  5. Sie werden auf die Startseite der ADF-Benutzeroberfläche umgeleitet.You'll be redirected to the homepage of the ADF UX. Diese Seite enthält Schnellstartanleitungen, Lehrvideos und Links zu Tutorials, damit Sie auf Informationen zu den Data Factory-Konzepten zugreifen können.This page contains quick-starts, instructional videos, and links to tutorials to learn data factory concepts. Klicken Sie links in der Seitenleiste auf das Stiftsymbol, um mit der Erstellung zu beginnen.To start authoring, click on the pencil icon in left side-bar.

    Portal: Konfigurieren

Erstellen eines verknüpften Azure SQL-Datenbank-DienstsCreate an Azure SQL Database linked service

  1. Auf der Erstellungsseite erstellen Sie Data Factory-Ressourcen, z. B. Pipelines, Datasets, Datenflüsse, Trigger und verknüpfte Dienste.The authoring page is where you create data factory resources such as pipelines, datasets, data flows, triggers and linked services. Klicken Sie unten rechts auf die Schaltfläche Verbindungen, um einen verknüpften Dienst zu erstellen.To create a linked service, click on the Connections button in the bottom-right corner.

    Portal: Konfigurieren 2

  2. Klicken Sie auf der Registerkarte „Verbindungen“ auf Neu, um einen neuen verknüpften Dienst hinzuzufügen.In the connections tab, click New to add a new linked service.

    Portal: Konfigurieren 3

  3. Der erste verknüpfte Dienst, den Sie konfigurieren, ist eine Azure SQL-Datenbank.The first linked service you'll configure is an Azure SQL DB. Sie können die Suchleiste verwenden, um die Datenspeicherliste zu filtern.You can use the search bar to filter the data store list. Klicken Sie auf die Kachel Azure SQL-Datenbank und dann auf „Weiter“.Click on the Azure SQL Database tile and click continue.

    Portal: Konfigurieren 4

  4. Geben Sie im Bereich für die SQL DB-Konfiguration „SQLDB“ als Namen für Ihren verknüpften Dienst ein.In the SQL DB configuration pane, enter 'SQLDB' as your linked service name. Geben Sie Ihre Anmeldeinformationen ein, damit Data Factory eine Verbindung mit Ihrer Datenbank herstellen kann.Enter in your credentials to allow data factory to connect to your database. Geben Sie bei Verwendung der SQL-Authentifizierung den Servernamen, die Datenbank, Ihren Benutzernamen und das Kennwort ein.If you're using SQL authentication, enter in the server name, the database, your user name and password. Sie können die Korrektheit Ihrer Verbindungsinformationen überprüfen, indem Sie auf Verbindung testen klicken.You can verify your connection information is correct by clicking Test connection. Klicken Sie auf Erstellen, nachdem der Vorgang abgeschlossen wurde.Click Create when finished.

    Portal: Konfigurieren 5

Erstellen eines verknüpften Azure Synapse Analytics-DienstsCreate an Azure Synapse Analytics linked service

  1. Wiederholen Sie den Vorgang, um einen verknüpften Azure Synapse Analytics-Dienst hinzuzufügen.Repeat the same process to add an Azure Synapse Analytics linked service. Klicken Sie auf der Registerkarte „Verbindungen“ auf Neu.In the connections tab, click New. Wählen Sie die Kachel Azure Synapse Analytics aus, und klicken Sie auf „Weiter“.Select the Azure Synapse Analytics tile and click continue.

    Portal: Konfigurieren 6

  2. Geben Sie im Konfigurationsbereich für verknüpfte Dienste „SQLDW“ als Namen für den verknüpften Dienst ein.In the linked service configuration pane, enter 'SQLDW' as your linked service name. Geben Sie Ihre Anmeldeinformationen ein, damit Data Factory eine Verbindung mit Ihrer Datenbank herstellen kann.Enter in your credentials to allow data factory to connect to your database. Geben Sie bei Verwendung der SQL-Authentifizierung den Servernamen, die Datenbank, Ihren Benutzernamen und das Kennwort ein.If you're using SQL authentication, enter in the server name, the database, your user name and password. Sie können die Korrektheit Ihrer Verbindungsinformationen überprüfen, indem Sie auf Verbindung testen klicken.You can verify your connection information is correct by clicking Test connection. Klicken Sie auf Erstellen, nachdem der Vorgang abgeschlossen wurde.Click Create when finished.

    Portal: Konfigurieren 7

Erstellen eines verknüpften Azure Data Lake Storage Gen2-DienstsCreate an Azure Data Lake Storage Gen2 linked service

  1. Der letzte verknüpfte Dienst, der für dieses Lab benötigt wird, ist Azure Data Lake Storage Gen2.The last linked service needed for this lab is an Azure Data Lake Storage gen2. Klicken Sie auf der Registerkarte „Verbindungen“ auf Neu.In the connections tab, click New. Wählen Sie die Kachel Azure Data Lake Storage Gen2 aus, und klicken Sie auf „Weiter“.Select the Azure Data Lake Storage Gen2 tile and click continue.

    Portal: Konfigurieren 8

  2. Geben Sie im Konfigurationsbereich für den verknüpften Dienst „ADLSGen2“ als Namen für den verknüpften Dienst ein.In the linked service configuration pane, enter 'ADLSGen2' as your linked service name. Wählen Sie bei Verwendung der Kontoschlüsselauthentifizierung in der Dropdownliste Speicherkontoname Ihr ADLS Gen2-Speicherkonto aus.If you're using Account key authentication, select your ADLS Gen2 storage account from the Storage account name dropdown. Sie können die Korrektheit Ihrer Verbindungsinformationen überprüfen, indem Sie auf Verbindung testen klicken.You can verify your connection information is correct by clicking Test connection. Klicken Sie auf Erstellen, nachdem der Vorgang abgeschlossen wurde.Click Create when finished.

    Portal: Konfigurieren 9

Aktivieren des Debugmodus für DatenflüsseTurn on data flow debug mode

Im Abschnitt Transformieren von Daten per Zuordnung von Datenflüssen erstellen Sie Zuordnungsdatenflüsse.In section Transform data using mapping data flow, you'll be building mapping data flows. Eine bewährte Methode vor dem Erstellen von Zuordnungsdatenflüssen ist das Aktivieren des Debugmodus. Dies ermöglicht Ihnen das Testen der Transformationslogik innerhalb weniger Sekunden in einem aktiven Spark-Cluster.A best practice before building mapping data flows is to turn on debug mode, which allows you to test transformation logic in seconds on an active spark cluster.

Klicken Sie zum Aktivieren des Debuggens in der oberen Factory-Leiste auf den Schieberegler für Datenfluss debuggen.To turn on debug, click the Data flow debug slider in the factory top bar. Klicken Sie auf „OK“, wenn das Bestätigungsdialogfeld angezeigt wird.Click ok when the confirmation dialog pop-ups. Es dauert ca. 5 bis 7 Minuten, bis der Startvorgang für den Cluster abgeschlossen ist.The cluster will take about 5-7 minutes to start up. Fahren Sie mit dem Erfassen von Daten aus Azure SQL-Datenbank in ADLS Gen2 per Copy-Aktivität fort, während der Initialisierungsvorgang läuft.Continue on to Ingest data from Azure SQL DB into ADLS Gen2 using the copy activity while it is initializing.

Portal: Konfigurieren 10

Erfassen von Daten mithilfe der KopieraktivitätIngest data using the copy activity

In diesem Abschnitt erstellen Sie eine Pipeline mit einer Copy-Aktivität, bei der eine Tabelle aus einer Azure SQL-Datenbank in einem ADLS Gen2-Speicherkonto erfasst wird.In this section, you'll create a pipeline with a copy activity that ingests one table from an Azure SQL DB into an ADLS Gen2 storage account. Es wird beschrieben, wie Sie eine Pipeline hinzufügen, ein Dataset konfigurieren und eine Pipeline über die ADF-Benutzeroberfläche debuggen.You'll learn how to add a pipeline, configure a dataset and debug a pipeline via the ADF UX. Das in diesem Abschnitt verwendete Konfigurationsmuster kann auf das Kopieren aus einem relationalen Datenspeicher in einen dateibasierten Datenspeicher angewendet werden.The configuration pattern used in this section can be applied to copying from a relational data store to a file-based data store.

In Azure Data Factory ist eine Pipeline eine logische Gruppierung von Aktivitäten, die zusammen eine Aufgabe bilden.In Azure Data Factory, a pipeline is a logical grouping of activities that together perform a task. Mit einer Aktivität wird ein Vorgang definiert, der für Ihre Daten durchgeführt werden soll.An activity defines an operation to perform on your data. Ein Dataset verweist auf die Daten, die Sie in einem verknüpften Dienst verwenden möchten.A dataset points to the data you wish to use in a linked service.

Erstellen einer Pipeline mit einer KopieraktivitätCreate a pipeline with a copy activity

  1. Klicken Sie im Bereich mit den Factory-Ressourcen auf das Plussymbol, um das Menü „Neue Ressource“ zu öffnen.In the factory resources pane, click on the plus icon to open the new resource menu. Wählen Sie Pipeline aus.Select Pipeline.

    Portal: Kopieren 1

  2. Geben Sie Ihrer Pipeline in der Pipelinecanvas auf der Registerkarte Allgemein einen beschreibenden Namen, z. B. „IngestAndTransformTaxiData“.In the General tab of the pipeline canvas, name your pipeline something descriptive such as 'IngestAndTransformTaxiData'.

    Portal: Kopieren 2

  3. Öffnen Sie auf der Pipelinecanvas unter „Aktivitäten“ den Accordion-Bereich Move and Transform (Verschieben und transformieren), und ziehen Sie die Aktivität Daten kopieren in die Canvas.In the activities pane of the pipeline canvas, open the Move and Transform accordion and drag the Copy data activity onto the canvas. Geben Sie der Kopieraktivität einen beschreibenden Namen, z. B. „IngestIntoADLS“.Give the copy activity a descriptive name such as 'IngestIntoADLS'.

    Portal: Kopieren 3

Konfigurieren eines Quelldatasets für die Azure SQL-DatenbankConfigure Azure SQL DB source dataset

  1. Klicken Sie in der Kopieraktivität auf die Registerkarte Quelle.Click on the Source tab of the copy activity. Klicken Sie auf Neu, um ein neues Dataset zu erstellen.To create a new dataset, click New. Ihre Quelle ist die Tabelle „dbo.TripData“, die sich unter dem weiter oben konfigurierten verknüpften Dienst „SQLDB“ befindet.Your source will be the table 'dbo.TripData' located in the linked service 'SQLDB' configured earlier.

    Portal: Kopieren 4

  2. Suchen Sie nach Azure SQL-Datenbank, und klicken Sie auf „Weiter“.Search for Azure SQL Database and click continue.

    Portal: Kopieren 5

  3. Geben Sie Ihrem Dataset den Namen „TripData“.Call your dataset 'TripData'. Wählen Sie „SQLDB“ als verknüpften Dienst aus.Select 'SQLDB' as your linked service. Wählen Sie in der Dropdownliste mit den Tabellennamen den Eintrag „dbo.TripData“ aus.Select table name 'dbo.TripData' from the table name dropdown. Importieren Sie das Schema Aus Verbindung/Speicher.Import the schema From connection/store. Klicken Sie auf „OK“, wenn der Vorgang abgeschlossen ist.Click OK when finished.

    Portal: Kopieren 6

Sie haben Ihr Quelldataset erfolgreich erstellt.You have successfully created your source dataset. Stellen Sie in den Quelleinstellungen sicher, dass im Feld für „Abfrage verwenden“ der Standardwert Tabelle ausgewählt ist.Make sure in the source settings, the default value Table is selected in the use query field.

Konfigurieren des ADLS Gen2-SenkendatasetsConfigure ADLS Gen2 sink dataset

  1. Klicken Sie in der Kopieraktivität auf die Registerkarte Senke.Click on the Sink tab of the copy activity. Klicken Sie auf Neu, um ein neues Dataset zu erstellen.To create a new dataset, click New.

    Portal: Kopieren 7

  2. Suchen Sie nach Azure Data Lake Storage Gen2, und klicken Sie auf „Weiter“.Search for Azure Data Lake Storage Gen2 and click continue.

    Portal: Kopieren 8

  3. Wählen Sie im ausgewählten Formatbereich beim Schreiben in eine CSV-Datei die Option DelimitedText.In the select format pane, select DelimitedText as you're writing to a csv file. Klicken Sie auf „Weiter“.Click continue.

    Portal: Kopieren 9

  4. Geben Sie Ihrem Senkendataset den Namen „TripDataCSV“.Name your sink dataset 'TripDataCSV'. Wählen Sie „ADLSGen2“ als verknüpften Dienst aus.Select 'ADLSGen2' as your linked service. Geben Sie ein, an welchen Speicherort Ihre CSV-Datei geschrieben werden soll.Enter where you want to write your csv file. Sie können Ihre Daten beispielsweise in die Datei trip-data.csv im Container staging-container schreiben.For example, you can write your data to file trip-data.csv in container staging-container. Legen Sie Erste Zeile als Header verwenden auf „true“ fest, da Ihre Ausgabedaten Header enthalten sollen.Set First row as header to true as you want your output data to have headers. Legen Sie Schema importieren auf Keine fest, da am Zielort noch keine Datei vorhanden ist.Since no file exists in the destination yet, set Import schema to None. Klicken Sie auf „OK“, wenn der Vorgang abgeschlossen ist.Click OK when finished.

    Portal: Kopieren 10

Testen der Kopieraktivität mit einer Debugausführung der PipelineTest the copy activity with a pipeline debug run

  1. Klicken Sie zum Überprüfen, ob Ihre Kopieraktivität richtig funktioniert, oben in der Pipelinecanvas auf Debuggen, um eine Debugausführung durchzuführen.To verify your copy activity is working correctly, click Debug at the top of the pipeline canvas to execute a debug run. Mit einer Debugausführung können Sie Ihre Pipeline entweder von Anfang bis Ende oder bis zu einem Breakpoint testen, bevor Sie sie im Data Factory-Dienst veröffentlichen.A debug run allows you to test your pipeline either end-to-end or until a breakpoint before publishing it to the data factory service.

    Portal: Kopieren 11

  2. Navigieren Sie in der Pipelinecanvas zur Registerkarte Ausgabe, um Ihre Debugausführung zu überwachen.To monitor your debug run, go to the Output tab of the pipeline canvas. Der Überwachungsbildschirm wird alle 20 Sekunden automatisch aktualisiert (oder wenn Sie auf die Schaltfläche „Aktualisieren“ klicken).The monitoring screen will autorefresh every 20 seconds or when you manually click the refresh button. Die Copy-Aktivität verfügt über eine spezielle Überwachungsansicht, auf die Sie zugreifen können, indem Sie in der Spalte Aktionen auf das Brillensymbol klicken.The copy activity has a special monitoring view, which can be access by clicking the eye-glasses icon in the Actions column.

    Portal: Kopieren 12

  3. Die Überwachungsansicht für den Kopiervorgang enthält die Ausführungsdetails und Leistungsmerkmale zur Aktivität.The copy monitoring view gives the activity's execution details and performance characteristics. Sie können Informationen zu „gelesene/geschriebene Daten“, „gelesene/geschriebene Zeilen“, „gelesene/geschriebene Dateien“ und „Durchsatz“ anzeigen.You can see information such as data read/written, rows read/written, files read/written, and throughput. Wenn Sie alles richtig konfiguriert haben, sollten Sie verfolgen können, dass 49.999 Zeilen in eine Datei in Ihrer ADLS-Senke geschrieben werden.If you have configured everything correctly, you should see 49,999 rows written into one file in your ADLS sink.

    Portal: Kopieren 13

  4. Bevor Sie mit dem nächsten Abschnitt fortfahren, wird das Veröffentlichen Ihrer Änderungen über den Data Factory-Dienst vorgeschlagen. Hierzu klicken Sie in der oberen Factory-Leiste auf Alle veröffentlichen.Before moving on to the next section, it's suggested that you publish your changes to the data factory service by clicking Publish all in the factory top bar. In diesem Lab ist keine Beschreibung enthalten, aber für Azure Data Factory wird die vollständige Git-Integration unterstützt.While not covered in this lab, Azure Data Factory supports full git integration. Die Git-Integration ermöglicht Versionskontrolle, iteratives Speichern in einem Repository und Zusammenarbeit über eine Data Factory.Git integration allows for version control, iterative saving in a repository, and collaboration on a data factory. Weitere Informationen finden Sie unter Quellcodeverwaltung in Azure Data Factory.For more information, see source control in Azure Data Factory.

    Portal: Veröffentlichen 1

Transformieren von Daten per Zuordnung von DatenflüssenTransform data using mapping data flow

Nachdem Sie Daten nun erfolgreich in Azure Data Lake Storage kopiert haben, können Sie diese Daten verknüpfen und in einem Data Warehouse aggregieren.Now that you have successfully copied data into Azure Data Lake Storage, it is time to join and aggregate that data into a data warehouse. Hierfür verwenden wir Zuordnungsdatenflüsse. Dies ist der visuell konzipierte Transformationsdienst von Azure Data Factory.We will use mapping data flow, Azure Data Factory's visually designed transformation service. Mit Zuordnungsdatenflüssen können Benutzer Transformationslogik ohne Code entwickeln und diese in Spark-Clustern ausführen, die vom ADF-Dienst verwaltet werden.Mapping data flows allow users to develop transformation logic code-free and execute them on spark clusters managed by the ADF service.

Mit dem in diesem Schritt erstellten Datenfluss wird für das Dataset „TripDataCSV“ aus dem vorherigen Abschnitt basierend auf vier Schlüsselspalten ein Vorgang vom Typ „Innerer Join“ mit der Tabelle „dbo.TripFares“ durchgeführt, die in „SQLDB“ gespeichert ist.The data flow created in this step inner joins the 'TripDataCSV' dataset created in the previous section with a table 'dbo.TripFares' stored in 'SQLDB' based on four key columns. Anschließend werden die Daten basierend auf der Spalte payment_type aggregiert, um den Mittelwert für bestimmte Felder zu berechnen, und in eine Azure Synapse Analytics-Tabelle geschrieben.Then the data gets aggregated based upon column payment_type to calculate the average of certain fields and written in an Azure Synapse Analytics table.

Hinzufügen einer Datenflussaktivität zu Ihrer PipelineAdd a data flow activity to your pipeline

  1. Öffnen Sie auf der Pipelinecanvas unter „Aktivitäten“ den Accordion-Bereich Move and Transform (Verschieben und transformieren), und ziehen Sie die Aktivität Datenfluss in die Canvas.In the activities pane of the pipeline canvas, open the Move and Transform accordion and drag the Data flow activity onto the canvas.

    Portal: Datenfluss 1

  2. Wählen Sie im daraufhin geöffneten Seitenbereich die Option Neuen Datenfluss erstellen und dann Zuordnungsdatenfluss aus.In the side pane that opens, select Create new data flow and choose Mapping data flow. Klicken Sie auf OK.Click OK.

    Portal: Datenfluss 2

  3. Sie werden an die Datenflusscanvas weitergeleitet, in der Sie Ihre Transformationslogik erstellen.You'll be directed to the data flow canvas where you'll be building your transformation logic. Geben Sie Ihrem Datenfluss auf der Registerkarte „Allgemein“ den Namen „JoinAndAggregateData“.In the general tab, name your data flow 'JoinAndAggregateData'.

    Portal: Datenfluss 3

Konfigurieren der CSV-Quelle für Ihre FahrtdatenConfigure your trip data csv source

  1. Es ist ratsam, als Erstes Ihre beiden Quelltransformationen zu konfigurieren.The first thing you want to do is configure your two source transformations. Die erste Quelle verweist auf das Dataset „TripDataCSV“ vom Typ „DelimitedText“.The first source will point to the 'TripDataCSV' DelimitedText dataset. Klicken Sie in der Canvas auf das Feld Quelle hinzufügen, um eine Quelltransformation hinzuzufügen.To add a source transformation, click on the Add Source box in the canvas.

    Portal: Datenfluss 4

  2. Geben Sie Ihrer Quelle den Namen „TripDataCSV“, und wählen Sie in der Dropdownliste der Quelle das Dataset „TripDataCSV“ aus.Name your source 'TripDataCSV' and select the 'TripDataCSV' dataset from the source drop-down. Hinweis: Sie haben beim Erstellen dieses Datasets ursprünglich kein Schema importiert, weil keine Daten vorhanden waren.If you remember, you didn't import a schema initially when creating this dataset as there was no data there. Da trip-data.csv jetzt vorhanden ist, können Sie auf Bearbeiten klicken, um zur Registerkarte „Dataseteinstellungen“ zu navigieren.Since trip-data.csv exists now, click Edit to go to the dataset settings tab.

    Portal: Datenfluss 5

  3. Navigieren Sie zur Registerkarte Schema, und klicken Sie auf Schema importieren.Go to tab Schema and click Import schema. Wählen Sie Aus Verbindung/Speicher, um den direkten Import aus dem Dateispeicher durchzuführen.Select From connection/store to import directly from the file store. Es sollten 14 Spalten vom Typ „Zeichenfolge“ angezeigt werden.14 columns of type string should appear.

    Portal: Datenfluss 6

  4. Navigieren Sie zurück zum Datenfluss „JoinAndAggregateData“.Go back to data flow 'JoinAndAggregateData'. Wenn Ihr Debugcluster gestartet wurde (grüner Kreis neben dem Debugschieberegler), können Sie auf der Registerkarte Datenvorschau eine Momentaufnahme der Daten anzeigen. Klicken Sie auf Aktualisieren, um eine Datenvorschau abzurufen.If your debug cluster has started (indicated by a green circle next to the debug slider), you can get a snapshot of the data in the Data Preview tab. Click Refresh to fetch a data preview.

    Portal: Datenfluss 7

Hinweis

Von der Datenvorschau werden keine Daten geschrieben.Data preview does not write data.

Konfigurieren Ihrer Fahrpreise: Quelle für SQL-DatenbankConfigure your trip fares SQL DB source

  1. Die zweite Quelle, die Sie hinzufügen, verweist auf die Tabelle „dbo.TripFares“ der SQL-Datenbank.The second source you're adding will point at the SQL DB table 'dbo.TripFares'. Unter der Quelle „TripDataCSV“ wird ein weiteres Feld Quelle hinzufügen angezeigt.Under your 'TripDataCSV' source, there will be another Add Source box. Klicken Sie auf das Feld, um eine neue Quelltransformation hinzuzufügen.Click it to add a new source transformation.

    Portal: Datenfluss 8

  2. Geben Sie dieser Quelle den Namen „TripFaresSQL“.Name this source 'TripFaresSQL'. Klicken Sie neben dem Feld mit dem Quelldataset auf Neu, um ein neues SQL DB-Dataset zu erstellen.Click New next to the source dataset field to create a new SQL DB dataset.

    Portal: Datenfluss 9

  3. Wählen Sie die Kachel Azure SQL-Datenbank aus, und klicken Sie anschließend auf „Weiter“.Select the Azure SQL Database tile and click continue. Hinweis: Unter Umständen stellen Sie fest, dass viele Connectors in Data Factory für Zuordnungsdatenflüsse nicht unterstützt werden. Erfassen Sie Daten per Kopieraktivität in einer unterstützten Quelle, um diese aus einer dieser Quellen zu transformieren.Note: You may notice many of the connectors in data factory are not supported in mapping data flow. To transform data from one of these sources, ingest it into a supported source using the copy activity.

    Portal: Datenfluss 10

  4. Geben Sie Ihrem Dataset den Namen „TripFares“.Call your dataset 'TripFares'. Wählen Sie „SQLDB“ als verknüpften Dienst aus.Select 'SQLDB' as your linked service. Wählen Sie in der Dropdownliste mit den Tabellennamen den Eintrag „dbo.TripFares“ aus.Select table name 'dbo.TripFares' from the table name dropdown. Importieren Sie das Schema Aus Verbindung/Speicher.Import the schema From connection/store. Klicken Sie auf „OK“, wenn der Vorgang abgeschlossen ist.Click OK when finished.

    Portal: Datenfluss 11

  5. Rufen Sie zum Überprüfen Ihrer Daten auf der Registerkarte Datenvorschau eine Datenvorschau ab.To verify your data, fetch a data preview in the Data Preview tab.

    Portal: Datenfluss 12

Innerer Join: TripDataCSV und TripFaresSQLInner join TripDataCSV and TripFaresSQL

  1. Klicken Sie zum Hinzufügen einer neuen Transformation in „TripDataCSV“ unten rechts auf das Plussymbol.To add a new transformation, click the plus icon in the bottom-right corner of 'TripDataCSV'. Wählen Sie unter Multiple inputs/outputs (Mehrere Eingaben/Ausgaben) die Option Join aus.Under Multiple inputs/outputs, select Join.

    Portal: Join 1

  2. Geben Sie Ihrer Join-Transformation den Namen „InnerJoinWithTripFares“.Name your join transformation 'InnerJoinWithTripFares'. Wählen Sie in der Dropdownliste des rechten Streams „TripFaresSQL“ aus.Select 'TripFaresSQL' from the right stream dropdown. Wählen Sie Innerer als Join-Typ aus.Select Inner as the join type. Weitere Informationen zu den unterschiedlichen Join-Typen im Zuordnungsdatenfluss finden Sie unter Join-Typen.To learn more about the different join types in mapping data flow, see join types.

    Wählen Sie über die Dropdownliste mit den Verknüpfungsbedingungen aus, welche Spalten für jeden Stream abgeglichen werden sollen.Select which columns you wish to match on from each stream via the Join conditions dropdown. Klicken Sie zum Hinzufügen einer weiteren Verknüpfungsbedingung neben einer vorhandenen Bedingung auf das Pluszeichen.To add an additional join condition, click on the plus icon next to an existing condition. Standardmäßig werden alle Verknüpfungsbedingungen mit einem AND-Operator kombiniert. Das bedeutet, dass alle Bedingungen erfüllt sein müssen, damit sich eine Übereinstimmung ergibt.By default, all join conditions are combined with an AND operator, which means all conditions must be met for a match. In diesem Lab möchten wir die Spalten medallion, hack_license, vendor_id und pickup_datetime verwenden.In this lab, we want to match on columns medallion, hack_license, vendor_id, and pickup_datetime

    Portal: Join 2

  3. Vergewissern Sie sich anhand einer Datenvorschau, dass Sie 25 Spalten erfolgreich verknüpft haben.Verify you successfully joined 25 columns together with a data preview.

    Portal: Join 3

Aggregieren nach „payment_type“Aggregate by payment_type

  1. Fügen Sie nach Abschluss Ihrer Join-Transformation eine Aggregattransformation hinzu, indem Sie neben „InnerJoinWithTripFares“ auf das Pluszeichen klicken.After you complete your join transformation, add an aggregate transformation by clicking the plus icon next to 'InnerJoinWithTripFares. Wählen Sie unter Schemamodifizierer die Option Aggregieren aus.Choose Aggregate under Schema modifier.

    Portal: Aggregieren 1

  2. Geben Sie Ihrer Aggregattransformation den Namen „AggregateByPaymentType“.Name your aggregate transformation 'AggregateByPaymentType'. Wählen Sie payment_type als Spalte aus, nach der gruppiert werden soll.Select payment_type as the group by column.

    Portal: Aggregieren 2

  3. Wechseln Sie zur Registerkarte Aggregate. Hier geben Sie zwei Aggregationen an:Go to the Aggregates tab. Here, you'll specify two aggregations:

    • Durchschnittlicher Fahrpreis gruppiert nach ZahlungstypThe average fare grouped by payment type
    • Gesamte Fahrtstrecke gruppiert nach ZahlungstypThe total trip distance grouped by payment type

    Als Erstes erstellen Sie den Ausdruck für den durchschnittlichen Fahrpreis.First, you'll create the average fare expression. Geben Sie im Textfeld Add or select a column (Spalte hinzufügen oder auswählen) den Namen „average_fare“ ein.In the text box labeled Add or select a column, enter 'average_fare'.

    Portal: Aggregieren 3

  4. Klicken Sie zum Eingeben eines Aggregationsausdrucks auf das blaue Feld Ausdruck eingeben.To enter an aggregation expression, click the blue box labeled Enter expression. Der Ausdrucks-Generator für Datenflüsse wird geöffnet. Hierbei handelt es sich um ein Tool, das zum visuellen Erstellen von Datenflussausdrücken mit Eingabeschema, integrierten Funktionen und Vorgängen sowie benutzerdefinierten Parametern verwendet wird.This will open up the data flow expression builder, a tool used to visually create data flow expressions using input schema, built-in functions and operations, and user-defined parameters. Weitere Informationen zu den Funktionen des Ausdrucks-Generators finden Sie in der Dokumentation des Ausdrucks-Generators.For more information on the capabilities of the expression builder, see the expression builder documentation.

    Verwenden Sie zum Abrufen des durchschnittlichen Fahrpreises die Aggregationsfunktion avg(), um die Spalte total_amount zu aggregieren, die per toInteger() in eine Integer umgewandelt wurde.To get the average fare, use the avg() aggregation function to aggregate the total_amount column cast to an integer with toInteger(). In der Ausdruckssprache für Datenflüsse ist dies als avg(toInteger(total_amount)) definiert.In the data flow expression language, this is defined as avg(toInteger(total_amount)). Klicken Sie auf Speichern und beenden, wenn Sie fertig sind.Click Save and finish when you're done.

    Portal: Aggregieren 4

  5. Klicken Sie auf das Pluszeichen neben average_fare, um einen weiteren Aggregationsausdruck hinzuzufügen.To add an additional aggregation expression, click on the plus icon next to average_fare. Wählen Sie die Option Spalte hinzufügen aus.Select Add column.

    Portal: Aggregieren 5

  6. Geben Sie im Textfeld Add or select a column (Spalte hinzufügen oder auswählen) den Namen „total_trip_distance“ ein.In the text box labeled Add or select a column, enter 'total_trip_distance'. Öffnen Sie wie im letzten Schritt den Ausdrucks-Generator, um den Ausdruck einzugeben.As in the last step, open the expression builder to enter in the expression.

    Verwenden Sie zum Abrufen der gesamten Fahrstrecke die Aggregationsfunktion sum(), um die Spalte trip_distance zu aggregieren, die per toInteger() in eine Integer umgewandelt wurde.To get the total trip distance, use the sum() aggregation function to aggregate the trip_distance column cast to an integer with toInteger(). In der Ausdruckssprache für Datenflüsse ist dies als sum(toInteger(trip_distance)) definiert.In the data flow expression language, this is defined as sum(toInteger(trip_distance)). Klicken Sie auf Speichern und beenden, wenn Sie fertig sind.Click Save and finish when you're done.

    Portal: Aggregieren 6

  7. Testen Sie Ihre Transformationslogik auf der Registerkarte Datenvorschau. Sie sehen, dass deutlich weniger Zeilen und Spalten als vorher vorhanden sind.Test your transformation logic in the Data Preview tab. As you can see, there are significantly fewer rows and columns than previously. Nur die drei Spalten vom Typ „Gruppieren nach“ und „Aggregation“, die in dieser Transformation definiert sind, werden weiter genutzt.Only the three groups by and aggregation columns defined in this transformation continue downstream. Da das Beispiel nur fünf Zahlungstypgruppen enthält, werden nur fünf Zeilen ausgegeben.As there are only five payment type groups in the sample, only five rows are outputted.

    Portal: Aggregieren 7

Konfigurieren der Azure Synapse Analytics-SenkeConfigure you Azure Synapse Analytics sink

  1. Nachdem wir die Transformationslogik fertiggestellt haben, können wir unsere Daten in eine Azure Synapse Analytics-Tabelle einbinden.Now that we have finished our transformation logic, we are ready to sink our data in an Azure Synapse Analytics table. Fügen Sie im Abschnitt Ziel eine Senkentransformation hinzu.Add a sink transformation under the Destination section.

    Portal: Senke 1

  2. Geben Sie Ihrer Senke den Namen „SQLDWSink“.Name your sink 'SQLDWSink'. Klicken Sie neben dem Feld „Senkendataset“ auf Neu, um ein neues Azure Synapse Analytics-Dataset zu erstellen.Click New next to the sink dataset field to create a new Azure Synapse Analytics dataset.

    Portal: Senke 2

  3. Wählen Sie die Kachel Azure Synapse Analytics aus, und klicken Sie auf „Weiter“.Select the Azure Synapse Analytics tile and click continue.

    Portal: Senke 3

  4. Geben Sie Ihrem Dataset den Namen „AggregatedTaxiData“.Call your dataset 'AggregatedTaxiData'. Wählen Sie „SQLDW“ als verknüpften Dienst aus.Select 'SQLDW' as your linked service. Wählen Sie Neue Tabelle erstellen aus, und geben Sie der neuen Tabelle den Namen „dbo.AggregateTaxiData“.Select Create new table and name the new table dbo.AggregateTaxiData. Klicken Sie anschließend auf „OK“.Click OK when finished

    Portal: Senke 4

  5. Navigieren Sie zur Registerkarte Einstellungen der Senke.Go to the Settings tab of the sink. Da wir eine neue Tabelle erstellen, müssen wir als Tabellenaktion die Option Tabelle neu erstellen auswählen.Since we are creating a new table, we need to select Recreate table under table action. Deaktivieren Sie die Option Staging aktivieren. Mit dieser Option wird angegeben, ob das Einfügen Zeile für Zeile oder als Batch durchgeführt wird.Unselect Enable staging, which toggles whether we are inserting row-by-row or in batch.

    Portal: Senke 5

Sie haben Ihren Datenfluss erfolgreich erstellt.You have successfully created your data flow. Als Nächstes führen Sie ihn in einer Pipelineaktivität aus.Now it's time to run it in a pipeline activity.

Debuggen Ihrer Pipeline von Anfang bis EndeDebug your pipeline end-to-end

  1. Wechseln Sie zurück zur Registerkarte für die Pipeline IngestAndTransformData.Go back to the tab for the IngestAndTransformData pipeline. Achten Sie auf das grüne Feld der Kopieraktivität „IngestIntoADLS“.Notice the green box on the 'IngestIntoADLS' copy activity. Ziehen Sie es auf die Datenflussaktivität „JoinAndAggregateData“.Drag it over to the 'JoinAndAggregateData' data flow activity. Ein Element vom Typ „Bei Erfolg“ wird erstellt. Es bewirkt, dass die Datenflussaktivität nur ausgeführt wird, wenn der Kopiervorgang erfolgreich ist.This creates an 'on success', which causes the data flow activity to only run if the copy is successful.

    Portal: Pipeline 1

  2. Klicken Sie auf Debuggen, um eine Debugausführung durchzuführen (wie für die Kopieraktivität).As we did for the copy activity, click Debug to execute a debug run. Für Debugausführungen wird von der Datenflussaktivität der aktive Debugcluster verwendet und kein neuer Cluster erstellt.For debug runs, the data flow activity will use the active debug cluster instead of spinning up a new cluster. Die Ausführung dieser Pipeline dauert etwas mehr als eine Minute.This pipeline will take a little over a minute to execute.

    Portal: Pipeline 2

  3. Wie die Kopieraktivität auch, verfügt der Datenfluss über eine spezielle Überwachungsansicht, auf die nach Abschluss des Vorgangs über das Brillensymbol zugegriffen werden kann.Like the copy activity, the data flow has a special monitoring view accessed by the eyeglasses icon on completion of the activity.

    Portal: Pipeline 3

  4. In der Überwachungsansicht wird in jeder Ausführungsphase ein vereinfachter Datenflussgraph mit den Ausführungszeiten und -zeilen angezeigt.In the monitoring view, you can see a simplified data flow graph along with the execution times and rows at each execution stage. Wenn dies korrekt durchgeführt wird, sollten bei dieser Aktivität 49.999 Zeilen in fünf Zeilen aggregiert worden sein.If done correctly, you should have aggregated 49,999 rows into five rows in this activity.

    Portal: Pipeline 4

  5. Sie können auf eine Transformation klicken, um weitere Details zur Ausführung abzurufen, z. B. Partitionierungsinformationen und neue/aktualisierte/gelöschte Spalten.You can click a transformation to get additional details on its execution such as partitioning information and new/updated/dropped columns.

    Portal: Pipeline 5

Sie haben den Data Factory-Teil dieses Labs jetzt abgeschlossen.You have now completed the data factory portion of this lab. Veröffentlichen Sie Ihre Ressourcen, falls Sie diese mit Triggern operationalisieren möchten.Publish your resources if you wish to operationalize them with triggers. Sie haben erfolgreich eine Pipeline ausgeführt, mit der Daten mit der Kopieraktivität aus Azure SQL-Datenbank in Azure Data Lake Storage erfasst wurden, und diese Daten anschließend in einer Azure Synapse Analytics-Instanz aggregiert.You successfully ran a pipeline that ingested data from Azure SQL Database to Azure Data Lake Storage using the copy activity and then aggregated that data into an Azure Synapse Analytics. Sie können überprüfen, ob das Schreiben der Daten erfolgreich war, indem Sie sich die SQL Server-Instanz ansehen.You can verify the data was successfully written by looking at the SQL Server itself.

Freigeben von Daten mithilfe von Azure Data ShareShare data using Azure Data Share

In diesem Abschnitt wird beschrieben, wie Sie mit dem Azure-Portal eine neue Datenfreigabe einrichten.In this section, you'll learn how to set up a new data share using the Azure portal. Dies umfasst das Erstellen einer neuen Datenfreigabe, die Datasets aus Azure Data Lake Store Gen2 und Azure Synapse Analytics enthält.This will involve creating a new data share that will contain datasets from Azure Data Lake Store Gen2 and Azure Synapse Analytics. Anschließend konfigurieren Sie eine Momentaufnahme, damit die Datenconsumer über eine Option zum automatischen Aktualisieren der freigegebenen Daten verfügen.You'll then configure a snapshot schedule, which will give the data consumers an option to automatically refresh the data being shared with them. Anschließend laden Sie Empfänger für Ihre Datenfreigabe ein.Then, you'll invite recipients to your data share.

Nachdem Sie eine Datenfreigabe erstellt haben, wechseln Sie dann die Seite und werden zum Datenconsumer.Once you have created a data share, you'll then switch hats and become the data consumer. Als Datenconsumer führen Sie die folgenden Schritte aus: Akzeptieren einer Einladung für die Datenfreigabe, Konfigurieren des Orts für den Datenempfang und Zuordnen von Datasets zu unterschiedlichen Speicherorten.As the data consumer, you'll walk through the flow of accepting a data share invitation, configuring where you'd like the data to be received and mapping datasets to different storage locations. Anschließend lösen Sie eine Momentaufnahme aus. Bei diesem Vorgang werden die für Sie freigegebenen Daten an das Ziel kopiert, das Sie angegeben haben.Then you'll trigger a snapshot, which will copy the data shared with you into the destination specified.

Freigeben von Daten (Datenanbieterfluss)Sharing data (Data Provider flow)

  1. Öffnen Sie das Azure-Portal in Microsoft Edge oder Google Chrome.Open the Azure portal in either Microsoft Edge or Google Chrome.

  2. Verwenden Sie die Suchleiste oben auf der Seite, um nach Datenfreigaben zu suchen.Using the search bar at the top of the page, search for Data Shares

    Portal: ADF

  3. Wählen Sie das Datenfreigabekonto aus, dessen Name „Provider“ enthält.Select the data share account with 'Provider' in the name. Beispiel: DataProvider0102.For example, DataProvider0102.

  4. Wählen Sie Freigabe Ihrer Daten starten aus.Select Start sharing your data

    Starten der Freigabe

  5. Wählen Sie + Erstellen aus, um mit dem Konfigurieren Ihrer neuen Datenfreigabe zu beginnen.Select +Create to start configuring your new data share.

  6. Geben Sie unter Freigabename einen Namen Ihrer Wahl an.Under Share name, specify a name of your choice. Dies ist der Freigabename, der für Ihren Datenconsumer angezeigt wird. Daher ist es ratsam, einen beschreibenden Namen zu verwenden, z. B. „TaxiData“.This is the share name that will be seen by your data consumer, so be sure to give it a descriptive name such as TaxiData.

  7. Geben Sie unter Beschreibung einen Satz ein, mit dem der Inhalt der Datenfreigabe beschrieben wird.Under Description, put in a sentence, which describes the contents of the data share. Die Datenfreigabe enthält Daten zu weltweiten Taxifahrten, die sich in unterschiedlichen Speichern befinden, z. B. Azure Synapse Analytics und Azure Data Lake Store.The data share will contain world-wide taxi trip data that is stored in a number of stores including Azure Synapse Analytics and Azure Data Lake Store.

  8. Geben Sie unter Nutzungsbedingungen die Bedingungen an, an die sich Ihr Datenconsumer halten soll.Under Terms of use, specify a set of terms that you would like your data consumer to adhere to. Beispiele hierfür sind „Daten nicht außerhalb Ihres Unternehmens weitergeben“ oder „Siehe Vertrag“.Some examples include "Do not distribute this data outside your organization" or "Refer to legal agreement".

    Details zu Freigaben

  9. Wählen Sie Weiter.Select Continue.

  10. Wählen Sie die Option Datasets hinzufügen aus.Select Add datasets

    Datasets hinzufügen 1

  11. Wählen Sie Azure Synapse Analytics aus, um in Azure Synapse Analytics eine Tabelle auszuwählen, in der Ihre ADF-Transformationen enthalten sind.Select Azure Synapse Analytics to select a table from Azure Synapse Analytics that your ADF transformations landed in.

    Datasets hinzufügen: SQL

  12. Sie erhalten ein Skript, das Sie vor dem Fortfahren ausführen können.You'll be given a script to run before you can proceed. Mit dem bereitgestellten Skript wird in der SQL-Datenbank ein Benutzer erstellt, damit die verwaltete Dienstidentität von Azure Data Share im Namen des Benutzers die Authentifizierung durchführen kann.The script provided creates a user in the SQL database to allow the Azure Data Share MSI to authenticate on its behalf.

Wichtig

Vor dem Ausführen des Skripts müssen Sie sich selbst als Active Directory-Administrator für die SQL Server-Instanz festlegen.Before running the script, you must set yourself as the Active Directory Admin for the SQL Server.

  1. Öffnen Sie eine neue Registerkarte, und navigieren Sie zum Azure-Portal.Open a new tab and navigate to the Azure portal. Kopieren Sie das bereitgestellte Skript, um einen Benutzer in der Datenbank zu erstellen, aus der Sie Daten freigeben möchten.Copy the script provided to create a user in the database that you want to share data from. Melden Sie sich hierfür per Abfrage-Explorer (Vorschauversion) an der EDW-Datenbank an, indem Sie die AAD-Authentifizierung verwenden.Do this by logging into the EDW database using Query Explorer (preview) using AAD authentication.

    Sie müssen das Skript so ändern, dass der erstellte Benutzer in Klammern gesetzt ist.You'll need to modify the script so that the user created is contained within brackets. Beispiel:Eg:

    create user [dataprovider-xxxx] from external login; exec sp_addrolemember db_owner, [dataprovider-xxxx];create user [dataprovider-xxxx] from external login; exec sp_addrolemember db_owner, [dataprovider-xxxx];

  2. Wechseln Sie zurück zur Azure Data Share-Instanz, in der Sie Ihrer Datenfreigabe Datasets hinzugefügt haben.Switch back to Azure Data Share where you were adding datasets to your data share.

  3. Wählen Sie EDW und anschließend AggregatedTaxiData für die Tabelle aus.Select EDW, then select AggregatedTaxiData for the table.

  4. Wählen Sie Dataset hinzufügen aus.Select Add dataset

    Wir verfügen jetzt über eine SQL-Tabelle, die Teil unseres Datasets ist.We now have a SQL table that is part of our dataset. Als Nächstes fügen wir weitere Datasets aus Azure Data Lake Storage hinzu.Next, we will add additional datasets from Azure Data Lake Store.

  5. Wählen Sie Dataset hinzufügen und Azure Data Lake Storage Gen2 aus.Select Add dataset and select Azure Data Lake Store Gen2

    Dataset hinzufügen: ADLS

  6. Wählen Sie Weiter aus.Select Next

  7. Erweitern Sie wwtaxidata.Expand wwtaxidata. Erweitern Sie Boston Taxi Data.Expand Boston Taxi Data. Beachten Sie, dass Sie Daten bis hinunter auf Dateiebene freigeben können.Notice that you can share down to the file level.

  8. Wählen Sie den Ordner Boston Taxi Data aus, um den gesamten Ordner für Ihre Datenfreigabe hinzuzufügen.Select the Boston Taxi Data folder to add the entire folder to your data share.

  9. Wählen Sie die Option Datasets hinzufügen aus.Select Add datasets

  10. Überprüfen Sie die hinzugefügten Datasets.Review the datasets that have been added. Sie sollten für Ihre Datenfreigabe über eine SQL-Tabelle und einen ADLS Gen2-Ordner verfügen.You should have a SQL table and an ADLS Gen2 folder added to your data share.

  11. Wählen Sie Weiter.Select Continue

  12. Auf diesem Bildschirm können Sie Ihrer Datenfreigabe Empfänger hinzufügen.In this screen, you can add recipients to your data share. Die von Ihnen hinzugefügten Empfänger erhalten Einladungen für Ihre Datenfreigabe.The recipients you add will receive invitations to your data share. Für dieses Lab müssen Sie zwei E-Mail-Adressen hinzufügen:For the purpose of this lab, you must add in 2 e-mail addresses:

    1. Die E-Mail-Adresse des von Ihnen genutzten Azure-Abonnements.The e-mail address of the Azure subscription you're in.

      Hinzufügen von Empfängern

    2. Fügen Sie den fiktiven Datenconsumer mit dem Namen janedoe@fabrikam.com hinzu.Add in the fictional data consumer named janedoe@fabrikam.com.

  13. Auf diesem Bildschirm können Sie eine Momentaufnahmeeinstellung für Ihren Datenconsumer konfigurieren.In this screen, you can configure a Snapshot Setting for your data consumer. Dies ermöglicht es dem Datenconsumer, nach einem von Ihnen definierten Intervall regelmäßige Updates Ihrer Daten zu erhalten.This will allow them to receive regular updates of your data at an interval defined by you.

  14. Aktivieren Sie Momentaufnahmezeitplan, und konfigurieren Sie über die Dropdownliste Serie eine stündliche Aktualisierung Ihrer Daten.Check Snapshot Schedule and configure an hourly refresh of your data by using the Recurrence drop down.

  15. Klicken Sie auf Erstellen.Select Create.

    Sie verfügen jetzt über eine aktive Datenfreigabe.You now have an active data share. Wir sehen uns nun an, was Ihnen als Datenanbieter beim Erstellen einer Datenfreigabe angezeigt wird.Lets review what you can see as a data provider when you create a data share.

  16. Wählen Sie die von Ihnen erstellte Datenfreigabe mit dem Namen DataProvider aus.Select the data share that you created, titled DataProvider. Wählen Sie unter Datenfreigabe die Option Gesendete Freigaben aus, um zur Datenfreigabe zu navigieren.You can navigate to it by selecting Sent Shares in Data Share.

  17. Klicken Sie auf „Momentaufnahmezeitplan“.Click on Snapshot schedule. Sie können den Momentaufnahmezeitplan bei Bedarf deaktivieren.You can disable the snapshot schedule if you choose.

  18. Wählen Sie als Nächstes die Registerkarte Datasets aus. Sie können dieser Datenfreigabe nach der Erstellung weitere Datasets hinzufügen.Next, select the Datasets tab. You can add additional datasets to this data share after it has been created.

  19. Wählen Sie die Registerkarte Freigabeabonnements aus. Es sind noch keine Freigabeabonnements vorhanden, da Ihr Datenconsumer Ihre Einladung noch nicht akzeptiert hat.Select the Share subscriptions tab. No share subscriptions exist yet because your data consumer hasn't yet accepted your invitation.

  20. Navigieren Sie zur Registerkarte Einladungen. Auf der Registerkarte wird eine Liste mit den ausstehenden Einladungen angezeigt.Navigate to the Invitations tab. Here, you'll see a list of pending invitation(s).

    Ausstehende Einladungen

  21. Wählen Sie die Einladung für janedoe@fabrikam.com aus.Select the invitation to janedoe@fabrikam.com. Wählen Sie „Löschen“ aus.Select Delete. Wenn die Empfängerin die Einladung noch nicht akzeptiert hat, kann sie dies nun nicht mehr tun.If your recipient hasn't yet accepted the invitation, they will no longer be able to do so.

  22. Wählen Sie die Registerkarte Verlauf . Es wird noch nichts angezeigt, weil der Datenconsumer Ihre Einladung noch nicht akzeptiert und eine Momentaufnahme ausgelöst hat.Select the History tab. Nothing is displayed as yet because your data consumer hasn't yet accepted your invitation and triggered a snapshot.

Empfangen von Daten (Datenconsumerfluss)Receiving data (Data consumer flow)

Nachdem wir unsere Datenfreigabe nun überprüft haben, können wir den Kontext ändern und zum Datenconsumer wechseln.Now that we have reviewed our data share, we are ready to switch context and wear our data consumer hat.

Sie sollten in Ihrem Posteingang jetzt eine Azure Data Share-Einladung von Microsoft Azure finden.You should now have an Azure Data Share invitation in your inbox from Microsoft Azure. Starten Sie Outlook Web Access (outlook.com), und melden Sie sich mit den Anmeldeinformationen für Ihr Azure-Abonnement an.Launch Outlook Web Access (outlook.com) and log in using the credentials supplied for your Azure subscription.

Klicken Sie in der E-Mail, die Sie erhalten haben, auf „Einladung anzeigen >“.In the e-mail that you should have received, click on "View invitation >". An diesem Punkt simulieren Sie auf der Datenconsumer-Benutzeroberfläche den Vorgang, bei dem die Einladung eines Datenanbieters für die Datenfreigabe akzeptiert wird.At this point, you're going to be simulating the data consumer experience when accepting a data providers invitation to their data share.

E-Mail-Einladung

Unter Umständen werden Sie aufgefordert, ein Abonnement auszuwählen.You may be prompted to select a subscription. Achten Sie darauf, dass Sie das Abonnement auswählen, mit dem Sie in diesem Lab gearbeitet haben.Make sure you select the subscription you have been working in for this lab.

  1. Klicken Sie auf die Einladung mit dem Namen DataProvider.Click on the invitation titled DataProvider.

  2. Im angezeigten Bereich „Einladung“ sehen Sie verschiedene Details zu der Datenfreigabe, die Sie zuvor als Datenanbieter konfiguriert haben.In this Invitation screen, you'll notice various details about the data share that you configured earlier as a data provider. Überprüfen Sie die Details, und akzeptieren Sie die Nutzungsbedingungen, falls diese angegeben sind.Review the details and accept the terms of use if provided.

  3. Wählen Sie das Abonnement und dann die Ressourcengruppe aus, die für das Lab bereits vorhanden ist.Select the Subscription and Resource Group that already exists for your lab.

  4. Wählen Sie unter Datenfreigabekonto die Option DataConsumer aus.For Data share account, select DataConsumer. Sie können auch ein neues Datenfreigabekonto erstellen.You can also create a new data share account.

  5. Sie sehen, dass neben Received share name (Name der empfangenen Freigabe) als Standardfreigabename der Name angezeigt wird, der vom Datenanbieter angegeben wurde.Next to Received share name, you'll notice the default share name is the name that was specified by the data provider. Geben Sie der Freigabe einen Anzeigenamen, der die zu empfangenden Daten beschreibt, z. B. TaxiDataShare.Give the share a friendly name that describes the data you're about to receive, e.g TaxiDataShare.

    Akzeptieren der Einladung

  6. Sie können die Option Accept and configure now (Akzeptieren und jetzt konfigurieren) oder Accept and configure later (Akzeptieren und später konfigurieren) auswählen.You can choose to Accept and configure now or Accept and configure later. Wenn Sie sich für das Akzeptieren mit sofortiger Konfiguration entscheiden, geben Sie ein Speicherkonto an, in das alle Daten kopiert werden sollen.If you choose to accept and configure now, you'll specify a storage account where all data should be copied. Wenn Sie sich für das Akzeptieren mit späterer Konfiguration entscheiden, sind die Datasets der Freigabe nicht zugeordnet, und Sie müssen die Zuordnung später manuell durchführen.If you choose to accept and configure later, the datasets in the share will be unmapped and you'll need to manually map them. Wir entscheiden uns für die spätere Konfiguration.We will opt for that later.

  7. Wählen Sie die Option Akzeptieren und später konfigurieren aus.Select Accept and configure later.

    Beim Konfigurieren dieser Option wird ein Freigabeabonnement erstellt, aber da kein Ziel zugeordnet wurde, ist kein Ort für die Freigabe der Daten vorhanden.In configuring this option, a share subscription is created but there is nowhere for the data to land since no destination has been mapped.

    Als Nächstes konfigurieren wir Datasetzuordnungen für die Datenfreigabe.Next, we will configure dataset mappings for the data share.

  8. Wählen Sie die empfangene Freigabe aus (Name, den Sie in Schritt 5 angegeben haben).Select the Received Share (the name you specified in step 5).

    Momentaufnahme auslösen ist abgeblendet, aber die Freigabe ist „Aktiv“.Trigger snapshot is greyed out but the share is Active.

  9. Wählen Sie die Registerkarte Datasets aus. Beachten Sie, dass für alle Datasets „Nicht zugeordnet“ angegeben ist. Dies bedeutet, dass kein Ziel zum Kopieren der Daten vorhanden ist.Select the Datasets tab. Notice that each dataset is Unmapped, which means that it has no destination to copy data to.

    Nicht zugeordnete Datasets

  10. Wählen Sie die Azure Synapse Analytics-Tabelle und anschließend + Dem Ziel zuordnen aus.Select the Azure Synapse Analytics Table and then select + Map to Target.

  11. Wählen Sie auf der rechten Seite des Bildschirms die Dropdownliste Zieldatentyp aus.On the right-hand side of the screen, select the Target Data Type drop down.

    Sie können die SQL-Daten einem großen Bereich von Datenspeichern zuordnen.You can map the SQL data to a wide range of data stores. In diesem Fall führen wir die Zuordnung zu einer Azure SQL-Datenbank durch.In this case, we'll be mapping to an Azure SQL Database.

    mapping

    (Optional) Wählen Sie Azure Data Lake Storage Gen2 als Zieldatentyp aus.(Optional) Select Azure Data Lake Store Gen2 as the target data type.

    (Optional) Wählen Sie das von Ihnen verwendete Abonnement, die Ressourcengruppe und das Speicherkonto aus.(Optional) Select the Subscription, Resource Group and Storage account you have been working in.

    (Optional) Sie können angeben, ob Sie die Daten in Ihrer Data Lake-Instanz im CSV- oder Parquet-Format empfangen möchten.(Optional) You can choose to receive the data into your data lake in either csv or parquet format.

  12. Wählen Sie neben Zieldatentyp die Option „Azure SQL-Datenbank“ aus.Next to Target data type, select Azure SQL Database.

  13. Wählen Sie das von Ihnen verwendete Abonnement, die Ressourcengruppe und das Speicherkonto aus.Select the Subscription, Resource Group and Storage account you have been working in.

    Zuordnen zu SQL

  14. Bevor Sie fortfahren können, müssen Sie in der SQL Server-Instanz einen neuen Benutzer erstellen, indem Sie das angegebene Skript ausführen.Before you can proceed, you'll need to create a new user in the SQL Server by running the script provided. Kopieren Sie zuerst das bereitgestellte Skript in die Zwischenablage.First, copy the script provided to your clipboard.

  15. Öffnen Sie im Azure-Portal eine neue Registerkarte. Schließen Sie die bereits geöffnete Registerkarte nicht, da Sie sie gleich noch benötigen.Open a new Azure portal tab. Don't close your existing tab as you'll need to come back to it in a moment.

  16. Navigieren Sie auf der neuen Registerkarte zu SQL-Datenbanken.In the new tab you opened, navigate to SQL databases.

  17. Wählen Sie die SQL-Datenbank aus (unter Ihrem Abonnement sollte nur ein Eintrag vorhanden sein).Select the SQL database (there should only be one in your subscription). Achten Sie darauf, dass Sie nicht das Data Warehouse auswählen.Be careful not to select the data warehouse.

  18. Wählen Sie Abfrage-Editor (Vorschau) aus.Select Query editor (preview)

  19. Verwenden Sie die AAD-Authentifizierung, um sich beim Abfrage-Editor anzumelden.Use AAD authentication to log in to Query editor.

  20. Führen Sie die unter der Datenfreigabe bereitgestellte Abfrage aus (in Schritt 14 in die Zwischenablage kopiert).Run the query provided in your data share (copied to clipboard in step 14).

    Mit diesem Befehl kann der Azure Data Share-Dienst verwaltete Identitäten für Azure-Dienste nutzen, um die Authentifizierung für die SQL Server-Instanz durchzuführen, damit dafür Daten kopiert werden können.This command allows the Azure Data Share service to use Managed Identities for Azure Services to authenticate to the SQL Server to be able to copy data into it.

  21. Wechseln Sie zurück zur ursprünglichen Registerkarte, und wählen Sie Dem Ziel zuordnen aus.Go back to the original tab, and select Map to target.

  22. Wählen Sie als Nächstes den Ordner „Azure Data Lake Gen2“ aus, der Teil des Datasets ist, und ordnen Sie ihn einem Azure Blob Storage-Konto zu.Next, select the Azure Data Lake Gen2 folder that is part of the dataset and map it to an Azure Blob Storage account.

    storage

    Nachdem alle Datasets zugeordnet wurden, können Sie mit dem Empfang der Daten vom Datenanbieter beginnen.With all datasets mapped, you're now ready to start receiving data from the data provider.

    Zugeordnet

  23. Wählen Sie Details aus.Select Details.

    Beachten Sie, dass die Option Momentaufnahme auslösen nicht mehr abgeblendet ist, weil die Datenfreigabe jetzt über Ziele für den Kopiervorgang verfügt.Notice that Trigger snapshot is no longer greyed out, since the data share now has destinations to copy into.

  24. Wählen Sie „Momentaufnahme auslösen“ > „Vollständige Kopie“ aus.Select Trigger snapshot -> Full Copy.

    Trigger (trigger)

    Der Vorgang zum Kopieren der Daten in Ihr neues Datenfreigabekonto wird gestartet.This will start copying data into your new data share account. In einem realen Szenario stammen diese Daten von einem Drittanbieter.In a real world scenario, this data would be coming from a third party.

    Es dauert ungefähr 3 bis 5 Minuten, bis die Übertragung der Daten abgeschlossen ist.It will take approximately 3-5 minutes for the data to come across. Sie können den Status überwachen, indem Sie auf die Registerkarte Verlauf klicken.You can monitor progress by clicking on the History tab.

    Navigieren Sie während des Wartezeitraums zur ursprünglichen Datenfreigabe (DataProvider), und zeigen Sie den Status der Registerkarten Freigabeabonnements und Verlauf an. Sie sehen, dass jetzt ein aktives Abonnement vorhanden ist. Als Datenanbieter können Sie auch überwachen, wann für den Datenconsumer der Empfang der Daten, die für ihn freigegeben wurden, begonnen hat.While you wait, navigate to the original data share (DataProvider) and view the status of the Share Subscriptions and History tab. Notice that there is now an active subscription, and as a data provider, you can also monitor when the data consumer has started to receive the data shared with them.

  25. Navigieren Sie zurück zur Datenfreigabe des Datenconsumers.Navigate back to the Data consumer's data share. Wenn der Status des Triggers „Erfolg“ lautet, können Sie zur SQL-Zieldatenbank und zur Data Lake-Instanz navigieren, um sich zu vergewissern, dass die Daten in die entsprechenden Speicher übertragen wurden.Once the status of the trigger is successful, navigate to the destination SQL database and data lake to see that the data has landed in the respective stores.

Glückwunsch! Sie haben das Lab nun abgeschlossen.Congratulations, you have completed the lab!