Januar 2016

Band 31, Nummer 1

Dieser Artikel wurde maschinell übersetzt.

Big Data – Erstellen von Big Data-Pipelines mithilfe von Azure Data Lake und Azure Data Factory

Durch Gaurav Malhotra | Januar 2016

In diesem Jahr wurden Microsoft Azure Big Data-Angebote erweitert, wenn der Dienst Azure Data Lake (ADL) sowie die Fähigkeit zum Erstellen von End-to-End (E2E) Big Data-pipelines mithilfe von ADL und Azure Data Factory (ADF) angekündigt wurden. In diesem Artikel werde ich die Verwendung der ADF einmalige und sich wiederholenden Aufgaben zum Verschieben und Analyse von großen Datenmengen planen markieren.

ADL macht die Verarbeitung großer Datenmengen, einfachere und zugänglicher stellt mehrere wichtige Technologien bereit. Die U-SQL-Sprache ist eine leistungsfähige Kombination SQL und c#, die parallele Ausführung unterstützt. Sie können die U-SQL ausführen, in der ADL Analytics Cloud-Angebot können, in denen Hunderte oder Tausende von Containern werden reserviert, verwendet und können während der Lebensdauer der Druckauftrag freigegeben. Das Einrichten dieser Cloud-Umgebung mit ADL ist einfach. Verwenden der Azure-Verwaltungsportal an, Sie können schnell und problemlos ADL Konten für die Speicherung und Analysen erstellen und Bereitstellen ADF. Innerhalb von Minuten mit ein Paar Schaltflächen können Sie alle erforderlichen Konten im Azure-Abonnement festlegen.

Nachdem die Bereitstellung abgeschlossen ist, können Sie End-to-End-Big Data-Pipelines in ADF mithilfe der Azure-Verwaltungsportal, Windows PowerShell, die C#-SDK und Visual Studio-Tools erstellen. ADF ist ein Cloud-basierter Daten-Integrationsdienst, der organisiert und automatisiert das Verschieben und Transformieren von Daten. Die ADF-ADL-Integration können Sie:

  • Verschieben von Daten aus einer vorgegebenen Quelle an den ADL-Speicher.
  • Erstellen Sie Big Data ADF-Pipelines, die U-SQL als Verarbeitungsschritt zur auf der ADL Analytics-Dienst ausgeführt.

Es gibt eine Anzahl von allgemeinen große Datenmengen in diese Adresse ADL und ADF, einschließlich Kunden abwanderungsanalyse, personalisierte produktempfehlungen und versicherungsmathematische Verarbeitung. Viele Azure-Kunden interessant ist analysiert Webdienste oder Anwendungsprotokolle. In diesem Artikel zeige ich Ihnen erstellen Data Factory Pipelines für die Web-Protokolle analysieren, indem Sie zuerst die Webprotokollen in ADL verschieben und U-SQL-Skripts, um sie zu verarbeiten.

Das Web Log Analysis-Szenario

Geschäftliche Einblicke häufig wird die Analyse von Webprotokollen, die Datenträger und das Muster der Benutzeranfragen basierend auf dem ursprünglichen Regionen oder Gebietsschemen auf der ganzen Welt zu verstehen. Eine solche Analyse verbessert Kunden verstehen, Marketingkampagnen und zur Weiterentwicklung von Produkten, einschließlich der Lokalisierung Pläne. Protokolle werden vom Web Applications, Netzwerkgeräte, Betriebssysteme und alle Arten von intelligenten oder programmierbaren Geräte ausgegeben. Datenströme, z. B. Fehlerprotokolle, Clickstreamdaten Instrumentation und Webserverprotokollen können problemlos mit einer Rate von Gigabyte oder Terabyte pro Woche, anhäufen. Die Web-Protokolle können in irgendeiner Form von Speicher, einschließlich SQL Azure, Azure Blob-Speicher, Amazon Simple Storage Service (S3), und lokale und Oracle-Datenbanken zu sammeln. Diese Protokolle analysieren, schnell und effizient unterstützt zum Ermitteln von Verwendungsmustern und Probleme bei der Unternehmen eine bessere Nutzung des Kunden und letztlich Laufwerk Customer Engagement und Kundenzufriedenheit zu verstehen.

Es ist einfach, diese Web-Protokolle in den Speicher ADL zu speichern, die elastisch Petabyte an Daten speichern können. Bei der Bereitstellung ein ADL Store-Konto sind keine Parameter Sizing erforderlich – das Konto lediglich vergrößert wird, um die Größe des geladenen Dateien. Da Sie bezahlen nur für was tatsächlich gespeichert ist, ist des Diensts und der Mangel an festen Grenzwerte auf Konto oder Dateigröße sowie umfassende Durchsatz in der Lage, machen es sich optimal für Analyse großer Datenmengen. Darüber hinaus müssen Sie Code schreiben, oder verschieben Sie die Daten auf einer anderen Speicherplattform, wie die Größe der gespeicherten Daten erhöht oder verringert.

Analysieren und Aggregieren von Webprotokollen basierend auf bestimmte Partitionen wie Region sind Aktivitäten, die einen hohen Grad an Parallelität zu ermöglichen. Das ideale ist Teilmengen der Datensätze, die an die einzelnen Server, die analysiert, transformiert und zusammengefasst wurden. Diese partielle Ergebnisse werden dann in mehreren parallelen Phasen zusammengeführt, bis das letzte aggregierte Dataset erstellt wird. Manuelles Verwalten von diesem Prozess ist äußerst kompliziert und fehleranfällig, eine optimale Ausführung basierend auf unvollständige Informationen über das System und die Form der Daten von Tag zu Tag ändern. Dies ist jedoch genau ADL Analysen und U-SQL-Sprache automatisch vorgehen. U-SQL können Sie die Ziel-Aggregationen in eine deklarative Abfragesyntax für die SQL-ähnliche auszudrücken, die alle Parallelism-Direktiven angeben muss. Der Compiler und der Planer dann ermitteln, den Grad der Parallelität im Auftrag inhärenten und Zuordnen von Ressourcen auf Grundlage der, dass die Parallelität und Grenzwerte für die maximale Ressourcenverwendung angegeben. Mit ADF, können Sie problemlos eine Pipeline erstellen, durch Angeben der U-SQL-Aufgaben; Verbinden Sie sie mit einer anderen Reihe von Aufgaben; Hinzufügen von Aktivitäten zum Verschieben von Daten von Ihren Webservern ADL Speicher; und erstellen Sie einen Zeitplan für die Daten regelmäßig zu verarbeiten. Die Einfachheit der Erstellung der Pipeline und Komponenten können, die Sie Ihrer Geschäftslogik statt zur Optimierung der Verarbeitung und Speicherung von großen Datasets zu konzentrieren.

Einrichten

Sie starten die ADL Store und Analysen Konten erstellen und Bereitstellen einer Data Factory. Dies geschieht alle über das Azure-Verwaltungsportal. Ein ADL Analytics-Konto ist die Entität, mit denen Sie gruppieren und zu verwalten, die Abfragen und Programme, die Sie ausführen, um Big Data-Analyse durchzuführen. Sie können Abrechnung verwalten, die von anderen Azure-Abonnements zuordnen und Tarife wählen. Es gibt Optionen für das Konto mit anderen Ressourcen zu Nachverfolgungszwecken gruppieren. Sie können auch Auswählen der Region des Rechenzentrums, in denen Ihr Konto befindet, die für die Verwaltung von Nähe, um die lokalen Daten hilfreich sein können.

Die ADL Store Service ist ein Dienst für die Speicherung großer Datenmengen, die über die HDFS-kompatible Systeme, einschließlich Business Intelligence (BI)-Tools und einer lokalen Anwendung zugegriffen werden kann. Das Setup ist sehr einfach, und Sie müssen alle Grenzen bei der Installation angeben. Wie bei den Analytics-Dienst ist eine wichtige Option die geografische Region, in dem die Daten abgelegt werden soll. Im Fall von Datenspeicher ist dies kann möglicherweise geschäftlichen Anforderungen im Zusammenhang mit rechtlichen Compliance für den Speicherort der Daten zu einer Region Bürger von entscheidender Bedeutung. ADL Store-Konten separat erstellt und mit anderen Diensten verwendet werden, aber der meisten Fällen ist ein Konto in Kombination mit ADL Analysen erstellen. Abbildung 1 zeigt den Bildschirm zum Erstellen eines Kontos ADL. Geben Sie einen Namen für das Konto, und wählen Sie Ihr Abonnement, Ressourcengruppe und Speicherort. Die Erstellen neuer Datenspeicher Lake-Option können Sie einen neuen Speicher zur gleichen Zeit und die gleichen Optionen wie die Analytics-Konto erstellen.

Erstellen von ADL Konten im Azure-Verwaltungsportal
Abbildung 1: Erstellen von ADL Konten im Azure-Verwaltungsportal

In diesem Beispiel werden die Daten im Azure-Speicher gespeichert, die Sie in Azure Blob-Daten speichern können. Sie können auch Azure-Speicher über das Portal erstellen. Ob Sie eine Azure-Web-App verwenden oder eine Website gehostet andernorts beim Abrufen von Daten auf Azure-Speicher ist einfach und bedeutet, dass sie hohe Verfügbarkeit und Beständigkeit. Die Web-beispielprotokolldaten auf, die in diesem Beispiel verwendet werden, finden Sie unter bit.ly/1ONi8c5.

Abbildung 2 zeigt, wie Sie eine Azure Data Factory bereitstellen können. Wie Sie sehen können, ist der Prozess zum Einrichten dieser Cloud-basierte Dienste sehr einfach. Sie müssen die gleiche geografische Region wie die ADL-Dienste verwenden, die Data Factory kann mit Diensten in einer beliebigen Region ausgeführt werden.

Bereitstellung einer Azure Data Factory
Abbildung 2-Bereitstellung einer Azure Data Factory

Data Factorys sind eine Kombination von Datenspeichern, verknüpfte Dienste und Pipelines. Datenspeicher und verknüpften Dienste sind Definitionen von externen Entitäten, die außerhalb der ADF in der Regel bereits vorhanden sind. Pipelines sind eine logische Gruppierung von Aktivitäten in ADF. Sie werden zum Gruppieren von Aktivitäten in einer Einheit verwendet, die zusammen eine Aufgabe ausführt. Dies sehen Sie im Detail, wie ich das Einrichten der Data Factory für die Analyse Weblog durchgehen.

Sie können diese Entitäten mithilfe der Azure-Verwaltungsportal oder Visual Studio erstellen. Im Portal unter der Data Factory-Ansicht eine Option zum Erstellen und bereitstellen können Sie die einzelnen Komponenten einer Data Factory vom Typ auswählen, und bietet JSON-Ausschnitte, die direkt bearbeitet und veröffentlicht werden können (siehe Abbildung 3). Alternativ können Sie die ADF-Tools für Visual Studio nutzen und verwenden Sie ein Projektformat zu identifizieren und definieren Sie die einzelnen Komponenten der Data Factory (Abbildung 4). Das Projekt kann dann auch veröffentlicht werden, um diese Entitäten in Ihrer Data Factory in Azure zu erstellen.

Erstellen und Bereitstellen einer Data Factory mit dem Web-Editor
Abbildung 3 erstellen und Bereitstellen einer Data Factory mit dem Web-Editor

Erstellen und Bereitstellen einer Data Factory, die mit Visual Studio-Plug-in
Abbildung 4 erstellen und Bereitstellen einer Data Factory, die mit Visual Studio-Plug-in

Verschieben von Daten in Azure Data Lake Store

Der erste Schritt im Web Log Analysis Szenario ist ADL Speicher verschieben. ADL Speicher können Sie mithilfe der kopieraktivität in einer Pipeline ADF, um Daten verschieben. Um den Kopiervorgang zu tun, müssen Sie ADF verknüpften Dienste, Datasets und Pipelines zu erstellen. Verknüpfte Dienste in ADF definieren die Informationen, die für die Verbindung zu externen Ressourcen erforderlich. Verknüpfte Dienste werden für zwei Zwecke in Data Factory verwendet. Die erste ist die Darstellung einer Store, darunter, aber nicht beschränkt auf eine lokale SQL Server, Oracle-Datenbank, Dateifreigabe oder Azure Blob-Speicherkonto. Die zweite ist eine Verarbeitungsressource dar, die die Ausführung einer Aktivität hosten kann. Beispielsweise führt die HDInsight-Hive-Aktivität in einem HDInsight Hadoop-Cluster. In diesem Fall müssen Sie erstellen zwei verknüpfte Dienste, die in Azure Storage-Konto und das zweite entspricht, die ADL-Speicher darstellt.

Sie müssen auch zwei ADF-Datasets zu erstellen. Datasets sind logische Verweise auf Daten in einem Azure Storage-Konto oder ADL Store. Keine Benutzerdaten werden in ADF selbst gespeichert, sodass datasetdefinitionen für ADF identifizieren Sie die Struktur der Daten in den externen Datenspeichern, einschließlich Tabellen, Dateien, Ordner und Dokumente erforderlich ist. Da ADF die Struktur dieser Daten nicht bekannt ist, müssen Sie ihn hier festlegen, damit das System weiß, welche Spalten und Datentypen zu erwarten. In diesem Fall müssen Sie erstellen ein Dataset entspricht der Speicherort des Azure-Speicher, der die Daten (Quelle) enthält und ein zweites Dataset entspricht der ADL-Speicher, die die Webprotokolle (Senke) verschoben werden soll.

Für das Kopieren der Daten erfolgen muss, müssen Sie abschließend eine ADF-Pipeline zu erstellen, die eine kopieraktivität enthält. Eine ADF-Pipeline ist eine logische Gruppierung von Aktivitäten, z. B. Daten kopieren, die in unterschiedlichen Abständen ausgeführt werden kann, und Hive, Pig oder U-SQL-Skript-Aktivitäten, die regelmäßig ausgeführt werden können – alle 15 Minuten, stündlich, täglich oder monatlich. Die kopieren-Aktivität in ADF ist sehr leistungsstark und ermöglicht es Ihnen, das Kopieren von Daten zwischen lokalen oder Cloud-Quellen und senken, die unterschiedliche Schemata haben können. Sie können einige Parameter angeben, oder übernehmen Sie die Standardeinstellungen, um zu beginnen. Sie haben viel Kontrolle und Dinge wie Zeitplan und Richtlinien zum Behandeln von Fehlerzuständen optimieren können.

Obwohl eine Pipeline nach einem sich wiederholenden Zeitplan ausgeführt werden kann, wird im aktuellen Beispiel es nur einmal ausgeführt, um die Daten in den ADL-Speicher zu verschieben. Der JSON-Codeausschnitt in Abbildung 5 enthält eine Definition einer Pipeline EgressBlobToDataLakePipeline aufgerufen. Diese Pipeline enthält eine kopieraktivität zum Verschieben von Daten aus dem Azure BLOB-Speicher in Azure Lake Datenspeicher. Es ist geplant, 08/08/2015 ausgeführt und wird nur einmal ausgeführt (die Eigenschaften "Start" und "end" für den aktiven Zeitraum der Pipeline sind identisch).

Abbildung 5 EgressBlobToDataLakePipeline-Pipeline Beispieldefinition

{
  "name": "EgressBlobToDataLakePipeline",
  "properties": {
    "description": "Egress data from blob to azure data lake",
    "activities": [
      {
        "type": "Copy",
        "typeProperties": {
          "source": {
            "type": "BlobSource",
            "treatEmptyAsNull": true
          },
          "sink": {
            "type": "AzureDataLakeStoreSink",
            "writeBatchSize": 10000,
            "writeBatchTimeout": "00:10:00"
          }
        },
        "inputs": [
          {
            "name": "RawBlobDemoTable"
          }
        ],
        "outputs": [
          {
            "name": "DataLakeTable"
          }
        ],
        "policy": {
          "timeout": "10:00:00",
          "concurrency": 1,
          "executionPriorityOrder": "NewestFirst",
          "retry": 1
        },
        "scheduler": {
          "frequency": "Day",
          "interval": 1
        },
        "name": "EgressDataLake",
        "description": "Move data from blob to azure data lake"
      }
    ],
    "start": "2015-08-08T00:00:00Z",
    "end": "2015-08-08T01:00:00Z",
    "isPaused": false
  }
}

Nach erfolgreichem die kopieren-Aktivität in der ADF-Pipeline Abschluss wurden die Webprotokolle aus dem Azure BLOB-Speicher in Azure Data Lake Store verschoben. Erfahren Sie mehr über Azure Data Factory-datenverschiebungsaktivitäten am bit.ly/1MNbIqZ, und Weitere Informationen zur Verwendung von AzureDataLakeStore-Connector in ADF am bit.ly/1MRwvVZ. Jetzt sind Sie bereit, zu verarbeiten und Analysieren von Webprotokollen.

Erstellen eine Pipeline mit U-SQL-Aktivitäten

Mit den Daten im Speicher ADL können Sie jetzt U-SQL-Skripts ausführen, auf ADL Analytics-Dienst zum Verarbeiten und Analysieren der Web-Protokolle. Sie können Pipelines erstellen, die Nutzung der Daten aus ADL Speicher, die U-SQL-Skripts auf ADL Analytics-Dienst als einen Verarbeitungsschritt ausgeführt und die Ausgabe im Speicher ADL erzeugen. Die Verwendungen können dann die verarbeitete Ausgabe direkt aus ADL Store verwenden oder Sie können die Daten aus ADL Speicher in Azure SQL Data Warehouse zu kopieren, wenn die BI-Anwendung eine SQL-Warehouse als Back-End-Speicher verwenden.

Um die Webprotokolle verarbeiten zu können, müssen Sie ADF verknüpften Dienste, Datasets und Pipelines erneut zu erstellen. Sie können den im vorherigen Schritt erstellt haben, sollten Sie eine Sequenz von Pipelines zu erstellen, müssen zuerst das Verschieben von Daten und führen Sie dann die Datenanalyse durch Ausführen der U-SQL-Skripts in einer einzelnen ADF, ADL Store verknüpft-Dienst wiederverwenden. Oder Sie erstellen eine neue Data Factory, die nur die Datenanalyse ausführt. Die ADF-Pipeline in diesem Fall enthält eine Azure Data Analytics U-SQL-Aktivität und führt ein U-SQL-Skript, um zu bestimmen, alle Ereignisse für das Gebietsschema Großbritannien ("En-gb") und ein Datum kleiner als "2012/02/19." Abbildung 6 enthält die JSON-Definition für ComputeEventsByEnGbRegionPipeline, die eine Pipeline mit einer U-SQL-Aktivität, um die Verarbeitung Web definiert.

Abbildung 6 ComputeEventsByEnGbRegionPipeline-Pipeline Beispieldefinition

{
  "name": "ComputeEventsByEnGbRegionPipeline",
  "properties": {
    "description": "This is a pipeline to compute events for en-gb locale
      and date less than 2012/02/19.",
    "activities": [
      {
        "type": "DataLakeAnalyticsU-SQL",
        "typeProperties": {
          "scriptPath": "scripts\\usql\\SearchLogProcessing.txt",
          "scriptLinkedService": "StorageLinkedService",
          "degreeOfParallelism": 3,
          "priority": 100,
          "parameters": {
            "in": "/datalake/input/SearchLog.tsv",
            "out": "/datalake/output/Result.tsv"
          }
        },
        "inputs": [
          {
            "name": "DataLakeTable"
          }
        ],
        "outputs": [
          {
            "name": "EventsByEnGbRegionTable"
          }
        ],
        "policy": {
          "timeout": "06:00:00",
          "concurrency": 1,
          "executionPriorityOrder": "NewestFirst",
          "retry": 1
        },
        "scheduler": {
          "frequency": "Day",
          "interval": 1
        },
        "name": "EventsByRegion",
        "linkedServiceName": "AzureDataLakeAnalyticsLinkedService"
      }
    ],
    "start": "2015-08-08T00:00:00Z",
     "end": "2015-08-08T01:00:00Z",
    "isPaused": false
  }
}

Der U-SQL-Skript in Abbildung 7 ausgeführt wird, von der Pipeline befindet sich im Ordner Skripts/Usql (der ScriptPathproperty in der JSON-Pipeline in Abbildung 5) im Azure Blob-Speicher-Konto entsprechend der bereitgestellten StorageLinkedService. Die Werte für @in und @out-Parameter im Skript dynamisch nach übergeben ADF über den Parameter-Abschnitt in der JSON-Pipeline (finden Sie im Abschnitt "Parameter" Abbildung 6). Sie können auch angeben, dass andere Eigenschaften, z. B. DegreeOfParallelism oder Priorität in die Pipeline-Definition für die Aufträge, die auf der ADL Analytics-Dienst ausgeführt. Dieses U-SQL-Skript verarbeitet Webprotokollen und gibt alle Ereignisse für das Gebietsschema "En-gb" und Datum kleiner als "2012/02/19."

Abbildung 7: SearchLogProcessing.txt der U-SQL-Skript

@searchlog =
  EXTRACT UserId          int,
          Start           DateTime,
          Region          string,
          Query           string,
          Duration        int?,
          Urls            string,
          ClickedUrls     string
  FROM @in
  USING Extractors.Tsv(nullEscape:"#NULL#");
@rs1 =
   SELECT Start, Region, Duration
   FROM @searchlog
WHERE Region == "en-gb";
@rs1 =
  SELECT Start, Region, Duration
  FROM @rs1
  WHERE Start <= DateTime.Parse("2012/02/19");
OUTPUT @rs1  
  TO @out
    USING Outputters.Tsv(quoting:false, dateTimeFormat:null);

Überwachen von Pipelines für Big Data

Der Data Factory-Dienst bietet eine zuverlässige und umfassende Ansicht der Speicherung, Verarbeitung und datenverschiebungsdienste. Er erleichtert schnell Bewerten der Integrität der End-to-End-Datenpipeline, auszumachen und korrigierende Maßnahmen ergriffen, falls erforderlich. Sie können auch visuell Herkunft und die Beziehungen zwischen Ihrer Daten in allen Ihren Quellen nachverfolgen und eine vollständige Verlaufsübersicht von auftragsausführung, Systemstatus und Abhängigkeiten von einem zentralen überwachungsdashboard anzeigen. Die ADF-Diagrammansicht (finden Sie unter Abbildung 8) in der Management-Portal zeigt die Herkunft der Data Factory. Sie können zwei Pipelines und die entsprechenden Datasets finden Sie unter: EgressBlobToDataLakePipeline (Daten aus Azure Blob-Speicher in Azure Data Lake Store) und ComputeEventsByEnGbRegionPipeline (Abrufen aller Ereignisse für das Gebietsschema "En-gb" Datum und kleiner als "2012/02/19").

Azure Data Factory-Diagrammansicht
Abbildung 8 Azure Data Factory-Diagrammansicht

Die ADF-Copy-Pipeline in Abbildung 8 08/08/2015 ausgeführt werden, da Datasets Häufigkeit täglich und dem Beginn und Ende-Parameter in der Definition der Pipeline beide 08/08/2015 haben. Daher werden die Pipelines kann nur von diesem Tag ausgeführt und die U-SQL-Skript nur einmal ausgeführt. Erfahren Sie mehr über das Planen der ADF-Pipelines auf bit.ly/1lEVjuM. Klicken Sie auf die EventsByEnGbRegionTable in der Diagrammansicht, um die Ausführung der entsprechenden Aktivität und deren Status anzuzeigen (siehe Abbildung 9).

Azure Data Factory-Ansicht
Abbildung 9 Azure Data Factory-Ansicht

Sie können sehen, dass die U-SQL-Aktivität im ComputeEventsByEnGbRegionPipeline in ADF erfolgreich ausgeführt und eine Result.tsv-Datei erstellt (/ datalake/output/Result.tsv) im AzureDataLakeStore-Konto. Die Result.tsv enthält alle Web-Protokollereignisse für das Gebietsschema "En-gb" und ein Datum 2012/02/19 kleiner. Sie können auch melden Sie sich am Verwaltungsportal und Azure Data Lake Daten-Explorer zum Anzeigen der generierten Result.tsv-Datei (Gehen Sie zurück zu Abbildung 4) als Teil der Verarbeitung in Schritt ADL Store.

Sie finden eine ausführliche Dokumentation zu AzureDataLakeAnalyticsU-SQL-Aktivität in Azure Data Factory auf bit.ly/1WWtxuy.

Nachbereitung

Mithilfe der beschriebenen Schritte ausgeführt haben, können Sie eine End-to-End-Big Data-Pipeline mit Azure Data Factory, die Ihnen ermöglicht, Daten in Azure Lake Datenspeicher zu verschieben, erstellen. Ein U-SQL-Skript können auf den Azure Data Lake Analytics-Dienst Sie Web Verarbeitung. Das System kann je nach Bedarf dynamisch skaliert, und erweitert werden kann, um regelmäßig ausführen. Sie können ein auch weitere downstreamverarbeitung auf die Protokollausgabe Web und in einen anderen Back-End-Speicher zu verschieben, damit die Ergebnisse von Power BI oder eine andere BI-Anwendung Ihr Unternehmen verwendet genutzt werden können. Darüber hinaus auf Wunsch können ADF-PowerShell-Cmdlets, die c#-SDK und Visual Studio-Plug-in Sie diese mit ADL E2E Big Data-Pipelines erstellen. Azure Data Lake, wird zusammen mit Azure Data Factory lediglich die Komplexität, die üblicherweise mit großen Datenmengen sicherstellen, dass die aktuellen und zukünftigen geschäftlichen erfüllt werden können, muss in der Cloud. Weitere Informationen zum Beheben von Probleme mit umfangreichen Daten mithilfe von Azure Services beobachten.


Gaurav Malhotraist Programmmanager im Azure Data Factory-Team. Er lebt und arbeitet in Redmond, Washington, USA. Sie erreichen ihn unter gamal@microsoft.com.

Dank den folgenden technischen Experten von Microsoft für die Überprüfung dieses Artikels: OMID Afnan, Harish Kumar und Sachin Sheth
OMID Afnan ist principal Programmmanager im Azure Big Data-Team auf Implementierungen von Systemen für verteilte Berechnung und verwandte Developer Tool Ketten. Er lebt und arbeitet in China. Sie erreichen ihn unter omafnan@microsoft.com.

Harish Kumar Agarwal ist Programmmanager im Azure Data Factory-Team. Er ist unter hariag@microsoft.com.

Sachin Sheth ist Programmmanager im Azure Data Lake-Team. Sie erreichen ihn unter sachins@microsoft.com.