Identifizieren von Datendiensten

Abgeschlossen

Microsoft Azure ist eine Cloudplattform, die die Anwendungen und die IT-Infrastruktur für einige der größten Organisationen der Welt unterstützt. Sie umfasst viele Dienste zur Unterstützung von Cloudlösungen, einschließlich Transaktions- und Analysedatenworkloads.

Einige der am häufigsten verwendeten Clouddienste für Daten werden unten beschrieben.

Hinweis

In diesem Artikel werden nur einige der am häufigsten verwendeten Datendienste für moderne Transaktions- und Analyselösungen behandelt. Weitere Dienste sind ebenfalls verfügbar.

Azure SQL

Azure SQL logo.Azure SQL ist der gemeinsame Name für eine Familie relationaler Datenbanklösungen, die auf der Microsoft SQL Server Datenbank-Engine basieren. Zu den spezifischen Azure SQL-Diensten gehören:

  • Azure SQL-Datenbank: Eine vollständig verwaltete PaaS-Datenbank (Platform-as-a-Service), die in Azure gehostet wird
  • Azure SQL Managed Instance: Eine gehostete Instanz von SQL Server mit automatisierter Wartung, die eine flexiblere Konfiguration als Azure SQL DB ermöglicht, aber mehr Administratorrechte für den Besitzer hat
  • Azure SQL-VM: Ein virtueller Computer mit einer Installation von SQL Server, der maximale Konfigurierbarkeit mit vollständiger Verwaltungszuteilung ermöglicht.

Datenbankadministratoren stellen in der Regel Azure SQL-Datenbanksysteme bereit und verwalten sie, um Branchenanwendungen zu unterstützen, die Transaktionsdaten speichern müssen.

Data Engineers können Azure SQL-Datenbanksysteme als Quellen für Datenpipelines verwenden, die ETL-Vorgänge (Extrahieren, Transformieren und Laden) ausführen, um die Transaktionsdaten in einem Analysesystem zu erfassen.

Data Analysts können Azure SQL-Datenbanken direkt abfragen, um Berichte zu erstellen. In großen Organisationen werden die Daten jedoch in der Regel mit Daten aus anderen Quellen in einem Analysedatenspeicher kombiniert, um Unternehmensanalysen zu unterstützen.

Azure-Datenbank für relationale Open-Source-Datenbanken

Azure Database for MariaDB, MySQL, and PostreSQL logos. Azure enthält verwaltete Dienste für beliebte relationale Open-Source-Datenbanksystemen, einschließlich der folgenden:

  • Azure Database for MySQL: ein einfach zu verwendendes Open-Source-Datenbank-Managementsystem, das häufig in Linux-, Apache-, MySQL- und PHP-Stapel-Apps (LAMP) verwendet wird.

  • Azure Database for MariaDB ist ein neueres Datenbank-Managementsystem, das von den ursprünglichen Entwicklern von MySQL erstellt wurde. Die Datenbank-Engine wurde inzwischen überarbeitet und optimiert, um die Leistung zu verbessern. MariaDB bietet Kompatibilität mit Oracle Database (einem weiteren beliebten kommerziellen Datenbank-Managementsystem).

  • Azure Database for PostgreSQL ist eine hybride relationale Objektdatenbank. Sie können Daten in relationalen Tabellen speichern, aber eine PostgreSQL-Datenbank ermöglicht es Ihnen auch, benutzerdefinierte Datentypen mit ihren eigenen, nicht relationalen Eigenschaften zu speichern.

Wie bei Azure SQL-Datenbanksystemen werden relationale Open-Source-Datenbanken von Datenbankadministrator*innen verwaltet, um Transaktionsanwendungen zu unterstützen, und stellen eine Datenquelle für Data Engineers bereit, die Pipelines für analytische Lösungen erstellen, und Data Analysts, die Berichte erstellen.

Azure Cosmos DB

Azure Cosmos DB logo. Azure Cosmos DB ist ein globales, nicht relationales Datenbanksystem (NoSQL), das mehrere Anwendungsprogrammierschnittstellen (APIs) unterstützt, sodass Sie Daten als JSON-Dokumente, Schlüssel-Wert-Paare, Spaltenfamilien und Diagramme speichern und verwalten können.

In einigen Organisationen können Cosmos DB-Instanzen von einem/einer Datenbankadministrator*in bereitgestellt und verwaltet werden. Softwareentwickler*innen verwalten den NoSQL-Datenspeicher jedoch häufig als Teil der allgemeinen Anwendungsarchitektur. Data Engineers müssen häufig Cosmos DB-Datenquellen in analytische Unternehmenslösungen integrieren, die die Modellierung und Berichterstellung durch Data Analysts unterstützen.

Azure Storage

Azure Storage logo. Azure Storage ist ein zentraler Azure-Dienst, mit dem Sie Daten in folgenden Komponenten speichern können:

  • Blobcontainer: skalierbarer, kosteneffizienter Speicher für Binärdateien
  • Dateifreigaben: Netzwerkdateifreigaben, die Sie in der Regel in Unternehmensnetzwerken finden
  • Tabellen: Schlüsselwertspeicher für Anwendungen, die Datenwerte schnell lesen und schreiben müssen.

Data Engineers verwenden Azure Storage zum Hosten von Data Lakes – Blobspeicher mit einem hierarchischen Namespace, der es ermöglicht, Dateien in Ordnern in einem verteilten Dateisystem zu organisieren.

Azure Data Factory

Azure Data Factory logo. Azure Data Factory ist ein Azure-Dienst, mit dem Sie Datenpipelines zum Übertragen und Transformieren von Daten definieren und planen können. Sie können Ihre Pipelines in andere Azure-Dienste integrieren, sodass Sie Daten aus Clouddatenspeichern erfassen, die Daten mit cloudbasiertem Compute verarbeiten und die Ergebnisse in einem anderen Datenspeicher speichern können.

Azure Data Factory wird von Data Engineers verwendet, um ETL-Lösungen (Extrahieren, Transformieren und Laden) zu erstellen, mit denen Analysedatenspeicher mit Daten aus Transaktionssystemen in der gesamten Organisation aufgefüllt werden.

Azure Synapse Analytics

Azure Synapse Analytics logo. Azure Synapse Analytics ist eine umfassende, einheitliche PaaS-Datenanalyselösung (Platform-as-a-Service), die eine einzige Dienstschnittstelle für mehrere Analysefunktionen bereitstellt, einschließlich der folgenden:

  • Pipelines basierend auf derselben Technologie wie Azure Data Factory
  • SQL: eine hochgradig skalierbare SQL Datenbank-Engine, die für Data Warehouse-Workloads optimiert ist
  • Apache Spark: Ein verteiltes Open-Source-Datenverarbeitungssystem, das mehrere Programmiersprachen und APIs unterstützt, einschließlich Java, Scala, Python und SQL.
  • Azure Synapse-Daten-Explorer: Eine leistungsstarke Datenanalyselösung, die für Echtzeitabfragen von Protokoll- und Telemetriedaten mithilfe von Kusto Query Language (KQL) optimiert ist.

Data Engineers können Azure Synapse Analytics verwenden, um eine einheitliche Datenanalyselösung zu erstellen, die Datenerfassungspipelines, Data Warehouse-Speicher und Data Lake Storage über einen einzelnen Dienst kombiniert.

Data Analysts können SQL- und Spark-Pools über interaktive Notebooks verwenden, um Daten zu untersuchen und zu analysieren und die Vorteile der Integration in Dienste wie Azure Machine Learning und Microsoft Power BI nutzen, um Datenmodelle zu erstellen und Erkenntnisse aus den Daten zu gewinnen.

Azure Databricks

Azure Databricks logo. Azure Databricks ist eine in Azure integrierte Version der beliebten Databricks-Plattform, die die Apache Spark Datenverarbeitungsplattform mit SQL Datenbanksemantik und einer integrierten Verwaltungsschnittstelle kombiniert, um umfangreiche Datenanalysen zu ermöglichen.

Data Engineers können vorhandene Databricks- und Spark-Qualifikationen nutzen, um Analysedatenspeicher in Azure Databricks zu erstellen.

Data Analysts können die native Notebookunterstützung in Azure Databricks verwenden, um Daten auf einer einfach zu verwendenden webbasierten Schnittstelle abzufragen und zu visualisieren.

Azure HDInsight

Azure HDInsight logo. Azure HDInsight ist ein Azure-Dienst, der in Azure gehostete Cluster für beliebte Big Data-Verarbeitungstechnologien (Open Source) von Apache bereitstellt, einschließlich:

  • Apache Spark: Ein verteiltes Datenverarbeitungssystem, das mehrere Programmiersprachen und APIs unterstützt, einschließlich Java, Scala, Python und SQL
  • Apache Hadoop: Ein verteiltes System, das MapReduce-Aufträge verwendet, um große Datenmengen effizient und clusterknotenübergreifend verarbeitet MapReduce-Aufträge können in Java geschrieben oder von Schnittstellen wie Apache Hive – einer SQL-basierten API, die in Hadoop ausgeführt wird, abstrahiert werden.
  • Apache HBase: Ein Open-Source-System für die umfangreiche NoSQL-Datenspeicherung und -Abfrage
  • Apache Kafka: Ein Nachrichtenbroker für die Datenstromverarbeitung

Data Engineers können Azure HDInsight verwenden, um Big Data-Analyseworkloads zu unterstützen, die von mehreren Open-Source-Technologien abhängig sind.

Azure Stream Analytics

Azure Stream Analytics logo. Azure Stream Analytics ist eine Engine für die Streamverarbeitung in Echtzeit, die einen Datenstrom aus einer Eingabe erfasst, eine Abfrage zum Extrahieren und Bearbeiten von Daten aus dem Eingabestream anwendet und die Ergebnisse zur Analyse oder weiteren Verarbeitung in eine Ausgabe schreibt.

Data Engineers können Azure Stream Analytics in Datenanalysearchitekturen integrieren, die Streamingdaten für die Erfassung in einem analytischen Datenspeicher oder für die Echtzeitvisualisierung erfassen.

Azure-Daten-Explorer

Azure Data Explorer logo. Azure Data Explorer ist ein eigenständiger Dienst, der die gleiche leistungsstarke Abfrage von Protokoll- und Telemetriedaten wie die Azure Synapse Daten-Explorer Runtime in Azure Synapse Analytics bietet.

Datenanalysten können Azure Data Explorer verwenden, um Daten abzufragen und zu analysieren, die ein Zeitstempelattribut enthalten, z. B. in Protokolldateien und IoT-Telemetriedaten (Internet of Things, Internet der Dinge).

Microsoft Purview

Azure Purview logo. Microsoft Purview bietet eine Lösung für unternehmensweite Datengovernance und Auffindbarkeit. Sie können Microsoft Purview verwenden, um eine Zuordnung Ihrer Daten zu erstellen und die Datenherkunft über mehrere Datenquellen und Systeme nachzuverfolgen, sodass Sie vertrauenswürdige Daten für Analysen und die Berichterstellung finden können.

Data Engineers können Microsoft Purview verwenden, um Datengovernance im gesamten Unternehmen zu erzwingen und die Integrität der verwendeten Daten zur Unterstützung analytischer Workloads sicherzustellen.

Microsoft Fabric

Microsoft Fabric logo. Microsoft Fabric ist eine einheitliche SaaS-Analyseplattform (Software-as-a-Service), die auf offenen und verwalteten Lakehouses basiert und u. a. die folgenden Funktionen unterstützt:

  • Datenaufnahme und ETL
  • Data Lakehouse-Analysen
  • Data Warehouse-Analysen
  • Data Science und maschinelles Lernen
  • Analysen in Echtzeit
  • Datenvisualisierung
  • Datengovernance und -verwaltung