Übersicht über die Datenerfassung in Azure Data Explorer

Die Datenerfassung umfasst das Laden von Daten in eine Tabelle in Ihrem Cluster. Azure Data Explorer stellt die Datengültigkeit sicher, konvertiert Formate nach Bedarf und führt Bearbeitungen wie Schemaabgleich, organization, Indizierung, Codierung und Komprimierung durch. Nach der Erfassung stehen Daten für Abfragen zur Verfügung.

Azure Data Explorer bietet eine einmalige Erfassung oder die Einrichtung einer Pipeline für die kontinuierliche Erfassung mithilfe von Streaming oder in der Warteschlange. Informationen dazu, welche Daten für Sie geeignet sind, finden Sie unter Einmalige Datenerfassung und Kontinuierliche Datenerfassung.

Hinweis

Daten werden gemäß der festgelegten Aufbewahrungsrichtlinie im Speicher beibehalten.

Einmalige Datenerfassung

Die einmalige Erfassung ist hilfreich für die Übertragung von Verlaufsdaten, das Ausfüllen fehlender Daten und die Anfangsphasen der Prototyperstellung und Datenanalyse. Dieser Ansatz ermöglicht eine schnelle Datenintegration, ohne dass eine kontinuierliche Pipelineverpflichtung erforderlich ist.

Es gibt mehrere Möglichkeiten, eine einmalige Datenerfassung durchzuführen. Verwenden Sie die folgende Entscheidungsstruktur, um die am besten geeignete Option für Ihren Anwendungsfall zu ermitteln:

Flussdiagramm für die Entscheidungsfindung bei der einmaligen Erfassung.

Weitere Informationen finden Sie in der entsprechenden Dokumentation:

Legende Relevante Dokumentation
Informationen zur Erfassung finden Sie in den von Azure Data Explorer unterstützten Datenformaten.
Weitere Informationen finden Sie unter unterstützte Dateiformate für Azure Data Factory Pipelines.
Informationen zum Importieren von Daten aus einem vorhandenen Speichersystem finden Sie unter Erfassen von Verlaufsdaten in Azure Data Explorer.
Auf der Webbenutzeroberfläche von Azure Data Explorer können Sie Daten aus einer lokalen Datei, Amazon S3 oder Azure Storage abrufen.
Informationen zur Integration in Azure Data Factory finden Sie unter Kopieren von Daten in Azure Data Explorer mithilfe von Azure Data Factory.
Kusto-Clientbibliotheken sind für C#, Python, Java, JavaScript, TypeScript und Go verfügbar. Sie können Code schreiben, um Ihre Daten zu bearbeiten, und dann die Kusto-Erfassungsbibliothek verwenden, um Daten in Ihrer Azure Data Explorer-Tabelle zu erfassen. Die Daten müssen vor der Erfassung in einem der unterstützten Formate vorliegen .

Kontinuierliche Datenerfassung

Die kontinuierliche Erfassung zeichnet sich in Situationen aus, in der sofortige Einblicke aus Livedaten erforderlich sind. Beispielsweise ist die kontinuierliche Erfassung nützlich für die Überwachung von Systemen, Protokoll- und Ereignisdaten und Echtzeitanalysen.

Die fortlaufende Datenerfassung umfasst das Einrichten einer Erfassungspipeline mit Streaming- oder Warteschlangenerfassung:

  • Streamingerfassung: Mit dieser Methode wird die Latenz für kleine Datasets pro Tabelle nahezu in Echtzeit sichergestellt. Daten werden in Mikrobatches aus einer Streamingquelle erfasst, zunächst im Zeilenspeicher platziert und dann in Spaltenspeicherblöcke übertragen. Weitere Informationen finden Sie unter Konfigurieren der Streamingerfassung.

  • Erfassung in die Warteschlange: Diese Methode ist für einen hohen Erfassungsdurchsatz optimiert. Die Daten werden basierend auf Erfassungseigenschaften in Batches zusammengefasst, wobei kleine Batches dann zusammengeführt und für schnelle Abfrageergebnisse optimiert werden. Standardmäßig sind die maximalen Werte in der Warteschlange 5 Minuten, 1000 Elemente oder eine Gesamtgröße von 1 GB. Der Grenzwert für die Datengröße für einen Befehl für die Erfassung in der Warteschlange beträgt 6 GB. Diese Methode verwendet Wiederholungsmechanismen, um vorübergehende Fehler zu minimieren, und folgt der Messagingsemantik "mindestens einmal", um sicherzustellen, dass keine Nachrichten während des Prozesses verloren gehen. Weitere Informationen zur Erfassung in die Warteschlange finden Sie unter Batchverarbeitungsrichtlinie für die Erfassung.

Hinweis

In den meisten Szenarien wird empfohlen, die Erfassung in der Warteschlange zu verwenden, da dies die option mit einer größeren Leistung ist.

Es gibt mehrere Möglichkeiten, die kontinuierliche Datenerfassung zu konfigurieren. Verwenden Sie die folgende Entscheidungsstruktur, um die am besten geeignete Option für Ihren Anwendungsfall zu ermitteln:

Diagramm der Entscheidungsstruktur für die kontinuierliche Erfassung.

Weitere Informationen finden Sie in der entsprechenden Dokumentation:

Legende Relevante Dokumentation
Eine Liste der Connectors finden Sie unter Übersicht über Connectors.
Erstellen Sie eine Event Hubs-Datenverbindung. Die Integration in Event Hubs bietet Dienste wie Drosselung, Wiederholungen, Überwachung und Warnungen.
Erfassen Von Daten aus Apache Kafka, einer verteilten Streamingplattform zum Erstellen von Echtzeit-Streamingdatenpipelines.
Erstellen Sie eine IoT Hub Datenverbindung. Die Integration in IoT Hubs bietet Dienste wie Drosselung, Wiederholungen, Überwachung und Warnungen.
Erstellen Sie eine Event Grid-Datenverbindung. Die Integration in Event Grid bietet Dienste wie Drosselung, Wiederholungen, Überwachung und Warnungen.
Weitere Informationen finden Sie in den Anleitungen für den relevanten Connector, z. B. Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk und mehr. Weitere Informationen finden Sie unter Übersicht über Connectors.
Kusto-Clientbibliotheken sind für C#, Python, Java, JavaScript, TypeScript und Go verfügbar. Sie können Code schreiben, um Ihre Daten zu bearbeiten, und dann die Kusto-Erfassungsbibliothek verwenden, um Daten in Ihrer Azure Data Explorer-Tabelle zu erfassen. Die Daten müssen vor der Erfassung in einem der unterstützten Formate vorliegen .

Hinweis

Die Streamingerfassung wird nicht für alle Erfassungsmethoden unterstützt. Weitere Supportdetails finden Sie in der Dokumentation für die spezifische Erfassungsmethode.

Direkte Erfassung mit Verwaltungsbefehlen

Azure Data Explorer bietet die folgenden Befehle zur Erfassungsverwaltung, die Daten direkt in Ihrem Cluster erfassen, anstatt den Datenverwaltungsdienst zu verwenden. Sie sollten nur für die Exploration und Prototyperstellung und nicht für Produktions- oder Großserienszenarien verwendet werden.

  • Inlineerfassung: Der Inlinebefehl .ingest enthält die zu erfassenden Daten, die Teil des Befehlstexts selbst sind. Diese Methode ist für improvisierte Testzwecke vorgesehen.
  • Erfassen aus Abfrage: Die Befehle .set, .append, .set-or-append oder .set-or-replace geben die zu erfassenden Daten indirekt als Ergebnisse einer Abfrage oder eines Befehls an.
  • Aus Speicher erfassen: Der Befehl .ingest in ruft die Daten ab, die aus externem Speicher erfasst werden sollen, z. B. Azure Blob Storage, auf die Ihr Cluster zugreifen kann und mit dem Befehl auf verweist.

Vergleichen von Erfassungsmethoden

In der folgenden Tabelle werden die Standard Erfassungsmethoden verglichen:

Erfassungsname Datentyp Maximale Dateigröße Streaming, in die Warteschlange, direkt Häufige Szenarien Überlegungen
Apache Spark-Connector Jedes von der Spark-Umgebung unterstützte Format Unbegrenzt In Warteschlange Vorhandene Pipeline, Vorverarbeitung in Spark vor der Erfassung, schnelle Möglichkeit zum Erstellen einer sicheren (Spark-)Streamingpipeline aus den verschiedenen Quellen, die von der Spark-Umgebung unterstützt werden. Berücksichtigen Sie die Kosten des Spark-Clusters. Führen Sie bei Batchschreibvorgängen einen Vergleich mit der Azure Data Explorer-Datenverbindung für Event Grid durch. Nehmen Sie bei Spark-Streaming einen Vergleich mit der Datenverbindung für Event Hub vor.
Azure Data Factory (ADF) Unterstützte Datenformate Unbegrenzt. Erbt ADF-Einschränkungen. Trigger in der Warteschlange oder pro ADF-Trigger Unterstützt Formate, die nicht unterstützt werden, z. B. Excel und XML, und sie können große Dateien aus über 90 Quellen kopieren. Bei dieser Methode nimmt die Datenerfassung mehr Zeit in Anspruch. ADF lädt alle Daten in den Arbeitsspeicher hoch und beginnt dann mit der Erfassung.
Event Grid Unterstützte Datenformate 1 GB unkomprimiert In Warteschlange Kontinuierliche Erfassung aus Azure Storage, externe Daten in Azure Storage Die Erfassung kann durch Blobumbenennungs- oder Bloberstellungsaktionen ausgelöst werden.
Event Hub Unterstützte Datenformate In die Warteschlange eingereiht, Streaming Nachrichten, Ereignisse
Funktion zum Abrufen von Daten *SV, JSON 1 GB unkomprimiert In die Warteschlange eingereihte oder direkte Erfassung Einmalig, Tabellenschema erstellen, kontinuierliche Erfassung mit Event Grid definieren, Massenerfassung mit Container (bis zu 5.000 Blobs, keine Obergrenze bei Verwendung der verlaufsbezogenen Erfassung)
IoT Hub Unterstützte Datenformate In die Warteschlange eingereiht, Streaming IoT-Nachrichten, IoT-Ereignisse, IoT-Eigenschaften
Kafka-Connector Avro, ApacheAvro, JSON, CSV, Parquet und ORC Unbegrenzt. Erbt Java-Einschränkungen. In die Warteschlange eingereiht, Streaming Vorhandene Pipeline, hoher Volumeverbrauch aus der Quelle. Die Präferenz kann durch die vorhandene Verwendung eines Mehrfachproduzenten- oder Consumerdiensts oder durch die gewünschte Ebene der Dienstverwaltung bestimmt werden.
Kusto-Clientbibliotheken Unterstützte Datenformate 1 GB unkomprimiert In der Warteschlange, Streaming, direkt Schreiben von eigenem Code nach Anforderungen der Organisation Die programmgesteuerte Erfassung ist für die Reduzierung der Erfassungskosten (COGs) optimiert, indem Speichertransaktionen während und nach dem Erfassungsprozess minimiert werden.
LightIngest Unterstützte Datenformate 1 GB unkomprimiert In die Warteschlange eingereihte oder direkte Erfassung Datenmigration, Verlaufsdaten mit angepassten Erfassungszeitstempeln, Massenerfassung Groß-/Kleinschreibung und Leerzeichen beachten
Logik-Apps Unterstützte Datenformate 1 GB unkomprimiert In Warteschlange Wird zum Automatisieren von Pipelines verwendet.
LogStash JSON Unbegrenzt. Erbt Java-Einschränkungen. In Warteschlange Bei einer vorhandenen Pipeline wird die ausgereifte, Open Source Art von Logstash für einen hohen Volumenverbrauch aus den Eingaben verwendet. Die Präferenz kann durch die vorhandene Verwendung eines Mehrfachproduzenten- oder Consumerdiensts oder durch die gewünschte Ebene der Dienstverwaltung bestimmt werden.
Power Automate Unterstützte Datenformate 1 GB unkomprimiert In Warteschlange Erfassungsbefehle als Teil des Flows. Wird zum Automatisieren von Pipelines verwendet.

Informationen zu anderen Connectors finden Sie unter Übersicht über Connectors.

Berechtigungen

In der folgenden Liste werden die Berechtigungen beschrieben, die für verschiedene Erfassungsszenarien erforderlich sind:

  • Zum Erstellen einer neuen Tabelle sind mindestens Datenbankbenutzerberechtigungen erforderlich.
  • Um Daten in einer vorhandenen Tabelle zu erfassen, ohne ihr Schema zu ändern, sind mindestens Database Ingestor-Berechtigungen erforderlich.
  • Zum Ändern des Schemas einer vorhandenen Tabelle sind mindestens Die Berechtigungen Table Admin oder Database Admin erforderlich.

Weitere Informationen finden Sie unter Rollenbasierte Zugriffssteuerung in Kusto.

Der Erfassungsprozess

In den folgenden Schritten wird der allgemeine Erfassungsprozess beschrieben:

  1. Festlegen der Batchverarbeitungsrichtlinie (optional): Die Daten werden basierend auf der Batchverarbeitungsrichtlinie für die Erfassung in Batchverarbeitung in Batches erstellt. Eine Anleitung finden Sie unter Optimieren des Durchsatzes.

  2. Festlegen der Aufbewahrungsrichtlinie (optional): Wenn die Datenbankaufbewahrungsrichtlinie nicht für Ihre Anforderungen geeignet ist, überschreiben Sie sie auf Tabellenebene. Weitere Informationen finden Sie unter Aufbewahrungsrichtlinie.

  3. Erstellen einer Tabelle: Wenn Sie die Benutzeroberfläche Daten abrufen verwenden, können Sie eine Tabelle im Rahmen des Erfassungsflows erstellen. Erstellen Sie andernfalls vor der Erfassung auf der Azure Data Explorer-Weboberfläche oder mit dem Befehl .create table eine Tabelle.

  4. Erstellen einer Schemazuordnung: Schemazuordnungen helfen, Quelldatenfelder an Zieltabellenspalten zu binden. Verschiedene Arten von Zuordnungen werden unterstützt, einschließlich zeilenorientierter Formate wie CSV, JSON und AVRO sowie spaltenorientierte Formate wie Parquet. In den meisten Methoden können Zuordnungen auch für die Tabelle vorab erstellt werden.

  5. Festlegen der Updaterichtlinie (optional): Bestimmte Datenformate wie Parquet, JSON und Avro ermöglichen einfache Transformationen zur Erfassungszeit. Für eine komplexere Verarbeitung während der Erfassung verwenden Sie die Updaterichtlinie. Diese Richtlinie führt automatisch Extraktionen und Transformationen für erfasste Daten in der ursprünglichen Tabelle aus und erfasst dann die geänderten Daten in einer oder mehreren Zieltabellen.

  6. Erfassen von Daten: Verwenden Sie Ihr bevorzugtes Erfassungstool, -connector oder -methode, um die Daten einzubringen.