Übersicht über Azure HDInsight 4.0Azure HDInsight 4.0 overview

Azure HDInsight ist einer der beliebtesten Dienste unter Enterprise-Kunden für die Open Source-Analyseframeworks Apache Hadoop und Apache Spark in Azure.Azure HDInsight is one of the most popular services among enterprise customers for open-source Apache Hadoop and Apache Spark analytics on Azure. HDInsight 4.0 ist eine Clouddistribution von Apache Hadoop-Komponenten.HDInsight 4.0 is a cloud distribution of Apache Hadoop components. Dieser Artikel enthält Informationen zur neuesten Release von Azure HDInsight und zur Aktualisierung.This article provides information about the most recent Azure HDInsight release and how to upgrade.

Neuigkeiten in HDInsight 4.0What's new in HDInsight 4.0?

Apache Hive 3.0 und LLAPApache Hive 3.0 and LLAP

Apache Hive LLAP (Low-Latency Analytical Processing, Analyseverarbeitung mit geringer Latenz) verwendet beständige Abfrageserver und Zwischenspeicherung im Arbeitsspeicher, um schnelle SQL-Abfrageergebnisse zu Daten im Remotecloudspeicher ausführen zu können.Apache Hive low-latency analytical processing (LLAP) uses persistent query servers and in-memory caching to deliver quick SQL query results on data in remote cloud storage. Hive LLAP nutzt eine Reihe von beständigen Daemons, die Fragmente von Hive-Abfragen ausführen.Hive LLAP leverages a set of persistent daemons that execute fragments of Hive queries. Die Abfrageausführung unter LLAP ähnelt Hive ohne LLAP, wobei Workeraufgaben in LLAP-Daemons ausgeführt werden und nicht in Containern.Query execution on LLAP is similar to Hive without LLAP, with worker tasks running inside LLAP daemons instead of containers.

Hive LLAP bietet u.a. folgende Vorteile:Benefits of Hive LLAP include:

  • Möglichkeit zum Durchführen umfassender SQL-Analysen wie komplexer Verknüpfungen, Unterabfragen, Windowingfunktionen, Sortierung, benutzerdefinierter Funktionen und komplexer Aggregationen ohne Einbußen bei Leistung und Skalierbarkeit.Ability to perform deep SQL analytics, such as complex joins, subqueries, windowing functions, sorting, user-defined functions, and complex aggregations, without sacrificing performance and scalability.

  • Interaktive Abfragen von Daten im gleichen Speicher, in dem Daten vorbereitet werden, ohne Notwendigkeit der Verschiebung von Daten aus dem Speicher zu einem anderen Modul für die analytische Verarbeitung.Interactive queries against data in the same storage where data is prepared, eliminating the need to move data from storage to another engine for analytical processing.

  • Durch die Zwischenspeicherung der Abfrageergebnisse können zuvor berechnete Abfrageergebnisse wiederverwendet werden. Das spart Zeit und Ressourcen in den ausgeführten Clustertasks für die Abfrage.Caching query results allows previously computed query results to be reused, which saves time and resources spent running the cluster tasks required for the query.

Dynamisch materialisierte Sichten in HiveHive dynamic materialized views

Hive unterstützt jetzt dynamisch materialisierte Sichten (Vorberechnung relevanter Zusammenfassungen), die zum Beschleunigen der Abfrageverarbeitung in Data Warehouses verwendet werden.Hive now supports dynamic materialized views, or pre-computation of relevant summaries, used to accelerate query processing in data warehouses. Materialisierte Sichten können nativ in Hive gespeichert werden und können nahtlos auf LLAP Beschleunigung zugreifen.Materialized views can be stored natively in Hive, and can seamlessly use LLAP acceleration.

Transaktionale Hive-TabellenHive transactional tables

HDI 4.0 umfasst Apache Hive 3, das ACID-Konformität (Atomicity, Consistency, Isolation, Durability – Unteilbarkeit, Konsistenz, Isolation, Dauerhaftigkeit) für Transaktionstabellen erfordert, die im Hive-Warehouse gespeichert sind.HDI 4.0 includes Apache Hive 3, which requires atomicity, consistency, isolation, and durability (ACID) compliance for transactional tables that reside in the Hive warehouse. ACID-konforme Tabellen und Tabellendaten werden von Hive abgerufen und verwaltet.ACID-compliant tables and table data are accessed and managed by Hive. Daten in CRUD-Tabellen (Create, Retrieve, Update, Delete – Erstellen, Abrufen, Aktualisieren, Löschen) müssen das ORC-Dateiformat (Optimized Row Column – optimierte Zeilen in Spalten) aufweisen, Tabellen nur mit Einfügung unterstützen jedoch alle Dateiformate.Data in create, retrieve, update, and delete (CRUD) tables must be in Optimized Row Column (ORC) file format, but insert-only tables support all file formats.

  • ACID v2 weist Leistungsverbesserungen beim Speicherformat und der Ausführungsengine auf.ACID v2 has performance improvements in both storage format and the execution engine.

  • ACID ist standardmäßig aktiviert, um vollständige Unterstützung für Datenaktualisierungen zu ermöglichen.ACID is enabled by default to allow full support for data updates.

  • Durch verbesserte ACID-Funktionen können Sie auf Zeilenebene aktualisieren und löschen.Improved ACID capabilities allow you to update and delete at row level.

  • Kein zusätzlicher Leistungsaufwand.No Performance overhead.

  • Kein Bucketing erforderlich.No Bucketing required.

  • Spark kann Hive-ACID-Tabellen mithilfe des Hive-Warehouse-Connectors lesen und schreiben.Spark can read and write to Hive ACID tables via Hive Warehouse Connector.

Erfahren Sie mehr über Apache Hive 3.Learn more about Apache Hive 3.

Apache SparkApache Spark

Apache Spark ruft aktualisierbare Tabellen und ACID-Transaktionen mit dem Hive-Warehouse-Connector ab.Apache Spark gets updatable tables and ACID transactions with Hive Warehouse Connector. Über den Hive-Warehouse-Connector können Sie Hive-Transaktionstabellen als externe Tabellen in Spark registrieren, um auf alle transaktionalen Funktionen zugreifen zu können.Hive Warehouse Connector allows you to register Hive transactional tables as external tables in Spark to access full transactional functionality. In früheren Versionen wurde nur die Bearbeitung von Tabellenpartitionen unterstützt.Previous versions only supported table partition manipulation. Der Hive-Warehouse-Connector unterstützt auch Streaming DataFrames für das Streamen von Lese- und Schreibvorgängen in transaktionale und Streaming-Hive-Tabellen von Spark.Hive Warehouse Connector also supports Streaming DataFrames for streaming reads and writes into transactional and streaming Hive tables from Spark.

Spark-Executors können direkte Verbindungen mit Hive LLAP-Daemons herstellen, um Daten auf transaktionale Weise abzurufen und zu aktualisieren, sodass Hive die Kontrolle über die Daten behält.Spark executors can connect directly to Hive LLAP daemons to retrieve and update data in a transactional manner, allowing Hive to keep control of the data.

Apache Spark unter HDInsight 4.0 unterstützt die folgenden Szenarien:Apache Spark on HDInsight 4.0 supports the following scenarios:

  • Ausführen des Trainings von Modellen zum maschinellen Lernen über dieselbe Transaktionstabelle wie für die BerichterstellungRun machine learning model training over the same transactional table used for reporting.
  • Verwenden von ACID-Transaktionen zum sicheren Hinzufügen von Spalten aus Spark ML in eine Hive-TabelleUse ACID transactions to safely add columns from Spark ML to a Hive table.
  • Ausführen eines Spark-Streamingauftrags im Änderungsfeed von einer Hive-StreamingtabelleRun a Spark streaming job on the change feed from a Hive streaming table.
  • Erstellen von ORC-Dateien direkt aus einem strukturierten Spark-Streaming-AuftragCreate ORC files directly from a Spark Structured Streaming job.

Sie müssen sich keine Sorgen mehr darum machen, versehentlich direkt aus Spark auf transaktionale Hive-Tabellen zuzugreifen und dadurch inkonsistente Ergebnisse, doppelte Daten oder Datenbeschädigungen zu verursachen.You no longer have to worry about accidentally trying to access Hive transactional tables directly from Spark, resulting in inconsistent results, duplicate data, or data corruption. In HDInsight 4.0 werden Spark- und Hive-Tabellen in separaten Metastores beibehalten.In HDInsight 4.0, Spark tables and Hive tables are kept in separate Metastores. Verwenden Sie den Hive-Data Warehouse-Connector, um Hive-Transaktionstabellen explizit als externe Spark-Tabellen zu registrieren.Use Hive Data Warehouse Connector to explicitly register Hive transactional tables as Spark external tables.

Erfahren Sie mehr über Apache Spark.Learn more about Apache Spark.

Apache OozieApache Oozie

Apache Oozie 4.3.1 ist in HDI 4.0 mit den folgenden Änderungen enthalten:Apache Oozie 4.3.1 is included in HDI 4.0 with the following changes:

  • Oozie führt keine Hive-Aktionen mehr aus.Oozie no longer runs Hive actions. Die Hive-Befehlszeilenschnittstelle wurde entfernt und durch BeeLine ersetzt.Hive CLI has been removed and replaced with BeeLine.

  • Sie können unerwünschte Abhängigkeiten von freigegebenen Bibliotheken ausschließen, indem Sie in Ihre Datei job.properties ein Ausschlussmuster aufnehmen.You can exclude unwanted dependencies from share lib by including an exclude pattern in your job.properties file.

Erfahren Sie mehr über Apache Oozie.Learn more about Apache Oozie.

Ausführen eines Upgrades auf HDInsight 4.0How to upgrade to HDInsight 4.0

Wie bei jeder Hauptversion ist es wichtig, Ihre Komponenten gründlich zu testen, bevor Sie die neueste Version in einer Produktionsumgebung implementieren.As with any major release, it's important to thoroughly test your components before implementing the latest version in a production environment. HDInsight 4.0 steht für den Upgradevorgang zur Verfügung, die Standardoption ist jedoch HDInsight 3.6, um versehentliche Missgeschicke zu verhindern.HDInsight 4.0 is available for you to begin the upgrade process, but HDInsight 3.6 is the default option to prevent accidental mishaps.

Es gibt keinen unterstützten Upgradepfad von früheren Versionen von HDInsight auf HDInsight 4.0.There's no supported upgrade path from previous versions of HDInsight to HDInsight 4.0. Da sich der Metastore und die Blobdatenformate geändert haben, ist HDInsight 4.0 nicht mit früheren Versionen kompatibel.Because Metastore and blob data formats have changed, HDInsight 4.0 isn't compatible with previous versions. Es ist wichtig, die neue HDInsight 4.0-Umgebung von der aktuellen Produktionsumgebung getrennt zu halten.It's important that you keep your new HDInsight 4.0 environment separate from your current production environment. Wenn Sie HDInsight 4.0 in Ihrer aktuellen Umgebung bereitstellen, wird Ihr Metastore aktualisiert, ohne dass dies rückgängig gemacht werden kann.If you deploy HDInsight 4.0 to your current environment, your Metastore will be upgraded and can't be reversed.

EinschränkungenLimitations

  • HDInsight 4.0 unterstützt MapReduce für Apache Hive nicht.HDInsight 4.0 doesn't support MapReduce for Apache Hive. Verwenden Sie stattdessen Apache Tez.Use Apache Tez instead. Erfahren Sie mehr über Apache Tez.Learn more about Apache Tez.
  • HDInsight 4.0 unterstützt Apache Storm nicht.HDInsight 4.0 doesn't support Apache Storm.
  • Hive View ist in HDInsight 4.0 nicht mehr verfügbar.Hive View is no longer available in HDInsight 4.0.
  • Shellinterpreter in Apache Zeppelin wird in Spark- und Interactive Query-Clustern nicht unterstützt.Shell interpreter in Apache Zeppelin isn't supported in Spark and Interactive Query clusters.
  • Sie können LLAP in einem Spark-LLAP-Cluster nicht deaktivieren.You can't disable LLAP on a Spark-LLAP cluster. Sie können LLAP nur ausschalten.You can only turn LLAP off.
  • Für Azure Data Lake Storage Gen2 können Juypter Notebooks nicht in einem Spark-Cluster gespeichert werden.Azure Data Lake Storage Gen2 can't save Juypter notebooks in a Spark cluster.

Nächste SchritteNext steps