Einführung in die Apache Hadoop-Sicherheit mit dem Enterprise-SicherheitspaketAn introduction to Apache Hadoop security with Enterprise Security Package

Azure HDInsight unterstützte bislang nur einen einzelnen lokalen Administratorbenutzer. Für kleinere Anwendungsteams oder Abteilungen hat das hervorragend funktioniert.In the past, Azure HDInsight supported only a single user: local admin. This worked great for smaller application teams or departments. Mit der zunehmenden Verbreitung von Apache Hadoop-basierten Workloads im Unternehmenssektor gewinnen jedoch professionelle Funktionen wie Active Directory-basierte Authentifizierung, Unterstützung mehrerer Benutzer und rollenbasierte Zugriffssteuerung immer mehr an Bedeutung.As Apache Hadoop-based workloads gained more popularity in the enterprise sector, the need for enterprise-grade capabilities like Active Directory-based authentication, multi-user support, and role-based access control became increasingly important.

Mit dem Enterprise-Sicherheitspaket können Sie einen HDInsight-Cluster erstellen, der in eine Active Directory-Domäne eingebunden ist.You can create an HDInsight cluster with Enterprise Security Package (ESP) that's joined to an Active Directory domain. Sie können dann eine Liste mit Mitarbeitern des Unternehmens konfigurieren, die eine Authentifizierung per Azure Active Directory für die Anmeldung am HDInsight-Cluster durchführen können.You can then configure a list of employees from the enterprise who can authenticate through Azure Active Directory to sign in to the HDInsight cluster. Externe Benutzer können sich nicht bei dem HDInsight-Cluster anmelden oder darauf zugreifen.No one from outside the enterprise can sign in or access the HDInsight cluster.

Der Unternehmensadministrator kann mithilfe von Apache Ranger die rollenbasierte Zugriffskontrolle (Role-based Access Control, RBAC) für Apache Hive-Sicherheit konfigurieren.The enterprise admin can configure role-based access control (RBAC) for Apache Hive security by using Apache Ranger. und so den Datenzugriff nur auf die erforderlichen Informationen beschränken.Configuring RBAC restricts data access to only what's needed. Darüber hinaus kann der Administrator den Datenzugriff von Mitarbeitern und jegliche Änderung der Zugriffssteuerungsrichtlinien überwachen.Finally, the admin can audit the data access by employees and any changes done to access control policies. Der Administrator kann dann ein hohes Maß an Kontrolle über Unternehmensressourcen erreichen.The admin can then achieve a high degree of governance of their corporate resources.

Hinweis

Apache Oozie ist nun für ESP-Cluster aktiviert.Apache Oozie is now enabled on ESP clusters. Benutzer müssen Tunneln aktivieren, um auf die Oozie-Webbenutzeroberfläche zugreifen zu können.To access the Oozie web UI, users should enable tunneling.

Die Unternehmenssicherheit basiert auf vier Hauptsäulen: Umgebungssicherheit, Authentifizierung, Autorisierung und Verschlüsselung.Enterprise security contains four major pillars: perimeter security, authentication, authorization, and encryption.

Vorteile von HDInsight-Clustern mit Enterprise-Sicherheitspaket hinsichtlich der vier Grundsäulen der Unternehmenssicherheit..

UmgebungssicherheitPerimeter security

Die Umgebungssicherheit in HDInsight wird mithilfe von virtuellen Netzwerken und dem Azure VPN Gateway-Dienst erreicht.Perimeter security in HDInsight is achieved through virtual networks and the Azure VPN Gateway service. Ein Unternehmensadministrator kann einen Cluster mit Enterprise-Sicherheitspaket in einem virtuellen Netzwerk erstellen und den Zugriff auf das virtuelle Netzwerk mithilfe von Netzwerksicherheitsgruppen (Firewallregeln) beschränken.An enterprise admin can create an ESP cluster inside a virtual network and use network security groups (firewall rules) to restrict access to the virtual network. Es können nur IP-Adressen, die in den eingehenden Firewallregeln definiert sind, mit dem HDInsight-Cluster kommunizieren.Only the IP addresses defined in the inbound firewall rules will be able to communicate with the HDInsight cluster. Diese Konfiguration bietet Umgebungssicherheit.This configuration provides perimeter security.

Durch die Verwendung eines VPN Gateway-Diensts lässt sich die Umgebungssicherheit weiter verbessern.Another layer of perimeter security is achieved through the VPN Gateway service. Das Gateway fungiert als erste Verteidigungslinie für eingehende, an den HDInsight-Cluster gerichtete Anforderungen.The gateway acts as first line of defense for any incoming request to the HDInsight cluster. Es nimmt die Anforderung an, überprüft diese und gibt sie erst dann an die anderen Knoten im Cluster weiter.It accepts the request, validates it, and only then allows the request to pass to the other nodes in cluster. Auf diese Weise ermöglicht das Gateway Umgebungssicherheit an andere Namens- und Datenknoten im Cluster.In this way, the gateway provides perimeter security to other name and data nodes in the cluster.

AuthenticationAuthentication

Ein Unternehmensadministrator kann einen HDInsight-Cluster mit Enterprise-Sicherheitspaket in einem virtuellen Netzwerk bereitstellen.An enterprise admin can create a HDInsight cluster with ESP in a virtual network. Alle Knoten des HDInsight-Clusters werden in die vom Unternehmen verwaltete Domäne eingebunden.All the nodes of the HDInsight cluster are joined to the domain that the enterprise manages. Hierzu wird Azure Active Directory Domain Services verwendet.This is achieved through the use of Azure Active Directory Domain Services.

In dieser Konfiguration können sich Mitarbeiter des Unternehmens mit ihren Domänenanmeldeinformationen bei den Clusterknoten anmelden.With this setup, enterprise employees can sign in to the cluster nodes by using their domain credentials. Darüber hinaus können sie sich mit ihren Domänenanmeldeinformationen auch bei anderen genehmigten Endpunkten wie Apache Ambari Views, ODBC, JDBC, PowerShell und REST-APIs authentifizieren, um mit dem Cluster zu interagieren.They can also use their domain credentials to authenticate with other approved endpoints like Apache Ambari Views, ODBC, JDBC, PowerShell, and REST APIs to interact with the cluster. Der Administrator hat uneingeschränkte Kontrolle über die Begrenzung der Anzahl von Benutzern, die über diese Endpunkte mit dem Cluster interagieren.The admin has full control over limiting the number of users who interact with the cluster via these endpoints.

AutorisierungAuthorization

In den meisten Unternehmen hat es sich bewährt, dass nicht jeder Mitarbeiter Zugriff auf alle Unternehmensressourcen hat.A best practice that most enterprises follow is making sure that not every employee has access to all enterprise resources. Analog dazu kann der Administrator für die Clusterressourcen Richtlinien für die rollenbasierte Zugriffssteuerung definieren.Likewise, the admin can define role-based access control policies for the cluster resources.

So kann der Administrator etwa Apache Ranger zum Festlegen von Zugriffssteuerungsrichtlinien für Hive konfigurieren.For example, the admin can configure Apache Ranger to set access control policies for Hive. Dadurch wird sichergestellt, dass Mitarbeiter nur auf Daten zugreifen können, die sie für ihre Arbeit benötigen.This functionality ensures that employees can access only as much data as they need to be successful in their jobs. SSH-Zugriff auf den Cluster ist allein dem Administrator vorbehalten.SSH access to the cluster is also restricted to only the administrator.

ÜberwachungAuditing

Die Überwachung des gesamten Zugriffs auf die Clusterressourcen und der Daten ist erforderlich, um unbefugten oder versehentlichen Zugriff auf die Ressourcen nachzuverfolgen.Auditing of all access to the cluster resources, and the data, is necessary to track unauthorized or unintentional access of the resources. Dies ist ebenso wichtig wie der Schutz der HDInsight-Clusterressourcen vor nicht autorisierten Benutzern und das Sichern von Daten.It's as important as protecting the HDInsight cluster resources from unauthorized users and securing the data.

Der Administrator kann sämtliche Zugriffe auf die Ressourcen und Daten des HDInsight-Clusters anzeigen und entsprechende Berichte erstellen.The admin can view and report all access to the HDInsight cluster resources and data. Außerdem kann er sämtliche Änderungen an den Zugriffssteuerungsrichtlinien anzeigen, die an von Apache Ranger unterstützten Endpunkten vorgenommen werden, und entsprechende Berichte erstellen.The admin can also view and report all changes to the access control policies created in Apache Ranger supported endpoints.

Ein HDInsight-Cluster mit Enterprise-Sicherheitspaket verwendet für die Suche nach Überwachungsprotokollen die vertraute Apache Ranger-Benutzeroberfläche.A HDInsight cluster with ESP uses the familiar Apache Ranger UI to search audit logs. Im Back-End werden die Protokolle von Ranger mithilfe von Apache Solr gespeichert und gesucht.On the back end, Ranger uses Apache Solr for storing and searching the logs.

VerschlüsselungEncryption

Der Schutz von Daten ist wichtig, um die Sicherheits- und Compliance-Anforderungen des Unternehmens zu erfüllen.Protecting data is important for meeting organizational security and compliance requirements. Sie sollten den Zugriff auf Daten durch nicht autorisierte Mitarbeitern nicht nur beschränken, sondern Sie sollten diesen auch verschlüsseln.Along with restricting access to data from unauthorized employees, you should encrypt it.

Beide Datenspeicher für HDInsight-Cluster – Azure Blob Storage und Azure Data Lake Storage Gen1/Gen2 – unterstützen die transparente serverseitige Verschlüsselung von Daten im Ruhezustand.Both data stores for HDInsight clusters--Azure Blob storage and Azure Data Lake Storage Gen1/Gen2--support transparent server-side encryption of data at rest. Sichere HDInsight-Cluster arbeiten reibungslos mit dieser Funktion zur serverseitigen Verschlüsselung ruhender Daten zusammen.Secure HDInsight clusters will seamlessly work with this capability of server-side encryption of data at rest.

Nächste SchritteNext steps