Tworzenie klastra usługi HDInsight

10 min

Istnieją różne metody tworzenia klastra usługi HDInsight. Może to obejmować korzystanie z witryny Azure Portal w celu łatwego interfejsu użytkownika po skryptowe konfiguracje, które mogą pomóc w zautomatyzowanych wdrożeniach. W poniższej tabeli przedstawiono różne metody, których można użyć do skonfigurowania klastra usługi HDInsight.

Klastry utworzone za pomocą polecenia	Przeglądarka sieci Web	Wiersz polecenia	Interfejs API REST	SDK
Azure Portal	✔
Azure Data Factory	✔	✔	✔	✔
Interfejs wiersza polecenia platformy Azure		✔
Azure PowerShell		✔
cURL		✔	✔
Zestaw SDK platformy .NET				✔
Szablon usługi Azure Resource Manager		✔

Wszystkie konfiguracje usługi HDInsight wymagają następujących podstawowych informacji, w tym:

Karta Podstawowe

Szczegóły projektu

Subskrypcja

Definiuje subskrypcję platformy Azure, w ramach której będą naliczane opłaty za usługę HDInsight i zarządzane.

Nazwa grupy zasobów

Grupa zasobów to logiczne grupowanie technologii i usług platformy Azure, które zwykle odnoszą się do tej samej aplikacji lub cyklu życia aplikacji. Grupowanie usług w tej samej grupie zasobów ułatwia konserwację administracyjną.

A screenshot of the basic tab in the Create HDInsight Cluster screen in the Azure portal

Szczegóły klastra

Nazwa klastra

Nazwy klastrów usługi HDInsight mają następujące ograniczenia:

Dozwolone znaki: a-z, 0-9, A-Z
Maksymalna długość: 59
Nazwy zarezerwowane: aplikacje
Zakres nazewnictwa klastra dotyczy całej platformy Azure we wszystkich subskrypcjach. Dlatego nazwa klastra musi być unikatowa na całym świecie.
Pierwsze sześć znaków musi być unikatowe w sieci wirtualnej

Lokalizacja

Określa lokalizację, w której jest przechowywany typ klastra. Jeśli żadna lokalizacja nie jest zdefiniowana, klaster jest kolokowany w tej samej lokalizacji co magazyn domyślny. Lokalizacja powinna być jak najbliżej użytkowników, aby zmniejszyć opóźnienie.

Typy klastrów

Definiuje stos technologii aprowizowany w klastrze zasobów. Wybierz typ klastra na podstawie typu posiadanych danych i wymaganego rodzaju przetwarzania scenariusza. Dostępne typy klastrów przedstawione w poniższej tabeli.  

Typ klastra	Opis
Apache Hadoop	Struktura korzystająca z systemu plików HDFS i prostego modelu programowania MapReduce do przetwarzania i analizowania danych wsadowych.
Apache Spark	platforma przetwarzania równoległego typu „open source”, która obsługuje przetwarzanie w pamięci umożliwiające zwiększenie wydajności aplikacji do analizy danych big data.
Hbase	baza danych NoSQL oparta na platformie Hadoop, która zapewnia dostęp losowy i wysoki poziom spójności w przypadku dużych ilości nieustrukturyzowanych i częściowo ustrukturyzowanych danych — potencjalnie miliardów wierszy pomnożonych przez miliony kolumn.
Zapytanie interakcyjne Apache	pamięć podręczna w pamięci do interaktywnego i szybszego wykonywania zapytań programu Hive.
Apache Kafka	platforma typu „open source”, która służy do tworzenia potoków danych przesyłanych strumieniowo i aplikacji do obsługi tych danych. Platforma Kafka obejmuje również funkcję kolejki komunikatów, która umożliwia publikowanie i subskrybowanie strumieni danych.

Wersja

Definiuje wersję usługi HDInsight dla tego klastra. Usługa HDInsight 4.0 jest najnowszą wersją i ma najnowsze struktury aprowidowane w klastrach.

Poświadczenia klastra

Za pomocą klastrów usługi HDInsight można skonfigurować dwa konta użytkowników podczas tworzenia klastra.

Nazwa logowania i hasło klastra

Domyślna nazwa użytkownika to administrator. Używa on podstawowej konfiguracji w witrynie Azure Portal. Czasami jest to nazywane "użytkownikiem klastra".

Nazwa użytkownika i hasło protokołu SSH

Służy do nawiązywania połączenia z klastrem za pośrednictwem protokołu SSH.

Uwaga

Pakiet zabezpieczeń przedsiębiorstwa umożliwia integrację usługi HDInsight z usługami Active Directory i Apache Ranger. Wielu użytkowników można utworzyć przy użyciu pakietu Enterprise Security.

Karta Magazyn

Klastry usługi HDInsight mogą używać następujących opcji magazynu, jak pokazano na ekranie magazynu:

Azure Data Lake Storage Gen2
Usługa Azure Data Lake Storage 1. generacji
Ogólnego przeznaczenia usługi Azure Storage w wersji 2
Ogólnego przeznaczenia usługi Azure Storage w wersji 1
Blokowy obiekt blob usługi Azure Storage (obsługiwany tylko jako magazyn pomocniczy)

Ekran magazynu umożliwia zdefiniowanie podstawowego konta magazynu i domyślnego kontenera. Możesz również połączyć dodatkową usługę Azure Storage z klastrem. Ustawienia magazynu metadanych umożliwiają zdefiniowanie zewnętrznej bazy danych SQL do przechowywania tabel programu Hive po usunięciu klastra oraz zwiększenie wydajności usługi Oozie przez przechowywanie metadanych w magazynie zewnętrznym.

A screenshot of the storage tab in the Create HDInsight Cluster screen in the Azure portal

Zabezpieczenia i sieć

W przypadku typów klastrów Hadoop, Spark, HBase, Kafka i Interactive Query można włączyć pakiet Enterprise Security. Ten pakiet zapewnia opcję bardziej bezpiecznej konfiguracji klastra przy użyciu platformy Apache Ranger i integracji z identyfikatorem Entra firmy Microsoft.

A screenshot of the Security and Networking tab in the Create HDInsight Cluster screen in the Azure portal

Ponadto zawsze zaleca się wdrażanie klastrów usługi HDInsight w sieci wirtualnej i definiowanie i ustawianie sieci wirtualnej na tym ekranie. Jeśli twoje rozwiązanie wymaga technologii, które są rozmieszczone w wielu typach klastrów usługi HDInsight, sieć wirtualna platformy Azure może połączyć wymagane typy klastrów. Ta konfiguracja umożliwia klastrom i wszystkim wdrażanemu w nich kodowi bezpośrednie komunikowanie się ze sobą.

Konfiguracja i cennik

Ta strona umożliwia skonfigurowanie rozmiaru i wydajności klastra oraz wyświetlenie szacowanych informacji o kosztach. Na tym ekranie można zdefiniować maszyny wirtualne, które będą używane dla węzłów głównych (głównych) i węzłów roboczych.

A screenshot of the Configuration and Pricing tab in the Create HDInsight Cluster screen in the Azure portal

Kontynuuj