Fürtök beállítása a HDInsightban Apache Hadoop, Apache Spark, Apache Kafka stb. használatával

Megtudhatja, hogyan állíthatja be és konfigurálhatja az Apache Hadoopot, az Apache Sparkot, az Apache Kafkát, az Interactive Queryt vagy az Apache HBase-t vagy a HDInsightot. Emellett megtudhatja, hogyan szabhatja testre a fürtöket, és hogyan adhat hozzá biztonságot egy tartományhoz való csatlakozással.

A Hadoop-fürtök több virtuális gépből (csomópontból) állnak, amelyeket a feladatok elosztott feldolgozásához használnak. Az Azure HDInsight kezeli az egyes csomópontok telepítésének és konfigurálásának implementálási részleteit, ezért csak általános konfigurációs információkat kell megadnia.

Fontos

A HDInsight-fürt számlázása a fürt létrehozásakor kezdődik és a fürt törlésekor fejeződik be. A számlázás percalapú, ezért mindig érdemes törölni a fürtöt, ha az már nincs használatban. Megtudhatja, hogyan törölhet fürtöt.

Ha több fürtöt használ együtt, létre kell hoznia egy virtuális hálózatot, és Ha Spark-fürtöt használ, akkor a Hive Warehouse Csatlakozás ort is használnia kell. További információ: Az Azure HDInsight virtuális hálózatának megtervezése, valamint az Apache Spark és az Apache Hive integrálása a Hive Warehouse Csatlakozás or használatával.

Fürtbeállítási módszerek

Az alábbi táblázat a HDInsight-fürtök beállításához használható különböző módszereket mutatja be.

A fürtök a Webböngésző Parancssor REST API SDK
Azure Portalra      
Azure Data Factory
Azure CLI      
Azure PowerShell      
cURL    
Azure Resource Manager-sablonok      

Ez a cikk végigvezeti az Azure Portal beállításán, ahol létrehozhat egy HDInsight-fürtöt.

Alapvető beállítások

A HDInsight egyéni gyors létrehozási lehetőségei.

Projekt részletei

Az Azure Resource Manager segítséget nyújt az alkalmazás erőforrásainak csoportként való használatához, amelyet Azure-erőforráscsoportnak neveznek. Egyetlen összehangolt műveletben üzembe helyezheti, frissítheti, figyelheti vagy törölheti az alkalmazás összes erőforrását.

Fürt részletei

Fürt neve

A HDInsight-fürtnevekre a következő korlátozások vonatkoznak:

  • Engedélyezett karakterek: a-z, 0-9, A-Z
  • Maximális hossz: 59
  • Fenntartott nevek: alkalmazások
  • A fürt elnevezési hatóköre az összes Azure-ra kiterjed az összes előfizetésben. Ezért a fürt nevének világszerte egyedinek kell lennie.
  • Az első hat karakternek egyedinek kell lennie egy virtuális hálózaton belül

Régió

Nem kell explicit módon megadnia a fürt helyét: A fürt ugyanabban a helyen található, mint az alapértelmezett tároló. A támogatott régiók listájához válassza a HDInsight díjszabásának Régió legördülő listáját.

Fürt típusa

Az Azure HDInsight jelenleg a következő fürttípusokat biztosítja, amelyek mindegyike összetevőkből áll, amelyek bizonyos funkciókat biztosítanak.

Fontos

A HDInsight-fürtök különböző típusokban érhetők el, amelyek mindegyike egyetlen számítási feladathoz vagy technológiához érhető el. Nincs támogatott módszer olyan fürt létrehozására, amely több típust, például egy fürtön lévő HBase-t egyesít. Ha a megoldáshoz több HDInsight-fürttípusra kiterjedő technológiákra van szükség, egy Azure-beli virtuális hálózat csatlakoztathatja a szükséges fürttípusokat.

Fürt típusa Funkciók
Hadoop Tárolt adatok kötegelt lekérdezése és elemzése
HBase Nagy mennyiségű séma nélküli, NoSQL-adat feldolgozása
Interaktív lekérdezés Memóriabeli gyorsítótárazás interaktív és gyorsabb Hive-lekérdezésekhez
Kafka Elosztott streamelési platform, amely valós idejű streamelési adatfolyamok és alkalmazások készítésére használható
Spark Memóriabeli feldolgozás, interaktív lekérdezések, mikroköteg-streamfeldolgozás

Verzió

Válassza ki a HDInsight-verziót ehhez a fürthöz. További információ: Támogatott HDInsight-verziók.

Fürt hitelesítő adatai

A HDInsight-fürtökkel két felhasználói fiókot konfigurálhat a fürt létrehozása során:

  • Fürt bejelentkezési felhasználóneve: Az alapértelmezett felhasználónév a rendszergazda. Az Azure Portal alapkonfigurációját használja. Néha "Fürtfelhasználónak" vagy "HTTP-felhasználónak" is hívják.
  • Secure Shell (SSH) felhasználónév: A fürthöz SSH-n keresztüli csatlakozásra szolgál. További információ: SSH használata a HDInsighttal.

A HTTP-felhasználónévre a következő korlátozások vonatkoznak:

  • Engedélyezett speciális karakterek: _ és @
  • A karakterek nem engedélyezettek: #;."',/:!*?$(){}[]<>|&--=+%~^space'
  • Maximális hossz: 20

Az SSH-felhasználónévre a következő korlátozások vonatkoznak:

  • Engedélyezett speciális karakterek:_ és @
  • A karakterek nem engedélyezettek: #;."',/:!*?$(){}[]<>|&--=+%~^space'
  • Maximális hossz: 64
  • Fenntartott nevek: hadoop, felhasználók, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user1, test, user2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, David, guest, John, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

Tárolás

Fürttárolási beállítások: HDFS-kompatibilis végpontok.

Bár a Hadoop helyszíni telepítése a Hadoop elosztott fájlrendszert (HDFS) használja a fürtön való tároláshoz, a felhőben a fürthöz csatlakoztatott tárolási végpontokat használja. A felhőalapú tárolás használatával biztonságosan törölheti a számításhoz használt HDInsight-fürtöket, miközben továbbra is megőrzi az adatokat.

A HDInsight-fürtök a következő tárolási lehetőségeket használhatják:

  • Azure Data Lake Storage Gen2
  • 1. generációs Azure Data Lake Storage
  • Általános célú Azure Storage v2
  • Általános célú Azure Storage v1
  • Azure Storage Block blob (csak másodlagos tárolóként támogatott)

A HDInsight tárolási lehetőségeiről további információt az Azure HDInsight-fürtökkel használható tárolási lehetőségek összehasonlítása című témakörben talál.

Figyelmeztetés

A HDInsight-fürttől eltérő helyen lévő további tárfiók használata nem támogatott.

A konfiguráció során az alapértelmezett tárolási végponthoz meg kell adnia egy Azure Storage-fiók vagy a Data Lake Storage blobtárolóját. Az alapértelmezett tároló alkalmazás- és rendszernaplókat tartalmaz. Igény szerint további csatolt Azure Storage-fiókokat és Data Lake Storage-fiókokat is megadhat, amelyeket a fürt elérhet. A HDInsight-fürtnek és a függő tárfióknak ugyanabban az Azure-helyen kell lennie.

Feljegyzés

A biztonságos átvitelt igénylő funkció biztonságos kapcsolaton keresztül kényszeríti ki a fiókra irányuló összes kérést. Ezt a funkciót csak a HDInsight-fürt 3.6-os vagy újabb verziója támogatja. További információ: Apache Hadoop-fürt létrehozása biztonságos átviteli tárfiókokkal az Azure HDInsightban.

Fontos

A biztonságos tárterület-átvitel fürt létrehozása után történő engedélyezése hibákat okozhat a tárfiók használatával, ezért nem ajánlott. Jobb, ha egy olyan tárfiókkal hoz létre új fürtöt, amelyen már engedélyezve van a biztonságos átvitel.

Feljegyzés

Az Azure HDInsight nem végzi el automatikusan az Azure Storage-ban tárolt adatok átvitelét, áthelyezését vagy másolását egyik régióból a másikba.

Metaadattár beállításai

Választható Hive- vagy Apache Oozie-metaadattárakat is létrehozhat. Azonban nem minden fürttípus támogatja a metaadattárakat, és az Azure Synapse Analytics nem kompatibilis a metaadattárakkal.

További információ: Külső metaadat-tárolók használata az Azure HDInsightban.

Fontos

Egyéni metaadattár létrehozásakor ne használjon kötőjeleket, kötőjeleket vagy szóközöket az adatbázis nevében. Ez a fürtlétrehozás folyamatának meghiúsulását okozhatja.

SQL-adatbázis a Hive-hez

Ha egy HDInsight-fürt törlése után meg szeretné őrizni a Hive-táblákat, használjon egyéni metaadattárat. Ezután csatolhatja a metaadattárat egy másik HDInsight-fürthöz.

Az egy HDInsight-fürtverzióhoz létrehozott HDInsight-metaadattárak nem oszthatók meg különböző HDInsight-fürtverziók között. A HDInsight-verziók listáját a támogatott HDInsight-verziókban találja.

Fontos

Az alapértelmezett metaadattár egy 5. szintű DTU-korláttal rendelkező Azure SQL Database-adatbázist biztosít (nem frissíthető)! Alkalmas alapszintű tesztelési célokra. Nagy vagy éles számítási feladatok esetén javasoljuk, hogy migráljon egy külső metaadattárba.

SQL database for Oozie

Az Oozie használatakor a teljesítmény növeléséhez használjon egyéni metaadattárat. A metaadattárak a fürt törlése után is hozzáférést biztosíthatnak az Oozie-feladatok adataihoz.

SQL-adatbázis az Ambarihoz

Az Ambari a HDInsight-fürtök figyelésére, konfigurációs módosítások végrehajtására, valamint a fürtkezelési adatok és a feladatelőzmények tárolására használatos. Az egyéni Ambari DB funkció lehetővé teszi egy új fürt üzembe helyezését és az Ambari beállítását egy ön által felügyelt külső adatbázisban. További információ: Custom Ambari DB.

Fontos

Egyéni Oozie-metaadattár nem használható újra. Egyéni Oozie-metaadattár használatához üres Azure SQL Database-adatbázist kell megadnia a HDInsight-fürt létrehozásakor.

Biztonság + hálózatkezelés

A HDInsight létrehozási beállításai a vállalati biztonsági csomag kiválasztása.

Enterprise Security Package

A Hadoop, a Spark, a HBase, a Kafka és az Interactive Query-fürttípusok esetében engedélyezheti az Enterprise Security Package csomagot. Ez a csomag lehetővé teszi, hogy biztonságosabb fürtbeállítást biztosítsunk az Apache Ranger használatával, és integrálható a Microsoft Entra ID-val. További információ: Az Azure HDInsight vállalati biztonságának áttekintése.

Az Enterprise biztonsági csomag lehetővé teszi a HDInsight integrálását az Active Directoryval és az Apache Rangerrel. Az Enterprise biztonsági csomag használatával több felhasználó is létrehozható.

További információ a tartományhoz csatlakoztatott HDInsight-fürt létrehozásáról: Tartományhoz csatlakoztatott HDInsight tesztkörnyezet létrehozása.

TLS

További információ: Transport Layer Security

Virtuális hálózat

Ha a megoldáshoz több HDInsight-fürttípusra kiterjedő technológiákra van szükség, egy Azure-beli virtuális hálózat csatlakoztathatja a szükséges fürttípusokat. Ez a konfiguráció lehetővé teszi, hogy a fürtök és a rajtuk üzembe helyezett kódok közvetlenül kommunikáljanak egymással.

Az Azure-beli virtuális hálózatok HDInsighttal való használatáról további információt a HDInsight virtuális hálózatának megtervezése című témakörben talál.

Ha egy Azure-beli virtuális hálózaton belül két fürttípust használ, tekintse meg az Apache Spark strukturált streamelés használata az Apache Kafkával című témakört. A HDInsight virtuális hálózattal való használatáról, beleértve a virtuális hálózatra vonatkozó speciális konfigurációs követelményeket is, olvassa el a HDInsight virtuális hálózatának megtervezése című témakört.

Lemeztitkosítási beállítás

További információ: Ügyfél által felügyelt kulcslemez titkosítása.

Kafka REST proxy

Ez a beállítás csak a Kafka fürttípushoz érhető el. További információ: REST-proxy használata.

Identitás

További információ: Felügyelt identitások az Azure HDInsightban.

Konfiguráció + díjszabás

A HDInsight válassza ki a csomópont méretét.

A csomóponthasználatért a fürt meglétéig kell fizetnie. A számlázás a fürt létrehozásakor kezdődik, és a fürt törlésekor leáll. A fürtök nem foglalhatók le és nem helyezhetők el.

Csomópont-konfiguráció

Minden fürttípus saját számú csomópontot, a csomópontok terminológiáját és az alapértelmezett virtuálisgép-méretet tartalmazza. Az alábbi táblázatban az egyes csomóponttípusok csomópontjainak száma zárójelben található.

Típus Csomópontok Ábra
Hadoop Fő csomópont (2), Feldolgozó csomópont (1+) HDInsight Hadoop-fürtcsomópontok.
A HBase Főkiszolgáló (2), régiókiszolgáló (1+), master/ZooKeeper csomópont (3) HDInsight HBase-fürttípus beállítása.
Spark Head node (2), Worker node (1+), ZooKeeper node (3) (ingyenes A1 ZooKeeper virtuális gép méretéhez) HDInsight Spark-fürttípus beállítása.

További információ: A fürtök alapértelmezett csomópontkonfigurációja és virtuálisgép-méretei a "Mik a Hadoop-összetevők és -verziók a HDInsightban?" című témakörben.

A HDInsight-fürtök költségeit a csomópontok száma és a csomópontok virtuális gépeinek mérete határozza meg.

A különböző fürttípusok különböző csomóponttípusokkal, csomópontszámokkal és csomópontméretekkel rendelkeznek:

  • A Hadoop-fürt alapértelmezett típusa:
    • Két fő csomópont

    • Négy feldolgozó csomópont

Ha csak a HDInsightot próbálja ki, javasoljuk, hogy használjon egy feldolgozó csomópontot. A HDInsight díjszabásáról további információt a HDInsight díjszabásában talál.

Feljegyzés

A fürt méretkorlátja az Azure-előfizetések között eltérő. A korlát növeléséhez lépjen kapcsolatba az Azure számlázási támogatási szolgálatával .

Amikor az Azure Portal használatával konfigurálja a fürtöt, a csomópont mérete a Configuration + pricing (Konfiguráció+ díjszabás ) lapon érhető el. A portálon a különböző csomópontméretekhez tartozó költségek is láthatók.

Virtuálisgép-méretek

Fürtök telepítésekor válassza ki a számítási erőforrásokat az üzembe helyezni kívánt megoldás alapján. A HDInsight-fürtökhöz a következő virtuális gépeket használják:

Ha szeretné megtudni, hogy milyen értéket kell használnia a virtuálisgép-méret megadásához a különböző SDK-k használatával vagy az Azure PowerShell használata közben, tekintse meg a HDInsight-fürtökhöz használandó virtuálisgép-méreteket. Ebből a csatolt cikkből használja a táblák Méret oszlopában szereplő értéket.

Fontos

Ha egy fürtben több mint 32 feldolgozó csomópontra van szüksége, ki kell választania egy legalább 8 maggal és 14 GB RAM-mal rendelkező főcsomópont-méretet.

További információkért lásd a virtuális gépek méreteit. A különböző méretek díjszabásával kapcsolatos információkért lásd a HDInsight díjszabását.

Lemezmelléklet

Feljegyzés

A hozzáadott lemezek csak a csomópontkezelő helyi könyvtáraihoz vannak konfigurálva, a datanode-könyvtárakhoz nem.

A HDInsight-fürt SKU-n alapuló előre definiált lemezterülettel rendelkezik. Ha nagy méretű alkalmazásokat futtat, a lemez teljes hibája LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE és a feladat meghiúsulása miatt nem elegendő lemezterületet eredményezhet.

További lemezek is hozzáadhatók a fürthöz az új Funkció NodeManager helyi címtárával. A Hive és a Spark-fürt létrehozásakor a lemezek száma kiválasztható és hozzáadható a feldolgozó csomópontokhoz. A kijelölt lemez, amely egyenként 1 TB méretű lesz, a NodeManager helyi könyvtárainak része lenne.

  1. A Konfiguráció + díjszabás lapról
  2. A felügyelt lemez engedélyezése lehetőség kiválasztása
  3. Standard lemezeken adja meg a lemezek számát
  4. A Feldolgozó csomópont kiválasztása

A lemezek számát ellenőrizheti a Felülvizsgálat + létrehozás lapon, a Fürtkonfiguráció területen

Alkalmazás hozzáadása

A HDInsight-alkalmazás olyan alkalmazás, amelyet a felhasználók Linux-alapú HDInsight-fürtökre telepíthetnek. Használhatja a Microsoft, harmadik felek vagy ön által fejlesztett alkalmazásokat. További információ: Külső Apache Hadoop-alkalmazások telepítése az Azure HDInsighton.

A HDInsight-alkalmazások többsége üres peremcsomópontra van telepítve. Az üres peremhálózati csomópont egy Linux rendszerű virtuális gép, amelyen ugyanazok az ügyféleszközök vannak telepítve és konfigurálva, mint a fő csomópontban. A határcsomópontotot használhatja a fürt eléréséhez, az ügyfélalkalmazások teszteléséhez és az ügyfélalkalmazások üzemeltetéséhez. További információ: Üres élcsomópontok használata a HDInsightban.

Szkriptműveletek

A létrehozás során szkriptek használatával további összetevőket telepíthet, vagy testre szabhatja a fürtkonfigurációt. Az ilyen szkripteket a Szkriptművelet hívja meg, amely egy konfigurációs lehetőség, amely az Azure Portalról, a HDInsight Windows PowerShell-parancsmagokból vagy a HDInsight .NET SDK-ból használható. További információ: A HDInsight-fürt testreszabása szkriptművelettel.

Egyes natív Java-összetevők, például az Apache Mahout és a Cascading, Java Archive-fájlokként (JAR) futtathatók a fürtön. Ezek a JAR-fájlok terjeszthetők az Azure Storage-ba, és a Hadoop-feladatbeküldési mechanizmusokkal továbbíthatók a HDInsight-fürtökre. További információ: Apache Hadoop-feladatok programozott elküldése.

Feljegyzés

Ha problémái vannak a JAR-fájlok HDInsight-fürtökön való üzembe helyezésével vagy a JAR-fájlok HDInsight-fürtökön való meghívásával, forduljon Microsoft ügyfélszolgálata.

A kaszkádolást a HDInsight nem támogatja, és nem jogosult a Microsoft ügyfélszolgálata. A támogatott összetevők listájáért tekintse meg a HDInsight által biztosított fürtverziók újdonságait.

Előfordulhat, hogy a létrehozási folyamat során a következő konfigurációs fájlokat szeretné konfigurálni:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

További információ: HDInsight-fürtök testreszabása a Bootstrap használatával.

Következő lépések