Külső metaadattárak használata az Azure HDInsightban

Fontos

Az alapértelmezett metaadattár egy alapszintű Azure SQL Database-t biztosít, amely csak 5 DTU-val és 2 GB-os maximális adatmérettel rendelkezik (NEM FRISSÍTHETŐ)! Ez csak minőség-ellenőrzési és tesztelési célokra használja. Az éles vagy nagy méretű számítási feladatok esetén javasoljuk, hogy migráljon egy külső metaadattárba!

A HDInsight lehetővé teszi az adatok és metaadatok külső adattárakkal való felügyeletét. Ez a funkció az Apache Hive metaadattárhoz, az Apache Oozie metaadattárhoz és az Apache Ambari-adatbázishoz érhető el.

A HDInsightban található Apache Hive metaadattár az Apache Hadoop-architektúra alapvető része. A metaadattár a központi sématár. A metaadattárat más big data-hozzáférési eszközök, például az Apache Spark, az Interaktív lekérdezés (LLAP), a Presto vagy az Apache Pig használják. A HDInsight egy Azure SQL Database-t használ Hive-metaadattárként.

HDInsight Hive Metadata Store Architecture.

A HDInsight-fürtökhöz kétféleképpen állíthat be metaadattárat:

Alapértelmezett metaadattár

A HDInsight alapértelmezés szerint minden fürttípushoz létrehoz egy metaadattárat. Ehelyett megadhat egy egyéni metaadattárat. Az alapértelmezett metaadattár a következő szempontokat foglalja magában:

  • Korlátozott erőforrások. Lásd az oldal tetején található értesítést.

  • Nincs további költség. A HDInsight minden fürttípussal létrehoz egy metaadattárat anélkül, hogy további költségekkel jár.

  • Az alapértelmezett metaadattár a fürt életciklusának része. Fürt törlésekor a megfelelő metaadattár és metaadatok is törlődnek.

  • Az alapértelmezett metaadattár csak egyszerű számítási feladatokhoz ajánlott. Olyan számítási feladatok, amelyek nem igényelnek több fürtöt, és nem igényelnek a fürt életciklusán túl megőrzött metaadatokat.

  • Az alapértelmezett metaadattár nem osztható meg más fürtekkel.

Egyéni metaadattár

A HDInsight támogatja az egyéni metaadattárakat is, amelyek éles fürtökhöz ajánlottak:

  • Metaadattárként saját Azure SQL Database-t kell megadnia.

  • A metaadattár életciklusa nincs fürtök életciklusához kötve, így metaadatok elvesztése nélkül hozhat létre és törölhet fürtöket. Az olyan metaadatok, mint a Hive-sémák, a HDInsight-fürt törlése és újbóli létrehozása után is megmaradnak.

  • Az egyéni metaadattár lehetővé teszi, hogy több fürtöt és fürttípust csatoljon ehhez a metaadattárhoz. Egy metaadattár például megosztható interaktív lekérdezések, Hive- és Spark-fürtök között a HDInsightban.

  • Egy metaadattár (Azure SQL Database) költségeit a választott teljesítményszintnek megfelelően kell fizetnie.

  • Igény szerint felskálázhatja a metaadattárat.

  • A fürtöt és a külső metaadattárat ugyanabban a régióban kell üzemeltetni.

HDInsight Hive Metadata Store Use Case.

Azure SQL Database létrehozása és konfigurálása az egyéni metaadattárhoz

Hozzon létre vagy hozzon létre egy meglévő Azure SQL Database-adatbázist, mielőtt beállít egy egyéni Hive-metaadattárat egy HDInsight-fürthöz. További információ : Rövid útmutató: Önálló adatbázis létrehozása az Azure SQL Database-ben.

A fürt létrehozásakor a HDInsight szolgáltatásnak csatlakoznia kell a külső metaadattárhoz, és ellenőriznie kell a hitelesítő adatait. Az Azure SQL Database tűzfalszabályainak konfigurálása az Azure-szolgáltatások és -erőforrások kiszolgálóhoz való hozzáférésének engedélyezéséhez. Engedélyezze ezt a beállítást az Azure Portalon a Kiszolgálói tűzfal beállítása lehetőséget választva. Ezután válassza a Nem lehetőséget a nyilvános hálózati hozzáférés megtagadása alatt, és az Igen lehetőséget az Azure-szolgáltatások és -erőforrások számára, hogy hozzáférjenek ehhez a kiszolgálóhoz az Azure SQL Database-hez. További információ: IP-tűzfalszabályok létrehozása és kezelése

Az SQL-tárolók privát végpontjai csak a ResourceProviderrel létrehozott outbound fürtökön támogatottak Csatlakozás ion. További információkért tekintse meg ezt a dokumentációt.

set server firewall button.

allow azure services access.

Egyéni metaadattár kiválasztása fürt létrehozásakor

A fürtöt bármikor egy korábban létrehozott Azure SQL Database-adatbázisra irányíthatja. A portálon keresztüli fürtlétrehozáshoz a beállítás a Tár > metaadattár beállításai között van megadva.

HDInsight Hive Metadata Store Azure portal.

Apache Hive metaadattár-irányelvek

Feljegyzés

Amikor csak lehetséges, használjon egyéni metaadattárat a számítási erőforrások (a futó fürt) és a metaadatok (a metaadattárban tárolt) elkülönítéséhez. Kezdje az S2 szinttel, amely 50 DTU-t és 250 GB tárterületet biztosít. Ha szűk keresztmetszetet lát, felskálázhatja az adatbázist.

  • Ha több HDInsight-fürtöt kíván elérni külön adatokhoz, használjon külön adatbázist az egyes fürtök metaadattárához. Ha több HDInsight-fürtön is megoszt egy metaadattárat, az azt jelenti, hogy a fürtök ugyanazokat a metaadatokat és a mögöttes felhasználói adatfájlokat használják.

  • Rendszeresen biztonsági másolatot készít az egyéni metaadattárról. Az Azure SQL Database automatikusan készít biztonsági mentéseket, de a biztonsági mentések megőrzési időkerete változó. További információ: További információ az SQL Database automatikus biztonsági mentéseiről.

  • Keresse meg a metaadattárat és a HDInsight-fürtöt ugyanabban a régióban. Ez a konfiguráció biztosítja a legmagasabb teljesítményt és a legalacsonyabb hálózati kimenő díjakat.

  • Monitorozza a metaadattárat a teljesítmény és a rendelkezésre állás érdekében az Azure SQL Database monitorozási eszközei vagy az Azure Monitor-naplók használatával.

  • Ha az Azure HDInsight új, magasabb szintű verziója jön létre egy meglévő egyéni metaadattár-adatbázissal, a rendszer frissíti a metaadattár sémáját. A frissítés visszavonhatatlan anélkül, hogy visszaállítja az adatbázist a biztonsági másolatból.

  • Ha több fürt között oszt meg metaadattárat, győződjön meg arról, hogy az összes fürt ugyanazt a HDInsight-verziót használja. A Különböző Hive-verziók különböző metaadattár-adatbázissémákat használnak. Például nem oszthat meg metaadattárat a Hive 2.1 és a Hive 3.1 verziójú fürtök között.

  • A HDInsight 4.0-ban a Spark és a Hive független katalógusokat használ a SparkSQL- vagy Hive-táblák eléréséhez. A Spark által létrehozott táblázat a Spark-katalógusban található. A Hive által létrehozott táblázat a Hive katalógusban található. Ez a viselkedés eltér a HDInsight 3.6-ostól, ahol a Hive és a Spark közös katalógust osztott meg. A HDInsight 4.0-s Hive- és Spark-integrációja a Hive Warehouse Csatlakozás or (HWC) függvényen alapul. A HWC hídként működik a Spark és a Hive között. További információ a Hive Warehouse Csatlakozás orról.

  • A HDInsight 4.0-ban, ha meg szeretné osztani a metaadattárat a Hive és a Spark között, ezt úgy teheti meg, hogy a metastore.catalog.default tulajdonságot hive értékre módosítja a Spark-fürtben. Ezt a tulajdonságot az Ambari Advanced spark2-hive-site-override fájlban találja. Fontos tisztában lenni azzal, hogy a metaadattár megosztása csak külső hive-táblák esetén működik, ez nem fog működni, ha belső/felügyelt hive- vagy ACID-táblákkal rendelkezik.

Az egyéni Hive metaadattár jelszavának frissítése

Egyéni Hive-metaadattár-adatbázis használatakor módosíthatja az SQL DB jelszavát. Ha módosítja az egyéni metaadattár jelszavát, a Hive-szolgáltatások addig nem működnek, amíg nem frissíti a jelszót a HDInsight-fürtben.

A Hive metaadattár jelszavának frissítése:

  1. Nyissa meg az Ambari felhasználói felületét.
  2. Kattintson a Szolgáltatások --> Hive --> Configs -> Adatbázis elemre.
  3. Frissítse az Adatbázisjelszó mezőket az új SQL Server-adatbázisjelszóra.
  4. Kattintson a Tesztelés Csatlakozás ion gombra az új jelszó működésének ellenőrzéséhez.
  5. Kattintson a Mentés gombra.
  6. A konfiguráció mentéséhez és a szükséges szolgáltatások újraindításához kövesse az Ambari-utasításokat.

Apache Oozie metaadattár

Az Apache Oozie egy munkafolyamat-koordinációs rendszer, amely a Hadoop-feladatokat kezeli. Az Oozie támogatja a Hadoop-feladatokat az Apache MapReduce, a Pig, a Hive és mások számára. Az Oozie egy metaadattár használatával tárolja a munkafolyamatok részleteit. Az Oozie használatakor a teljesítmény növeléséhez az Azure SQL Database-t használhatja egyéni metaadattárként. A metaadattár hozzáférést biztosít az Oozie-feladatok adataihoz a fürt törlése után.

Az Oozie-metaadattár Azure SQL Database-szel való létrehozásáról további információt az Apache Oozie használata munkafolyamatokhoz című témakörben talál.

Az egyéni Oozie metaadattár jelszavának frissítése

Egyéni Oozie-metaadattár-adatbázis használatakor módosíthatja az SQL DB jelszavát. Ha módosítja az egyéni metaadattár jelszavát, az Oozie-szolgáltatások addig nem fognak működni, amíg nem frissíti a jelszót a HDInsight-fürtben.

Az Oozie metaadattár jelszavának frissítése:

  1. Nyissa meg az Ambari felhasználói felületét.
  2. Kattintson a Szolgáltatások --> Oozie --> Configs -> Adatbázis elemre.
  3. Frissítse az Adatbázisjelszó mezőket az új SQL Server-adatbázisjelszóra.
  4. Kattintson a Tesztelés Csatlakozás ion gombra az új jelszó működésének ellenőrzéséhez.
  5. Kattintson a Mentés gombra.
  6. A konfiguráció mentéséhez és a szükséges szolgáltatások újraindításához kövesse az Ambari-utasításokat.

Egyéni Ambari-adatbázis

Ha saját külső adatbázist szeretne használni a HDInsighton futó Apache Ambarival, tekintse meg az Egyéni Apache Ambari-adatbázist.

Következő lépések