Külső metaadattárak használata az Azure HDInsightban
Fontos
Az alapértelmezett metaadattár egy alapszintű Azure SQL Database-t biztosít, amely csak 5 DTU-val és 2 GB-os maximális adatmérettel rendelkezik (NEM FRISSÍTHETŐ)! Ez csak minőség-ellenőrzési és tesztelési célokra használja. Az éles vagy nagy méretű számítási feladatok esetén javasoljuk, hogy migráljon egy külső metaadattárba!
A HDInsight lehetővé teszi az adatok és metaadatok külső adattárakkal való felügyeletét. Ez a funkció az Apache Hive metaadattárhoz, az Apache Oozie metaadattárhoz és az Apache Ambari-adatbázishoz érhető el.
A HDInsightban található Apache Hive metaadattár az Apache Hadoop-architektúra alapvető része. A metaadattár a központi sématár. A metaadattárat más big data-hozzáférési eszközök, például az Apache Spark, az Interaktív lekérdezés (LLAP), a Presto vagy az Apache Pig használják. A HDInsight egy Azure SQL Database-t használ Hive-metaadattárként.
A HDInsight-fürtökhöz kétféleképpen állíthat be metaadattárat:
Alapértelmezett metaadattár
A HDInsight alapértelmezés szerint minden fürttípushoz létrehoz egy metaadattárat. Ehelyett megadhat egy egyéni metaadattárat. Az alapértelmezett metaadattár a következő szempontokat foglalja magában:
Korlátozott erőforrások. Lásd az oldal tetején található értesítést.
Nincs további költség. A HDInsight minden fürttípussal létrehoz egy metaadattárat anélkül, hogy további költségekkel jár.
Az alapértelmezett metaadattár a fürt életciklusának része. Fürt törlésekor a megfelelő metaadattár és metaadatok is törlődnek.
Az alapértelmezett metaadattár csak egyszerű számítási feladatokhoz ajánlott. Olyan számítási feladatok, amelyek nem igényelnek több fürtöt, és nem igényelnek a fürt életciklusán túl megőrzött metaadatokat.
Az alapértelmezett metaadattár nem osztható meg más fürtekkel.
Egyéni metaadattár
A HDInsight támogatja az egyéni metaadattárakat is, amelyek éles fürtökhöz ajánlottak:
Metaadattárként saját Azure SQL Database-t kell megadnia.
A metaadattár életciklusa nincs fürtök életciklusához kötve, így metaadatok elvesztése nélkül hozhat létre és törölhet fürtöket. Az olyan metaadatok, mint a Hive-sémák, a HDInsight-fürt törlése és újbóli létrehozása után is megmaradnak.
Az egyéni metaadattár lehetővé teszi, hogy több fürtöt és fürttípust csatoljon ehhez a metaadattárhoz. Egy metaadattár például megosztható interaktív lekérdezések, Hive- és Spark-fürtök között a HDInsightban.
Egy metaadattár (Azure SQL Database) költségeit a választott teljesítményszintnek megfelelően kell fizetnie.
Igény szerint felskálázhatja a metaadattárat.
A fürtöt és a külső metaadattárat ugyanabban a régióban kell üzemeltetni.
Azure SQL Database létrehozása és konfigurálása az egyéni metaadattárhoz
Hozzon létre vagy hozzon létre egy meglévő Azure SQL Database-adatbázist, mielőtt beállít egy egyéni Hive-metaadattárat egy HDInsight-fürthöz. További információ : Rövid útmutató: Önálló adatbázis létrehozása az Azure SQL Database-ben.
A fürt létrehozásakor a HDInsight szolgáltatásnak csatlakoznia kell a külső metaadattárhoz, és ellenőriznie kell a hitelesítő adatait. Az Azure SQL Database tűzfalszabályainak konfigurálása az Azure-szolgáltatások és -erőforrások kiszolgálóhoz való hozzáférésének engedélyezéséhez. Engedélyezze ezt a beállítást az Azure Portalon a Kiszolgálói tűzfal beállítása lehetőséget választva. Ezután válassza a Nem lehetőséget a nyilvános hálózati hozzáférés megtagadása alatt, és az Igen lehetőséget az Azure-szolgáltatások és -erőforrások számára, hogy hozzáférjenek ehhez a kiszolgálóhoz az Azure SQL Database-hez. További információ: IP-tűzfalszabályok létrehozása és kezelése
Az SQL-tárolók privát végpontjai csak a ResourceProviderrel létrehozott outbound
fürtökön támogatottak Csatlakozás ion. További információkért tekintse meg ezt a dokumentációt.
Egyéni metaadattár kiválasztása fürt létrehozásakor
A fürtöt bármikor egy korábban létrehozott Azure SQL Database-adatbázisra irányíthatja. A portálon keresztüli fürtlétrehozáshoz a beállítás a Tár > metaadattár beállításai között van megadva.
Apache Hive metaadattár-irányelvek
Feljegyzés
Amikor csak lehetséges, használjon egyéni metaadattárat a számítási erőforrások (a futó fürt) és a metaadatok (a metaadattárban tárolt) elkülönítéséhez. Kezdje az S2 szinttel, amely 50 DTU-t és 250 GB tárterületet biztosít. Ha szűk keresztmetszetet lát, felskálázhatja az adatbázist.
Ha több HDInsight-fürtöt kíván elérni külön adatokhoz, használjon külön adatbázist az egyes fürtök metaadattárához. Ha több HDInsight-fürtön is megoszt egy metaadattárat, az azt jelenti, hogy a fürtök ugyanazokat a metaadatokat és a mögöttes felhasználói adatfájlokat használják.
Rendszeresen biztonsági másolatot készít az egyéni metaadattárról. Az Azure SQL Database automatikusan készít biztonsági mentéseket, de a biztonsági mentések megőrzési időkerete változó. További információ: További információ az SQL Database automatikus biztonsági mentéseiről.
Keresse meg a metaadattárat és a HDInsight-fürtöt ugyanabban a régióban. Ez a konfiguráció biztosítja a legmagasabb teljesítményt és a legalacsonyabb hálózati kimenő díjakat.
Monitorozza a metaadattárat a teljesítmény és a rendelkezésre állás érdekében az Azure SQL Database monitorozási eszközei vagy az Azure Monitor-naplók használatával.
Ha az Azure HDInsight új, magasabb szintű verziója jön létre egy meglévő egyéni metaadattár-adatbázissal, a rendszer frissíti a metaadattár sémáját. A frissítés visszavonhatatlan anélkül, hogy visszaállítja az adatbázist a biztonsági másolatból.
Ha több fürt között oszt meg metaadattárat, győződjön meg arról, hogy az összes fürt ugyanazt a HDInsight-verziót használja. A Különböző Hive-verziók különböző metaadattár-adatbázissémákat használnak. Például nem oszthat meg metaadattárat a Hive 2.1 és a Hive 3.1 verziójú fürtök között.
A HDInsight 4.0-ban a Spark és a Hive független katalógusokat használ a SparkSQL- vagy Hive-táblák eléréséhez. A Spark által létrehozott táblázat a Spark-katalógusban található. A Hive által létrehozott táblázat a Hive katalógusban található. Ez a viselkedés eltér a HDInsight 3.6-ostól, ahol a Hive és a Spark közös katalógust osztott meg. A HDInsight 4.0-s Hive- és Spark-integrációja a Hive Warehouse Csatlakozás or (HWC) függvényen alapul. A HWC hídként működik a Spark és a Hive között. További információ a Hive Warehouse Csatlakozás orról.
A HDInsight 4.0-ban, ha meg szeretné osztani a metaadattárat a Hive és a Spark között, ezt úgy teheti meg, hogy a metastore.catalog.default tulajdonságot hive értékre módosítja a Spark-fürtben. Ezt a tulajdonságot az Ambari Advanced spark2-hive-site-override fájlban találja. Fontos tisztában lenni azzal, hogy a metaadattár megosztása csak külső hive-táblák esetén működik, ez nem fog működni, ha belső/felügyelt hive- vagy ACID-táblákkal rendelkezik.
Az egyéni Hive metaadattár jelszavának frissítése
Egyéni Hive-metaadattár-adatbázis használatakor módosíthatja az SQL DB jelszavát. Ha módosítja az egyéni metaadattár jelszavát, a Hive-szolgáltatások addig nem működnek, amíg nem frissíti a jelszót a HDInsight-fürtben.
A Hive metaadattár jelszavának frissítése:
- Nyissa meg az Ambari felhasználói felületét.
- Kattintson a Szolgáltatások --> Hive --> Configs -> Adatbázis elemre.
- Frissítse az Adatbázisjelszó mezőket az új SQL Server-adatbázisjelszóra.
- Kattintson a Tesztelés Csatlakozás ion gombra az új jelszó működésének ellenőrzéséhez.
- Kattintson a Mentés gombra.
- A konfiguráció mentéséhez és a szükséges szolgáltatások újraindításához kövesse az Ambari-utasításokat.
Apache Oozie metaadattár
Az Apache Oozie egy munkafolyamat-koordinációs rendszer, amely a Hadoop-feladatokat kezeli. Az Oozie támogatja a Hadoop-feladatokat az Apache MapReduce, a Pig, a Hive és mások számára. Az Oozie egy metaadattár használatával tárolja a munkafolyamatok részleteit. Az Oozie használatakor a teljesítmény növeléséhez az Azure SQL Database-t használhatja egyéni metaadattárként. A metaadattár hozzáférést biztosít az Oozie-feladatok adataihoz a fürt törlése után.
Az Oozie-metaadattár Azure SQL Database-szel való létrehozásáról további információt az Apache Oozie használata munkafolyamatokhoz című témakörben talál.
Az egyéni Oozie metaadattár jelszavának frissítése
Egyéni Oozie-metaadattár-adatbázis használatakor módosíthatja az SQL DB jelszavát. Ha módosítja az egyéni metaadattár jelszavát, az Oozie-szolgáltatások addig nem fognak működni, amíg nem frissíti a jelszót a HDInsight-fürtben.
Az Oozie metaadattár jelszavának frissítése:
- Nyissa meg az Ambari felhasználói felületét.
- Kattintson a Szolgáltatások --> Oozie --> Configs -> Adatbázis elemre.
- Frissítse az Adatbázisjelszó mezőket az új SQL Server-adatbázisjelszóra.
- Kattintson a Tesztelés Csatlakozás ion gombra az új jelszó működésének ellenőrzéséhez.
- Kattintson a Mentés gombra.
- A konfiguráció mentéséhez és a szükséges szolgáltatások újraindításához kövesse az Ambari-utasításokat.
Egyéni Ambari-adatbázis
Ha saját külső adatbázist szeretne használni a HDInsighton futó Apache Ambarival, tekintse meg az Egyéni Apache Ambari-adatbázist.