Unity Catalog-metaadattár létrehozása
Ez a cikk bemutatja, hogyan hozhat létre unitykatalógus-metaadattárat, és hogyan csatolhatja munkaterületekhez.
Fontos
A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében a cikkben szereplő utasítások szükségtelenek. A Databricks 2023. november 9-én kezdte el automatikusan engedélyezni a Unity Catalog új munkaterületeit, és a fiókok közötti bevezetés fokozatosan haladt. Csak akkor kövesse a cikkben leírt utasításokat, ha van munkaterülete, és még nem rendelkezik metaadattárval a munkaterület régiójában. Annak megállapításához, hogy egy metaadattár már létezik-e a régióban, tekintse meg a Unity Catalog automatikus engedélyezését.
A metaadattár a Unity Catalog adatainak legfelső szintű tárolója. A Unity Catalog metaadattárai metaadatokat regisztrálnak a biztonságos objektumokról (például táblákról, kötetekről, külső helyekről és megosztásokról), valamint az ezekhez való hozzáférést szabályozó engedélyekről. Minden metaadattár egy háromszintű névteret (catalog
.schema
.table
) tesz elérhetővé, amellyel az adatok rendszerezhetők. Minden olyan régióhoz, ahol a szervezet működik, egy metaadattárat kell tartalmaznia. A Unity Catalog használatához a felhasználóknak olyan munkaterületen kell lenniük, amely a régiójukban található metaadattárhoz van csatolva.
Metaadattár létrehozásához tegye a következőket:
Az Azure-fiókjában szükség esetén hozzon létre egy tárolóhelyet a felügyelt táblák és kötetek metaadattárszintű tárolásához.
Ha szeretné eldönteni, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tárolólétrehozása és az adatok fizikailag elválasztva a tárolóban című témakört.
Az Azure-fiókjában hozzon létre egy Azure-beli felügyelt identitást vagy szolgáltatásnevet, amely hozzáférést biztosít az adott tárolási helyhez.
Az Azure Databricksben hozza létre a metaadattárat, csatolja a tárolási helyet, és rendeljen munkaterületeket a metaadattárhoz.
Feljegyzés
A cikkben ismertetett megközelítéseken kívül metaadattárat is létrehozhat a Databricks Terraform szolgáltatóval, különösen a databricks_metastore erőforrással. Ha engedélyezni szeretné a Unity Catalog számára a metaadattár elérését, használja a databricks_metastore_data_access. A munkaterületek metaadattárhoz való csatolásához használja a databricks_metastore_assignment.
Mielőtt elkezdené
Mielőtt hozzákezdene, ismerkedjen meg a Unity Catalog alapfogalmaival, beleértve a metaadattárakat és a felügyelt tárolókat. Lásd a Mi az a Unity katalógus? témakört.
Azt is ellenőriznie kell, hogy megfelel-e az összes beállítási lépésre vonatkozó alábbi követelményeknek:
Azure Databricks-fiókadminisztrátornak kell lennie.
Az első Azure Databricks-fiók rendszergazdájának Microsoft Entra-azonosítónak (korábban Azure Active Directory) globális Rendszergazda istratornak kell lennie, amikor először bejelentkeznek az Azure Databricks-fiókkonzolba. Az első bejelentkezéskor a felhasználó Azure Databricks-fiók rendszergazdájává válik, és már nincs szüksége a Microsoft Entra ID Global Rendszergazda istrator szerepkörre az Azure Databricks-fiók eléréséhez. Az első fiókadminisztrátor további fiókadminisztrátorként további fiókadminisztrátorként rendelhet felhasználókat a Microsoft Entra ID-bérlőhöz (akik maguk is hozzárendelhetnek további fiókadminisztrátorokat). A további fiókadminisztrátoroknak nincs szükségük meghatározott szerepkörökre a Microsoft Entra-azonosítóban.
A metaadattárhoz csatolt munkaterületeknek az Azure Databricks Premium-csomagban kell lenniük.
Ha metaadattárszintű gyökértárolót szeretne beállítani, rendelkeznie kell a következők azure-bérlőben való létrehozásához szükséges engedéllyel:
- Az Azure Data Lake Storage Gen2-vel használható tárfiók. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.
- Egy új erőforrás, amely egy rendszer által hozzárendelt felügyelt identitást tárol. Ehhez a bérlő bármely előfizetésében közreműködőnek vagy erőforráscsoport tulajdonosának kell lennie.
1. lépés (nem kötelező): Tároló létrehozása metaadattárszintű felügyelt tárolóhoz
Ebben a lépésben, amely nem kötelező, létrehoz egy tárfiókot és egy tárolót a felügyelt tábla- és kötetadatok metaadattár szintjén való tárolásához. Annak megállapításához, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozása című témakört.
Hozzon létre egy tárfiókot az Azure Data Lake Storage Gen2-hez.
Ez a tárfiók a Unity Catalog által felügyelt táblákat és köteteket fogja tartalmazni. Ennek egy Azure Data Lake Storage Gen2-fióknak kell lennie ugyanabban a régióban, mint az Azure Databricks-munkaterületek. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.
Hozzon létre egy tárolót, amely a metaadattár szintjén tárolja a felügyelt táblákat és kötetadatokat.
Régiónként csak egy metaadattár hozható létre. Ugyanazt a régiót kell használnia a metaadattárhoz és a tárolóhoz.
Ezt a metaadattárszintű tárolóhelyet felül lehet bírálni a katalógus és a séma szintjén. Lásd: Felügyelt tárterület.
Jegyezze fel a tároló ADLSv2 URI-ját, amely a következő formátumban van:
abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
Az alábbi lépésekben cserélje le
<storage-container>
ezt az URI-t.
2. lépés (nem kötelező): Felügyelt identitás létrehozása a felügyelt tárhely eléréséhez
Ebben a lépésben, amely csak az 1. lépés elvégzése után szükséges, létre kell hoznia egy Azure Databricks hozzáférési összekötőt, amely egy felügyelt identitást tartalmaz, és hozzáférést biztosít a tárolóhoz.
Kövesse az Azure által felügyelt identitások használata a Unity Katalógusban a tárterület eléréséhez című témakör utasításait.
Feljegyzés
Használhat azure-beli felügyelt identitást vagy szolgáltatásnevet a metaadattár tárolójának hozzáférését biztosító identitásként. A Databricks határozottan javasolja a felügyelt identitásokat, mivel nem követelik meg a hitelesítő adatok karbantartását vagy a titkos kulcsok elforgatását, és lehetővé teszik, hogy egy storage tűzfallal védett Azure Data Lake Storage Gen2-fiókhoz csatlakozzon. Ha szolgáltatásnevet szeretne használni, olvassa el a Unity Catalog által felügyelt tároló létrehozása szolgáltatásnévvel (örökölt) című témakört.
3. lépés: A metaadattár létrehozása és munkaterület csatolása
Minden Azure Databricks-régióhoz saját Unity Catalog-metaadattár szükséges.
Minden olyan régióhoz létrehoz egy metaadattárat, amelyben a szervezet működik. Ezeket a regionális metaadattárakat tetszőleges számú munkaterülethez csatolhatja az adott régióban. Minden csatolt munkaterület ugyanazt a nézetet jeleníti meg a metaadattárban lévő adatokról, és az adathozzáférés-vezérlés több munkaterületen is kezelhető. Más metaadattárak adataihoz a Delta Sharing használatával férhet hozzá.
Ha metaadattárszintű tárolót szeretne létrehozni, a metaadattár az előző lépésekben létrehozott tárolót és Azure-beli felügyelt identitást fogja használni.
Metaadattár létrehozása:
Ha metaadattárszintű tárolót szeretne létrehozni, győződjön meg arról, hogy rendelkezik a tároló elérési útjával és az Azure Databricks-hozzáférési összekötő erőforrás-azonosítójával, amelyet az előző feladatban hozott létre.
Jelentkezzen be a munkaterületre fiókadminisztrátorként.
Kattintson a felhasználónevére az Azure Databricks-munkaterület felső sávjában, és válassza a Fiók kezelése lehetőséget.
Jelentkezzen be az Azure Databricks-fiókkonzolra.
Kattintson a Katalógus gombra.
Kattintson a Metaadattár létrehozása elemre.
Adja meg a következőket:
A metaadattár neve .
Régió , ahol a metaadattár üzembe lesz helyezve.
Ennek ugyanabban a régióban kell lennie, mint az adatok eléréséhez használni kívánt munkaterületeknek. Ha úgy döntött, hogy létrehoz egy tárolót a metaadattárszintű tároláshoz, annak a régiónak is azonosnak kell lennie.
(Nem kötelező) ADLS Gen 2 elérési útja: Adja meg a metaadattár gyökértárolójaként használni kívánt tároló elérési útját.
A
abfss://
rendszer automatikusan hozzáadja az előtagot.(Nem kötelező) Hozzáférési Csatlakozás or azonosítója: Adja meg az Azure Databricks hozzáférési összekötő erőforrás-azonosítóját a következő formátumban:
/subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
Kattintson a Létrehozás gombra.
Amikor a rendszer kéri, válassza ki a metaadattárra hivatkozó munkaterületeket.
További részletekért lásd : Munkaterület engedélyezése a Unity Cataloghoz.
A metaadattár-rendszergazdai szerepkör áthelyezése egy csoportba.
A metaadattárat létrehozó felhasználó a tulajdonosa, más néven metaadattár-rendszergazda. A metaadattár rendszergazdája létrehozhat felső szintű objektumokat a metaadattárban, például katalógusokat, és kezelheti a táblákhoz és más objektumokhoz való hozzáférést. A Databricks azt javasolja, hogy rendelje hozzá újra a metaadattár-rendszergazdai szerepkört egy csoporthoz. Lásd: Metaadattár-rendszergazda hozzárendelése.
A felügyelt kötetekre való feltöltések Azure Databricks-felügyeletének engedélyezése.
Az Azure Databricks több forrásból származó erőforrás-megosztással (CORS) tölti fel az adatokat felügyelt kötetekre a Unity Catalogban. Lásd: Unity Catalog storage-fiók konfigurálása CORS-hoz.
Következő lépések
- Katalógusok létrehozása és kezelése
- Sémák (adatbázisok) létrehozása és kezelése
- Táblák létrehozása a Unity Katalógusban
- További információ a Unity Katalógusról
Felügyelt tároló hozzáadása meglévő metaadattárhoz
A metaadattárszintű felügyelt tároló nem kötelező, és nem tartalmazza az automatikusan létrehozott metaadattárak esetében. Ha olyan adatelkülönítési modellt szeretne, amely több munkaterületen központilag tárolja az adatokat, érdemes metaadattárszintű tárolót hozzáadni a metaadattárhoz. Metaadattárszintű tárolásra van szüksége, ha jegyzetfüzeteket szeretne megosztani a Delta Sharing használatával, vagy ha Ön azure Databricks-partner, aki személyes átmeneti helyeket használ.
Lásd még : Felügyelt tárterület.
Követelmények
- Legalább egy munkaterületnek hozzá kell kapcsolódnia a Unity Catalog metaadattárához.
- Azure Databricks-engedélyek szükségesek:
- Külső hely létrehozásához metaadattár-rendszergazdának vagy jogosultságokkal rendelkező
CREATE EXTERNAL LOCATION
CREATE STORAGE CREDENTIAL
felhasználónak kell lennie. - A tárhely metaadattár-definícióhoz való hozzáadásához fiókadminisztrátornak kell lennie. A fiókadminisztrátori szerepkör fiókbeli engedélyezésével kapcsolatos utasításokért lásd : Az első fiókadminisztrátor létrehozása.
- Külső hely létrehozásához metaadattár-rendszergazdának vagy jogosultságokkal rendelkező
- Azure-bérlői engedélyek szükségesek:
- Engedély tárfiók létrehozásához az Azure Data Lake Storage Gen2-vel való használatra. Ennek a tárfióknak hierarchikus névtérrel kell rendelkeznie. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.
- Engedély egy új erőforrás létrehozásához a rendszer által hozzárendelt felügyelt identitás tárolásához. Ehhez a bérlő bármely előfizetésében közreműködőnek vagy erőforráscsoport tulajdonosának kell lennie.
1. lépés: A tárolási hely létrehozása
Kövesse az 1. lépés utasításait (nem kötelező): Tároló létrehozása metaadattárszintű felügyelt tárolóhoz és 2. lépés (Nem kötelező): Felügyelt identitás létrehozása a felügyelt tároló helyéhez való hozzáféréshez egy tároló létrehozásához az Azure Data Lake Storage Gen2-ben és egy Azure Databricks hozzáférési összekötőben, amely rendelkezik a tárolóhoz hozzáféréssel rendelkező felügyelt identitással.
2. lépés: Külső hely létrehozása a Unity Katalógusban
Ebben a lépésben létrehoz egy külső helyet a Unity Katalógusban, amely az imént létrehozott ADLS Gen 2 elérési útra hivatkozik.
Hozzon létre egy tárolási hitelesítő adatot.
A tárolási hitelesítő adatok az 1. lépésben létrehozott Felügyelt Azure-identitást jelölik: A tárhely létrehozása.
Az Azure Data Lake Storage Gen2-hez való csatlakozáshoz kövesse a Tároló hitelesítő adatainak létrehozása című témakör utasításait.
Hozzon létre egy külső helyet, amely az előző lépésben létrehozott tárolási hitelesítő adatokra és az 1. lépésben létrehozott ADLS Gen 2 tárolóra hivatkozik: A tárolóhely létrehozása.
A felhőtárhely Azure Databrickshez való csatlakoztatásához kövesse a Külső hely létrehozása című témakör utasításait
Adjon magának
CREATE MANAGED STORAGE
jogosultságot a külső helyen.- A részletek panel megnyitásához kattintson a külső hely nevére.
- Az Engedélyek lapon kattintson az Engedélyezés gombra.
- A Támogatás párbeszédpanelen
<external location>
válassza ki magát az Egyszerűk mezőben, és válassza a lehetőségetCREATE MANAGED STORAGE
. - Kattintson a Grant gombra.
3. lépés: A tárhely hozzáadása a metaadattárhoz
Miután létrehozott egy külső helyet, amely a metaadattár-tároló gyűjtőt jelöli, hozzáadhatja azt a metaadattárhoz.
Fiókadminisztrátorként jelentkezzen be a fiókkonzolra.
Kattintson a Katalógus gombra.
Kattintson a metaadattár nevére.
Győződjön meg arról, hogy Ön a Metastore Rendszergazda.
Ha nem, kattintson a Szerkesztés gombra, és rendelje hozzá magát metaadattár-rendszergazdaként. Ha végzett ezzel az eljárással, megszüntetheti a hozzárendelést.
A Konfiguráció lap ADLS Gen 2 elérési útja mellett kattintson a Beállítás gombra.
A Metaadattár gyökér párbeszédpanelén adja meg a külső hely létrehozásához használt ADLS Gen 2 elérési útját, majd kattintson a Frissítés gombra.
Ezt az elérési utat a beállítás után nem módosíthatja.
Metaadattár törlése
Ha bezárja Azure Databricks-fiókját, vagy más oka van a Unity Catalog metaadattár által kezelt adatokhoz való hozzáférés törlésére, törölheti a metaadattárat.
Figyelmeztetés
A metaadattár által felügyelt összes objektum elérhetetlenné válik az Azure Databricks-munkaterületek használatával. Ez a művelet nem vonható vissza.
A felügyelt táblaadatok és metaadatok 30 nap után automatikusan törlődnek. A felhőbeli tárolóban lévő külső táblaadatokat nem érinti a metaadattár törlése.
Metaadattár törlése:
- Metaadattár-rendszergazdaként jelentkezzen be a fiókkonzolra.
- Kattintson a Katalógus gombra.
- Kattintson a metaadattár nevére.
- A Konfiguráció lapon kattintson a jobb felső sarokban található háromgombos menüre, és válassza a Törlés lehetőséget.
- A megerősítést kérő párbeszédpanelen adja meg a metaadattár nevét, és kattintson a Törlés gombra.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: