Share via


Unity Catalog-metaadattár létrehozása

Ez a cikk bemutatja, hogyan hozhat létre unitykatalógus-metaadattárat, és hogyan csatolhatja munkaterületekhez.

Fontos

A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében a cikkben szereplő utasítások szükségtelenek. A Databricks 2023. november 9-én kezdte el automatikusan engedélyezni a Unity Catalog új munkaterületeit, és a fiókok közötti bevezetés fokozatosan haladt. Csak akkor kövesse a cikkben leírt utasításokat, ha van munkaterülete, és még nem rendelkezik metaadattárval a munkaterület régiójában. Annak megállapításához, hogy egy metaadattár már létezik-e a régióban, tekintse meg a Unity Catalog automatikus engedélyezését.

A metaadattár a Unity Catalog adatainak legfelső szintű tárolója. A Unity Catalog metaadattárai metaadatokat regisztrálnak a biztonságos objektumokról (például táblákról, kötetekről, külső helyekről és megosztásokról), valamint az ezekhez való hozzáférést szabályozó engedélyekről. Minden metaadattár egy háromszintű névteret (catalog.schema.table) tesz elérhetővé, amellyel az adatok rendszerezhetők. Minden olyan régióhoz, ahol a szervezet működik, egy metaadattárat kell tartalmaznia. A Unity Catalog használatához a felhasználóknak olyan munkaterületen kell lenniük, amely a régiójukban található metaadattárhoz van csatolva.

Metaadattár létrehozásához tegye a következőket:

  1. Az Azure-fiókjában szükség esetén hozzon létre egy tárolóhelyet a felügyelt táblák és kötetek metaadattárszintű tárolásához.

    Ha szeretné eldönteni, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tárolólétrehozása és az adatok fizikailag elválasztva a tárolóban című témakört.

  2. Az Azure-fiókjában hozzon létre egy Azure-beli felügyelt identitást vagy szolgáltatásnevet, amely hozzáférést biztosít az adott tárolási helyhez.

  3. Az Azure Databricksben hozza létre a metaadattárat, csatolja a tárolási helyet, és rendeljen munkaterületeket a metaadattárhoz.

Feljegyzés

A cikkben ismertetett megközelítéseken kívül metaadattárat is létrehozhat a Databricks Terraform szolgáltatóval, különösen a databricks_metastore erőforrással. Ha engedélyezni szeretné a Unity Catalog számára a metaadattár elérését, használja a databricks_metastore_data_access. A munkaterületek metaadattárhoz való csatolásához használja a databricks_metastore_assignment.

Mielőtt elkezdené

Mielőtt hozzákezdene, ismerkedjen meg a Unity Catalog alapfogalmaival, beleértve a metaadattárakat és a felügyelt tárolókat. Lásd a Mi az a Unity katalógus? témakört.

Azt is ellenőriznie kell, hogy megfelel-e az összes beállítási lépésre vonatkozó alábbi követelményeknek:

  • Azure Databricks-fiókadminisztrátornak kell lennie.

    Az első Azure Databricks-fiók rendszergazdájának Microsoft Entra-azonosítónak (korábban Azure Active Directory) globális Rendszergazda istratornak kell lennie, amikor először bejelentkeznek az Azure Databricks-fiókkonzolba. Az első bejelentkezéskor a felhasználó Azure Databricks-fiók rendszergazdájává válik, és már nincs szüksége a Microsoft Entra ID Global Rendszergazda istrator szerepkörre az Azure Databricks-fiók eléréséhez. Az első fiókadminisztrátor további fiókadminisztrátorként további fiókadminisztrátorként rendelhet felhasználókat a Microsoft Entra ID-bérlőhöz (akik maguk is hozzárendelhetnek további fiókadminisztrátorokat). A további fiókadminisztrátoroknak nincs szükségük meghatározott szerepkörökre a Microsoft Entra-azonosítóban.

  • A metaadattárhoz csatolt munkaterületeknek az Azure Databricks Premium-csomagban kell lenniük.

  • Ha metaadattárszintű gyökértárolót szeretne beállítani, rendelkeznie kell a következők azure-bérlőben való létrehozásához szükséges engedéllyel:

    • Az Azure Data Lake Storage Gen2-vel használható tárfiók. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.
    • Egy új erőforrás, amely egy rendszer által hozzárendelt felügyelt identitást tárol. Ehhez a bérlő bármely előfizetésében közreműködőnek vagy erőforráscsoport tulajdonosának kell lennie.

1. lépés (nem kötelező): Tároló létrehozása metaadattárszintű felügyelt tárolóhoz

Ebben a lépésben, amely nem kötelező, létrehoz egy tárfiókot és egy tárolót a felügyelt tábla- és kötetadatok metaadattár szintjén való tárolásához. Annak megállapításához, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozása című témakört.

  1. Hozzon létre egy tárfiókot az Azure Data Lake Storage Gen2-hez.

    Ez a tárfiók a Unity Catalog által felügyelt táblákat és köteteket fogja tartalmazni. Ennek egy Azure Data Lake Storage Gen2-fióknak kell lennie ugyanabban a régióban, mint az Azure Databricks-munkaterületek. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.

  2. Hozzon létre egy tárolót, amely a metaadattár szintjén tárolja a felügyelt táblákat és kötetadatokat.

    Régiónként csak egy metaadattár hozható létre. Ugyanazt a régiót kell használnia a metaadattárhoz és a tárolóhoz.

    Ezt a metaadattárszintű tárolóhelyet felül lehet bírálni a katalógus és a séma szintjén. Lásd: Felügyelt tárterület.

    Jegyezze fel a tároló ADLSv2 URI-ját, amely a következő formátumban van:

    abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
    

    Az alábbi lépésekben cserélje le <storage-container> ezt az URI-t.

2. lépés (nem kötelező): Felügyelt identitás létrehozása a felügyelt tárhely eléréséhez

Ebben a lépésben, amely csak az 1. lépés elvégzése után szükséges, létre kell hoznia egy Azure Databricks hozzáférési összekötőt, amely egy felügyelt identitást tartalmaz, és hozzáférést biztosít a tárolóhoz.

Kövesse az Azure által felügyelt identitások használata a Unity Katalógusban a tárterület eléréséhez című témakör utasításait.

Feljegyzés

Használhat azure-beli felügyelt identitást vagy szolgáltatásnevet a metaadattár tárolójának hozzáférését biztosító identitásként. A Databricks határozottan javasolja a felügyelt identitásokat, mivel nem követelik meg a hitelesítő adatok karbantartását vagy a titkos kulcsok elforgatását, és lehetővé teszik, hogy egy storage tűzfallal védett Azure Data Lake Storage Gen2-fiókhoz csatlakozzon. Ha szolgáltatásnevet szeretne használni, olvassa el a Unity Catalog által felügyelt tároló létrehozása szolgáltatásnévvel (örökölt) című témakört.

3. lépés: A metaadattár létrehozása és munkaterület csatolása

Minden Azure Databricks-régióhoz saját Unity Catalog-metaadattár szükséges.

Minden olyan régióhoz létrehoz egy metaadattárat, amelyben a szervezet működik. Ezeket a regionális metaadattárakat tetszőleges számú munkaterülethez csatolhatja az adott régióban. Minden csatolt munkaterület ugyanazt a nézetet jeleníti meg a metaadattárban lévő adatokról, és az adathozzáférés-vezérlés több munkaterületen is kezelhető. Más metaadattárak adataihoz a Delta Sharing használatával férhet hozzá.

Ha metaadattárszintű tárolót szeretne létrehozni, a metaadattár az előző lépésekben létrehozott tárolót és Azure-beli felügyelt identitást fogja használni.

Metaadattár létrehozása:

  1. Ha metaadattárszintű tárolót szeretne létrehozni, győződjön meg arról, hogy rendelkezik a tároló elérési útjával és az Azure Databricks-hozzáférési összekötő erőforrás-azonosítójával, amelyet az előző feladatban hozott létre.

  2. Jelentkezzen be a munkaterületre fiókadminisztrátorként.

  3. Kattintson a felhasználónevére az Azure Databricks-munkaterület felső sávjában, és válassza a Fiók kezelése lehetőséget.

  4. Jelentkezzen be az Azure Databricks-fiókkonzolra.

  5. Kattintson a Katalógus gombraKatalógus ikon.

  6. Kattintson a Metaadattár létrehozása elemre.

  7. Adja meg a következőket:

    • A metaadattár neve .

    • Régió , ahol a metaadattár üzembe lesz helyezve.

      Ennek ugyanabban a régióban kell lennie, mint az adatok eléréséhez használni kívánt munkaterületeknek. Ha úgy döntött, hogy létrehoz egy tárolót a metaadattárszintű tároláshoz, annak a régiónak is azonosnak kell lennie.

    • (Nem kötelező) ADLS Gen 2 elérési útja: Adja meg a metaadattár gyökértárolójaként használni kívánt tároló elérési útját.

      A abfss:// rendszer automatikusan hozzáadja az előtagot.

    • (Nem kötelező) Hozzáférési Csatlakozás or azonosítója: Adja meg az Azure Databricks hozzáférési összekötő erőforrás-azonosítóját a következő formátumban:

      /subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
      
  8. Kattintson a Létrehozás gombra.

  9. Amikor a rendszer kéri, válassza ki a metaadattárra hivatkozó munkaterületeket.

    További részletekért lásd : Munkaterület engedélyezése a Unity Cataloghoz.

  10. A metaadattár-rendszergazdai szerepkör áthelyezése egy csoportba.

    A metaadattárat létrehozó felhasználó a tulajdonosa, más néven metaadattár-rendszergazda. A metaadattár rendszergazdája létrehozhat felső szintű objektumokat a metaadattárban, például katalógusokat, és kezelheti a táblákhoz és más objektumokhoz való hozzáférést. A Databricks azt javasolja, hogy rendelje hozzá újra a metaadattár-rendszergazdai szerepkört egy csoporthoz. Lásd: Metaadattár-rendszergazda hozzárendelése.

  11. A felügyelt kötetekre való feltöltések Azure Databricks-felügyeletének engedélyezése.

    Az Azure Databricks több forrásból származó erőforrás-megosztással (CORS) tölti fel az adatokat felügyelt kötetekre a Unity Catalogban. Lásd: Unity Catalog storage-fiók konfigurálása CORS-hoz.

Következő lépések

Felügyelt tároló hozzáadása meglévő metaadattárhoz

A metaadattárszintű felügyelt tároló nem kötelező, és nem tartalmazza az automatikusan létrehozott metaadattárak esetében. Ha olyan adatelkülönítési modellt szeretne, amely több munkaterületen központilag tárolja az adatokat, érdemes metaadattárszintű tárolót hozzáadni a metaadattárhoz. Metaadattárszintű tárolásra van szüksége, ha jegyzetfüzeteket szeretne megosztani a Delta Sharing használatával, vagy ha Ön azure Databricks-partner, aki személyes átmeneti helyeket használ.

Lásd még : Felügyelt tárterület.

Követelmények

  • Legalább egy munkaterületnek hozzá kell kapcsolódnia a Unity Catalog metaadattárához.
  • Azure Databricks-engedélyek szükségesek:
    • Külső hely létrehozásához metaadattár-rendszergazdának vagy jogosultságokkal rendelkező CREATE EXTERNAL LOCATIONCREATE STORAGE CREDENTIAL felhasználónak kell lennie.
    • A tárhely metaadattár-definícióhoz való hozzáadásához fiókadminisztrátornak kell lennie. A fiókadminisztrátori szerepkör fiókbeli engedélyezésével kapcsolatos utasításokért lásd : Az első fiókadminisztrátor létrehozása.
  • Azure-bérlői engedélyek szükségesek:
    • Engedély tárfiók létrehozásához az Azure Data Lake Storage Gen2-vel való használatra. Ennek a tárfióknak hierarchikus névtérrel kell rendelkeznie. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.
    • Engedély egy új erőforrás létrehozásához a rendszer által hozzárendelt felügyelt identitás tárolásához. Ehhez a bérlő bármely előfizetésében közreműködőnek vagy erőforráscsoport tulajdonosának kell lennie.

1. lépés: A tárolási hely létrehozása

Kövesse az 1. lépés utasításait (nem kötelező): Tároló létrehozása metaadattárszintű felügyelt tárolóhoz és 2. lépés (Nem kötelező): Felügyelt identitás létrehozása a felügyelt tároló helyéhez való hozzáféréshez egy tároló létrehozásához az Azure Data Lake Storage Gen2-ben és egy Azure Databricks hozzáférési összekötőben, amely rendelkezik a tárolóhoz hozzáféréssel rendelkező felügyelt identitással.

2. lépés: Külső hely létrehozása a Unity Katalógusban

Ebben a lépésben létrehoz egy külső helyet a Unity Katalógusban, amely az imént létrehozott ADLS Gen 2 elérési útra hivatkozik.

  1. Hozzon létre egy tárolási hitelesítő adatot.

    A tárolási hitelesítő adatok az 1. lépésben létrehozott Felügyelt Azure-identitást jelölik: A tárhely létrehozása.

    Az Azure Data Lake Storage Gen2-hez való csatlakozáshoz kövesse a Tároló hitelesítő adatainak létrehozása című témakör utasításait.

  2. Hozzon létre egy külső helyet, amely az előző lépésben létrehozott tárolási hitelesítő adatokra és az 1. lépésben létrehozott ADLS Gen 2 tárolóra hivatkozik: A tárolóhely létrehozása.

    A felhőtárhely Azure Databrickshez való csatlakoztatásához kövesse a Külső hely létrehozása című témakör utasításait

  3. Adjon magának CREATE MANAGED STORAGE jogosultságot a külső helyen.

    1. A részletek panel megnyitásához kattintson a külső hely nevére.
    2. Az Engedélyek lapon kattintson az Engedélyezés gombra.
    3. A Támogatás párbeszédpanelen <external location> válassza ki magát az Egyszerűk mezőben, és válassza a lehetőségetCREATE MANAGED STORAGE.
    4. Kattintson a Grant gombra.

3. lépés: A tárhely hozzáadása a metaadattárhoz

Miután létrehozott egy külső helyet, amely a metaadattár-tároló gyűjtőt jelöli, hozzáadhatja azt a metaadattárhoz.

  1. Fiókadminisztrátorként jelentkezzen be a fiókkonzolra.

  2. Kattintson a Katalógus gombraKatalógus ikon.

  3. Kattintson a metaadattár nevére.

  4. Győződjön meg arról, hogy Ön a Metastore Rendszergazda.

    Ha nem, kattintson a Szerkesztés gombra, és rendelje hozzá magát metaadattár-rendszergazdaként. Ha végzett ezzel az eljárással, megszüntetheti a hozzárendelést.

  5. A Konfiguráció lap ADLS Gen 2 elérési útja mellett kattintson a Beállítás gombra.

  6. A Metaadattár gyökér párbeszédpanelén adja meg a külső hely létrehozásához használt ADLS Gen 2 elérési útját, majd kattintson a Frissítés gombra.

    Ezt az elérési utat a beállítás után nem módosíthatja.

Metaadattár törlése

Ha bezárja Azure Databricks-fiókját, vagy más oka van a Unity Catalog metaadattár által kezelt adatokhoz való hozzáférés törlésére, törölheti a metaadattárat.

Figyelmeztetés

A metaadattár által felügyelt összes objektum elérhetetlenné válik az Azure Databricks-munkaterületek használatával. Ez a művelet nem vonható vissza.

A felügyelt táblaadatok és metaadatok 30 nap után automatikusan törlődnek. A felhőbeli tárolóban lévő külső táblaadatokat nem érinti a metaadattár törlése.

Metaadattár törlése:

  1. Metaadattár-rendszergazdaként jelentkezzen be a fiókkonzolra.
  2. Kattintson a Katalógus gombraKatalógus ikon.
  3. Kattintson a metaadattár nevére.
  4. A Konfiguráció lapon kattintson a jobb felső sarokban található háromgombos menüre, és válassza a Törlés lehetőséget.
  5. A megerősítést kérő párbeszédpanelen adja meg a metaadattár nevét, és kattintson a Törlés gombra.