Mi az a Unity katalógus?
Ez a cikk bemutatja a Unity Catalogot, amely a Databricks lakehouse-on található adatok és AI-eszközök egységes szabályozási megoldása.
A Unity-katalógus áttekintése
A Unity Catalog központosított hozzáférés-vezérlési, naplózási, adatfeltárási és adatfelderítési képességeket biztosít az Azure Databricks-munkaterületeken.
A Unity Catalog főbb funkciói a következők:
- Definiáljon egyszer, biztonságosan mindenhol: A Unity Catalog egyetlen helyet kínál az összes munkaterületre érvényes adathozzáférési szabályzatok felügyeletéhez.
- Szabványoknak megfelelő biztonsági modell: A Unity Catalog biztonsági modellje a szabványos ANSI SQL-en alapul, és lehetővé teszi a rendszergazdák számára, hogy a meglévő data lake-ben ismerős szintaxissal, katalógusok, adatbázisok (más néven sémák), táblák és nézetek szintjén adjanak engedélyeket.
- Beépített naplózás és leválasztás: A Unity Catalog automatikusan rögzíti az adatokhoz való hozzáférést rögzítő felhasználói szintű naplózási naplókat. A Unity Catalog emellett olyan életútadatokat is rögzít, amelyek nyomon követik az adategységek létrehozását és használatát minden nyelven.
- Adatfelderítés: A Unity-katalógus lehetővé teszi az adategységek címkézését és dokumentálást, valamint keresési felületet biztosít az adatfelhasználók számára az adatok megtalálásához.
- Rendszertáblák (nyilvános előzetes verzió): A Unity Catalog segítségével egyszerűen elérheti és lekérdezheti a fiók működési adatait, beleértve az auditnaplókat, a számlázható használatot és a leválasztást.
Hogyan szabályozza a Unity Catalog az adatokhoz és az AI-objektumokhoz való hozzáférést a felhőobjektum-tárolóban?
A Databricks azt javasolja, hogy a Unity Catalog használatával konfiguráljon minden hozzáférést a felhőobjektum-tárolóhoz. Lásd: Csatlakozás felhőbeli objektumtárba a Unity Catalog használatával.
A Unity Catalog a következő fogalmakat mutatja be az Azure Databricks és a felhőobjektum-tároló adatai közötti kapcsolatok kezeléséhez:
- A tárolási hitelesítő adatok hosszú távú felhőalapú hitelesítő adatokat foglalnak magában, amely hozzáférést biztosít a felhőbeli tárolókhoz. Például egy Felügyelt Azure-identitás , amely hozzáfér egy Azure Data Lake Storage Gen2-tárolóhoz vagy egy Cloudflare R2 API-jogkivonathoz. Lásd: Tároló hitelesítő adatainak létrehozása az Azure Data Lake Storage Gen2-hez való csatlakozáshoz, valamint egy tároló hitelesítő adatainak létrehozása a Cloudflare R2-hez való csatlakozáshoz.
- A külső helyek egy tárolási hitelesítő adatokra és egy felhőbeli tárolási útvonalra mutató hivatkozást tartalmaznak. Lásd: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.
- A felügyelt tárolási helyek egy Azure Data Lake Storage Gen2-tárolóban vagy Cloudflare R2-gyűjtőben lévő tárolóhelyet társítanak a saját felhőalapú tárfiókjában egy metaadattárhoz, katalógushoz vagy sémához. A felügyelt tárolóhelyek a felügyelt táblák és felügyelt kötetek alapértelmezett tárolási helyeként szolgálnak. Lásd: Felügyelt tárhely megadása a Unity Katalógusban.
- A kötetek hozzáférést biztosítanak a felhőobjektum-tárolóban tárolt nem táblázatos adatokhoz. Lásd: Kötetek létrehozása és létrehozása.
- A táblák hozzáférést biztosítanak a felhőalapú objektumtárolóban tárolt táblázatos adatokhoz.
Feljegyzés
A Lakehouse Federation integrációt biztosít más külső rendszerek adataihoz. Ezeket az objektumokat nem a felhőbeli objektumtárolók biztosítják.
A Unity Catalog objektummodellje
A Unity Catalogban az elsődleges adatobjektumok hierarchiája metaadattárból táblázatba vagy kötetbe áramlik:
- Metaadattár: A metaadatok legfelső szintű tárolója. Minden metaadattár egy háromszintű névteret (
catalog
..schema
table
) tesz elérhetővé, amely rendszerezi az adatokat. - Katalógus: Az objektumhierarchia első rétege, amely az adategységek rendszerezésére szolgál.
- Séma: Az adatbázisoknak is nevezett sémák az objektumhierarchia második rétegét képezik, és táblákat és nézeteket tartalmaznak.
- Táblák, nézetek és kötetek: Az adatobjektum-hierarchia legalacsonyabb szintjén táblák, nézetek és kötetek találhatók. A kötetek nem táblázatos adatok szabályozását biztosítják.
- Modellek: Bár szigorúan véve nem adategységek, a regisztrált modellek a Unity Katalógusban is kezelhetők, és az objektumhierarchiában a legalacsonyabb szinten találhatók.
Ez a biztonságos Unity Catalog-objektumok egyszerűsített nézete. További részletekért lásd : Biztonságos objektumok a Unity Katalógusban.
A Unity Catalog összes adatára háromszintű névtér használatával hivatkozhat: catalog.schema.asset
ahol asset
tábla, nézet, kötet vagy modell lehet.
Metaadattárak
A metaadattár a Unity Catalog objektumainak legfelső szintű tárolója. Regisztrálja az adatok és az AI-eszközök metaadatait, valamint az azokhoz való hozzáférést szabályozó engedélyeket. Az Azure Databricks-fiók rendszergazdáinak létre kell hozniuk egy metaadattárat minden olyan régióhoz, amelyben működnek, és hozzárendelik őket az ugyanabban a régióban található Azure Databricks-munkaterületekhez. Ahhoz, hogy egy munkaterület a Unity Catalogot használja, egy Unity Catalog-metaadattárat kell csatolnia.
A metaadattárak igény szerint konfigurálhatók felügyelt tárolóhelyekkel egy Azure Data Lake Storage Gen2-tárolóban vagy a Cloudflare R2-gyűjtőben a saját felhőalapú tárfiókjában. Lásd: Felügyelt tárterület.
Feljegyzés
Ez a metaadattár különbözik az Azure Databricks-munkaterületeken található Hive-metaadattártól, amelyek nem lettek engedélyezve a Unity Cataloghoz. Ha a munkaterület egy régi Hive-metaadattárat tartalmaz, a metaadattárban lévő adatok továbbra is elérhetők lesznek a Unity Catalogban definiált adatok mellett egy katalógusban hive_metastore
. Vegye figyelembe, hogy a hive_metastore
katalógust nem a Unity Katalógus kezeli, és nem élvezi ugyanazt a funkciókészletet, mint a Unity Katalógusban definiált katalógusok.
Lásd: Unity Catalog-metaadattár létrehozása.
Katalógusok
A katalógus a Unity Catalog háromszintű névterének első rétege. Az adategységek rendszerezésére szolgál. A felhasználók megtekinthetik az összes katalógust, amelyhez adatengedélyt rendeltek.USE CATALOG
Attól függően, hogy a munkaterület hogyan lett létrehozva és engedélyezve a Unity Catalogban, előfordulhat, hogy a felhasználók alapértelmezett engedélyekkel rendelkeznek az automatikusan kiépített katalógusokhoz, beleértve a main
katalógust vagy a munkaterület katalógusát (<workspace-name>
). További információ: Alapértelmezett felhasználói jogosultságok.
Lásd: Katalógusok létrehozása és kezelése.
Sémák
A séma (más néven adatbázis) a Unity Catalog háromszintű névterének második rétege. A séma táblákat és nézeteket rendszerez. A felhasználók megtekinthetik az összes sémát, amelyhez az engedélyt hozzárendelték USE SCHEMA
, valamint a USE CATALOG
séma szülőkatalógusának engedélyét. Ha egy táblát vagy nézetet egy sémában szeretne elérni vagy listázni, a felhasználóknak a táblára vagy nézetre vonatkozó engedéllyel is rendelkezniük SELECT
kell.
Ha a munkaterület manuálisan lett engedélyezve a Unity-katalógushoz, a katalógusban main
elnevezett default
alapértelmezett sémát tartalmaz, amely a munkaterület összes felhasználója számára elérhető. Ha a munkaterület automatikusan engedélyezve lett a Unity Cataloghoz, és tartalmaz egy katalógust <workspace-name>
, akkor a katalógus tartalmaz egy sémát default
, amely a munkaterület összes felhasználója számára elérhető.
Lásd: Sémák (adatbázisok) létrehozása és kezelése.
Táblázatok
Egy tábla a Unity Catalog háromszintű névterének harmadik rétegében található. Adatsorokat tartalmaz. Tábla létrehozásához a felhasználóknak rendelkezniük CREATE
kell a sémával és USE SCHEMA
engedélyekkel, és rendelkezniük kell a USE CATALOG
szülőkatalógus engedélyével. A táblák lekérdezéséhez a felhasználóknak rendelkezniük kell a SELECT
táblára vonatkozó engedéllyel, a USE SCHEMA
szülőséma engedélyével és a USE CATALOG
szülőkatalógus engedélyével.
Egy tábla felügyelhető vagy külső is lehet.
Felügyelt táblák
A felügyelt táblák az alapértelmezett módszer táblák létrehozására a Unity Catalogban. A Unity Catalog kezeli a táblák életciklusát és fájlelrendezését. Ne használjon az Azure Databricksen kívüli eszközöket az ezekben a táblákban lévő fájlok közvetlen kezeléséhez. A felügyelt táblák mindig a Delta táblaformátumot használják.
A Unity Cataloghoz manuálisan engedélyezett munkaterületek esetében a felügyelt táblák a metaadattár létrehozásakor konfigurált gyökértárhelyen lesznek tárolva. A felügyelt táblatárolási helyeket igény szerint a katalógus vagy a séma szintjén is megadhatja, felülírva a gyökértároló helyét.
A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében a metaadattár gyökértárolójának helye nem kötelező, a felügyelt táblák pedig általában a katalógus vagy séma szintjén vannak tárolva.
A felügyelt táblák elvetésekor a mögöttes adatok 30 napon belül törlődnek a felhőbeli bérlőből.
Lásd: Felügyelt táblák.
Külső táblák
A külső táblák olyan táblák, amelyek adatéletciklusát és fájlelrendezését nem a Unity Catalog kezeli. Külső táblák használatával nagy mennyiségű meglévő adatot regisztrálhat a Unity Catalogban, vagy ha közvetlen hozzáférést igényel az adatokhoz az Azure Databricks-fürtökön vagy a Databricks SQL-tárolókon kívüli eszközökkel.
Külső tábla elvetésekor a Unity Catalog nem törli az alapul szolgáló adatokat. A külső táblák jogosultságait ugyanúgy kezelheti és használhatja a lekérdezésekben, mint a felügyelt táblákat.
A külső táblák a következő fájlformátumokat használhatják:
- DELTA
- CSV
- JSON
- AVRO
- PARKETTA
- ORK
- SZÖVEG
Lásd: Külső táblák.
Kilátás nyílik
A nézet egy metaadattár egy vagy több táblájából és nézetéből létrehozott írásvédett objektum. A Unity Catalog háromszintű névterének harmadik rétegében található. Több sémában és katalógusban lévő táblákból és más nézetekből is létrehozhat nézetet. Dinamikus nézeteket hozhat létre a sor- és oszlopszintű engedélyek engedélyezéséhez.
Lásd: Dinamikus nézet létrehozása.
Kötetek
A kötet a Unity Catalog háromszintű névterének harmadik rétegében található. A kötetek a Unity Catalog sémája szerint rendszerezett táblákhoz, nézetekhez és egyéb objektumokhoz tartoznak.
A kötetek bármilyen formátumban tárolt adatok könyvtárait és fájljait tartalmazzák. A kötetek nem táblázatos hozzáférést biztosítanak az adatokhoz, ami azt jelenti, hogy a kötetekben lévő fájlok nem regisztrálhatók táblákként.
- Kötet létrehozásához a felhasználóknak rendelkezniük
CREATE VOLUME
kell a sémával ésUSE SCHEMA
engedélyekkel, és rendelkezniük kell aUSE CATALOG
szülőkatalógus engedélyével. - A köteten belül tárolt fájlok és könyvtárak olvasásához a felhasználóknak rendelkezniük kell az
READ VOLUME
engedéllyel, aUSE SCHEMA
szülőséma engedélyével és aUSE CATALOG
szülőkatalógus engedélyével. - A köteten belül tárolt fájlok és könyvtárak hozzáadásához, eltávolításához vagy módosításához a felhasználóknak engedéllyel, a
USE SCHEMA
szülőséma engedélyével és aUSE CATALOG
szülőkatalógus engedélyével kell rendelkezniükWRITE VOLUME
.
A kötetek kezelhetők vagy külsők is lehetnek.
Feljegyzés
Kötet definiálásakor a kötet elérési útján lévő adatokhoz való felhőalapú URI-hozzáférést a kötet engedélyei szabályozzák.
Felügyelt kötetek
A felügyelt kötetek kényelmes megoldást jelentenek, ha szabályozott helyet szeretne kiépíteni a nem táblázatos fájlok használatához.
A felügyelt kötetek a unitykatalógus alapértelmezett tárolási helyén tárolják a fájlokat ahhoz a sémához, amelyben azok találhatók. A Unity Cataloghoz manuálisan engedélyezett munkaterületek esetében a felügyelt kötetek a metaadattár létrehozásakor konfigurált gyökértárhelyen lesznek tárolva. A felügyelt kötettárhelyeket igény szerint a katalógus vagy a séma szintjén is megadhatja, felülírva a gyökértároló helyét. A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében a metaadattár gyökértárolójának helye nem kötelező, a felügyelt kötetek pedig általában a katalógus vagy séma szintjén vannak tárolva.
A felügyelt kötetek helyét a következő sorrend szabályozza:
- Séma helye
- Katalógus helye
- Unity Catalog metaadattár gyökértároló helye
Felügyelt kötet törlésekor a kötetben tárolt fájlok is törlődnek a felhőbeli bérlőről 30 napon belül.
Lásd : Mi az a felügyelt kötet?.
Külső kötetek
Egy külső kötet regisztrálva van egy Unity-katalógus külső helyére, és adatmigrálás nélkül biztosít hozzáférést a felhőbeli tárolóban lévő meglévő fájlokhoz. A külső kötet létrehozásához a CREATE EXTERNAL VOLUME
felhasználóknak engedéllyel kell rendelkezniük a külső helyen.
A külső kötetek olyan forgatókönyveket támogatnak, amelyekben a fájlokat más rendszerek állítják elő, és az Azure Databricksen belülről, objektumtárolással, vagy az Azure Databricksen kívüli eszközök közvetlen fájlhozzáféréshez szükségesek.
A Unity Catalog nem kezeli a külső kötetekben lévő fájlok életciklusát és elrendezését. Külső kötet elvetésekor a Unity Catalog nem törli a mögöttes adatokat.
Lásd: Mi az a külső kötet?.
Modellek
A modell a Unity Catalog háromszintű névterének harmadik rétegében található. Ebben az összefüggésben a "modell" egy olyan gépi tanulási modellre utal, amely az MLflow-modellregisztrációs adatbázisban van regisztrálva. Ha modellt szeretne létrehozni a Unity Catalogban, a felhasználóknak rendelkezniük kell a CREATE MODEL
katalógushoz vagy sémához szükséges jogosultsággal. A felhasználónak rendelkeznie kell a USE CATALOG
szülőkatalógusban és USE SCHEMA
a szülőséma jogosultságával is.
Felügyelt tárterület
A felügyelt táblákat és felügyelt köteteket ezen szintek bármelyikén tárolhatja a Unity Catalog objektumhierarchiájában: metaadattárban, katalógusban vagy sémában. A hierarchia alacsonyabb szintjein történő tárolás felülbírálja a magasabb szinteken definiált tárolást.
Amikor egy fiókadminisztrátor manuálisan hoz létre egy metaadattárat, lehetősége van egy tárolóhely hozzárendelésére egy Azure Data Lake Storage Gen2-tárolóban vagy a Cloudflare R2-gyűjtőben a saját felhőalapú tárfiókjában, hogy metaadattárszintű tárolóként használhassa a felügyelt táblákhoz és kötetekhez. Ha metaadattárszintű felügyelt tárolóhely van hozzárendelve, akkor a katalógus és a sémaszintek felügyelt tárolási helyei nem kötelezőek. Ennek ellenére a metaadattárszintű tárolás nem kötelező, a Databricks pedig azt javasolja, hogy a katalógus szintjén rendeljen hozzá felügyelt tárterületet a logikai adatok elkülönítéséhez. Lásd az adatszabályozás és az adatelkülönítés építőelemét.
Fontos
Ha a munkaterület automatikusan engedélyezve lett a Unity Cataloghoz, a Unity Catalog metaadattár metaadattár-szintű felügyelt tár nélkül lett létrehozva. Dönthet úgy, hogy metaadattárszintű tárolót ad hozzá, de a Databricks azt javasolja, hogy a katalógus és a séma szintjén rendeljen hozzá felügyelt tárterületet. Ha segítségre van szüksége a metaadattárszintű tárolás szükségességéről, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozását, és az adatok fizikailag elkülönülnek a tárolóban.
A felügyelt tároló a következő tulajdonságokkal rendelkezik:
- A felügyelt táblák és felügyelt kötetek az adatokat és metaadatfájlokat felügyelt tárolóban tárolják.
- A felügyelt tárolóhelyek nem fedhetők át külső táblákkal vagy külső kötetekkel.
Az alábbi táblázat a felügyelt tároló deklarálását és a Unity Catalog-objektumokhoz való társítás módját ismerteti:
Társított Unity Catalog-objektum | Beállítás | Külső helyekkel való kapcsolat |
---|---|---|
Metaadattár | A fiókadminisztrátor a metaadattár létrehozásakor vagy a metaadattár létrehozása után lett konfigurálva, ha a létrehozáskor nem adott meg tárterületet. | Külső hely nem fedhető át. |
Katalógus | A katalógus létrehozásakor a MANAGED LOCATION kulcsszó használatával van megadva. |
Külső helyen kell tárolni. |
Séma | A séma létrehozásakor a MANAGED LOCATION kulcsszó használatával van megadva. |
Külső helyen kell tárolni. |
A felügyelt táblák és felügyelt kötetek adatainak és metaadatainak tárolására használt felügyelt tárolóhely a következő szabályokat használja:
- Ha a séma tartalmaz egy felügyelt helyet, az adatok a séma által felügyelt helyen lesznek tárolva.
- Ha a tartalmazó séma nem rendelkezik felügyelt hellyel, de a katalógus rendelkezik felügyelt hellyel, az adatok a katalógus által felügyelt helyen lesznek tárolva.
- Ha sem az azt tartalmazó séma, sem az azt tartalmazó katalógus nem rendelkezik felügyelt hellyel, az adatok a metaadattár által felügyelt helyen lesznek tárolva.
Tárolási hitelesítő adatok és külső helyek
A külső táblákhoz, külső kötetekhez és felügyelt tárolókhoz tartozó mögöttes felhőalapú tárolóhoz való hozzáférés kezeléséhez a Unity Catalog a következő objektumtípusokat használja:
- A tárolási hitelesítő adatok olyan hosszú távú felhőalapú hitelesítő adatokat foglalnak magában, amelyek hozzáférést biztosítanak a felhőbeli tárolókhoz, például egy Azure-beli felügyelt identitáshoz , amely hozzáfér egy Azure Data Lake Storage Gen2-tárolóhoz vagy egy Cloudflare R2 API-jogkivonathoz. Lásd: Tároló hitelesítő adatainak létrehozása az Azure Data Lake Storage Gen2-hez való csatlakozáshoz, valamint egy tároló hitelesítő adatainak létrehozása a Cloudflare R2-hez való csatlakozáshoz.
- A külső helyek egy tárolási hitelesítő adatokra és egy felhőbeli tárolási útvonalra mutató hivatkozást tartalmaznak.
Lásd: Csatlakozás felhőbeli objektumtárba a Unity Catalog használatával.
Identitáskezelés a Unity Katalógushoz
A Unity Catalog az Azure Databricks-fiók identitásait használja a felhasználók, szolgáltatásnevek és csoportok feloldásához és az engedélyek kikényszerítéséhez.
A fiók identitásainak konfigurálásához kövesse a Felhasználók, szolgáltatásnevek és csoportok kezelése című témakör utasításait. Tekintse meg ezeket a felhasználókat, szolgáltatásneveket és csoportokat, amikor hozzáférés-vezérlési szabályzatokat hoz létre a Unity Catalogban.
A Unity Catalog felhasználóit, szolgáltatásneveit és csoportjait is hozzá kell adni a munkaterületekhez, hogy hozzáférjenek a Unity Catalog adataihoz egy jegyzetfüzetben, egy Databricks SQL-lekérdezésben, a Catalog Explorerben vagy egy REST API-parancsban. A felhasználók, szolgáltatásnevek és csoportok munkaterületekhez való hozzárendelését identitás-összevonásnak nevezzük.
Minden olyan munkaterület, amelyhez Unity Catalog-metaadattár van csatolva, engedélyezve van az identitás-összevonáshoz.
A csoportokra vonatkozó speciális szempontok
A munkaterületen már létező csoportok a fiókkonzol helyi munkaterületeként vannak megjelölve. Ezek a munkaterület-helyi csoportok nem használhatók a Unity Katalógusban hozzáférési szabályzatok definiálására. Fiókszintű csoportokat kell használnia. Ha egy parancs egy munkaterület-helyi csoportra hivatkozik, az a parancs hibát ad vissza, amely szerint a csoport nem található. Ha korábban munkaterület-helyi csoportokkal kezelte a jegyzetfüzetekhez és más összetevőkhöz való hozzáférést, ezek az engedélyek érvényben maradnak.
Lásd: Csoportok kezelése.
a Unity Catalog Rendszergazda szerepkörei
A Unity-katalógus kezeléséhez fiókadminisztrátorokat, metaadattár-rendszergazdákat és munkaterület-rendszergazdákat is bevonnak:
Lásd Rendszergazda jogosultságokat a Unity Katalógusban.
Adatengedélyek a Unity Katalógusban
A Unity Catalogban az adatok alapértelmezés szerint biztonságosak. A felhasználók kezdetben nem férnek hozzá a metaadattárban lévő adatokhoz. A hozzáférést a metaadattár rendszergazdája, egy objektum tulajdonosa, vagy az objektumot tartalmazó katalógus vagy séma tulajdonosa is engedélyezheti. A Unity Catalog biztonságos objektumai hierarchikusak, a jogosultságok pedig lefelé öröklődnek.
Engedélyeket rendelhet hozzá és vonhat vissza a Catalog Explorer, az SQL-parancsok vagy a REST API-k használatával.
Lásd: Jogosultságok kezelése a Unity Katalógusban.
A Unity Catalog támogatott számítási és fürthozzáférési módjai
A Unity Catalog a Databricks Runtime 11.3 LTS-t vagy újabb verzióját futtató fürtökön támogatott. A Unity Catalog alapértelmezés szerint minden SQL Warehouse számítási verzióban támogatott.
A Databricks Runtime korábbi verzióiban futó fürtök nem támogatják a Unity Catalog GA összes funkcióját és funkcióját.
A Unity Catalogban az adatok eléréséhez a fürtöket a megfelelő hozzáférési móddal kell konfigurálni. A Unity Katalógus alapértelmezés szerint biztonságos. Ha egy fürt nincs konfigurálva a Unity-Catalog-kompatibilis (azaz megosztott vagy hozzárendelt) hozzáférési módok egyikével, a fürt nem fér hozzá az adatokhoz a Unity Catalogban. Lásd: Hozzáférési módok.
Az egyes Databricks Runtime-verziókban a Unity Catalog funkcióinak változásaival kapcsolatos részletes információkért tekintse meg a kibocsátási megjegyzéseket.
A Unity Catalog korlátozásai a hozzáférési módtól és a Databricks Runtime-verziótól függően változnak. Lásd a Unity Catalog számítási hozzáférési módra vonatkozó korlátozásait.
A Unity-katalógus adatsorai
A Unity Catalog használatával bármilyen, Azure Databricks-fürtön vagy SQL Warehouse-on végrehajtott nyelven rögzítheti a futtatókörnyezeti adatsorokat a lekérdezések között. A rendszer az oszlopszintig rögzíti a sorokat, és a lekérdezéshez kapcsolódó jegyzetfüzeteket, munkafolyamatokat és irányítópultokat is tartalmaz. További információ: Adatsor rögzítése és megtekintése a Unity Catalog használatával.
Lakehouse Federation és Unity Catalog
A Lakehouse Federation az Azure Databricks lekérdezés-összevonási platformja. A lekérdezési összevonás kifejezés olyan funkciók gyűjteményét ismerteti, amelyek lehetővé teszik a felhasználók és a rendszerek számára, hogy lekérdezéseket futtasson több silózott adatforráson anélkül, hogy az összes adatot egységes rendszerbe kellene migrálniuk.
Az Azure Databricks a Unity Catalog használatával kezeli a lekérdezések összevonását. A Unity Catalog használatával írásvédett kapcsolatokat konfigurálhat a népszerű külső adatbázisrendszerekhez, és külső adatbázisokat tükröző idegen katalógusokat hozhat létre. A Unity Catalog adatszabályozási és adatleágazási eszközei biztosítják, hogy az adathozzáférés kezelése és naplózása a felhasználók által az Azure Databricks-munkaterületeken végzett összes összevont lekérdezés esetében történjen.
Lásd : Mi az a Lakehouse Federation.
Hogyan állítsa be a Unity Katalógust a szervezetem számára?
A Unity-katalógus beállításáról a Unity-katalógus beállítása és kezelése című témakörben olvashat.
Támogatott régiók
Minden régió támogatja a Unity Catalogot. További részletekért tekintse meg az Azure Databricks-régiókat.
Támogatott adatfájlformátumok
A Unity Catalog a következő táblázatformátumokat támogatja:
- A felügyelt tábláknak a táblaformátumot
delta
kell használniuk. - A külső táblák használhatják
delta
a ,CSV
,JSON
,avro
,parquet
vagytext
ORC
.
A Unity-katalógus korlátozásai
A Unity Catalogra az alábbi korlátozások vonatkoznak.
Feljegyzés
Ha a fürt a Databricks Runtime 11.3 LTS alatti verzióján fut, előfordulhat, hogy további korlátozások is vannak, és nem szerepel a listán. A Unity Catalog a Databricks Runtime 11.3 LTS vagy újabb verziójában támogatott.
A Unity Catalog korlátozásai a Databricks futtatókörnyezetétől és a hozzáférési módtól függően változnak. A strukturált streamelési számítási feladatok további korlátozásokkal rendelkeznek a Databricks Futtatókörnyezet és a hozzáférési mód alapján. Lásd a Unity Catalog számítási hozzáférési módra vonatkozó korlátozásait.
Az R számítási feladatai nem támogatják a dinamikus nézetek használatát sorszintű vagy oszlopszintű biztonsághoz.
A Databricks Runtime 13.3 LTS-ben és újabb verziókban a sekély klónok támogatják a Unity Catalog által felügyelt táblák létrehozását a meglévő Unity Catalog által felügyelt táblákból. A Databricks Runtime 12.2 LTS-ben és az alábbi verziókban a Unity Catalog nem támogatja a sekély klónokat. Lásd: Shallow clone for Unity Catalog tables.
A gyűjtőzés nem támogatott a Unity Catalog-táblák esetében. Ha olyan parancsokat futtat, amelyek egy gyűjtős táblát próbálnak létrehozni a Unity Catalogban, az kivételt okoz.
Ha több régió munkaterületéről ugyanarra az útvonalra vagy Delta Lake-táblára ír, az megbízhatatlan teljesítményhez vezethet, ha egyes fürtök hozzáférnek a Unity Katalógushoz, míg mások nem.
A parancsokkal
ALTER TABLE ADD PARTITION
létrehozott egyéni partíciós sémák nem támogatottak a Unity Catalog tábláiban. A Unity Catalog könyvtárstílusú particionálást használó táblákhoz férhet hozzá.A DataFrame írási műveleteinek felülírási módja a Unity Catalogban csak Delta-táblák esetében támogatott, más fájlformátumok esetében nem. A felhasználónak rendelkeznie kell a
CREATE
szülőséma jogosultságával, és a meglévő objektum tulajdonosának kell lennie, vagy rendelkeznie kell azMODIFY
objektum jogosultságával.A Databricks Runtime 13.3 LTS és újabb verziókban a Python skaláris UDF-ek támogatottak. A Databricks Runtime 12.2 LTS-ben és az alábbi verziókban nem használhat Python UDF-eket, beleértve az UDAF-eket, az UDTF-eket és a Pandas-t a Sparkon (
applyInPandas
ésmapInPandas
).A Databricks Runtime 14.2 és újabb verziókban a Scala skaláris UDF-jei támogatottak a megosztott fürtökön. A Databricks Runtime 14.1 és újabb verzióban az összes Scala UDF nem támogatott megosztott fürtökön.
A korábban munkaterületen (azaz munkaterületszintű csoportokban) létrehozott csoportok nem használhatók a Unity Catalog GRANT utasításaiban. Ennek célja, hogy egységes nézetet biztosítson a munkaterületeken átnyúló csoportokról. Ha csoportokat szeretne használni a GRANT-utasításokban, hozza létre a csoportokat a fiók szintjén, és frissítse az egyszerű vagy csoportkezelés automatizálását (például SCIM, Okta és Microsoft Entra ID (korábbi nevén Azure Active Directory) összekötőket és Terraformot), hogy a fiókvégpontokra hivatkozzon munkaterület-végpontok helyett. Lásd a fiókcsoportok és a munkaterület helyi csoportjai közötti különbséget.
A standard Scala-szálkészletek nem támogatottak. Ehelyett használja például a speciális szálkészleteket
org.apache.spark.util.ThreadUtils
org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool
. A következő szálkészletekThreadUtils
azonban nem támogatottak:ThreadUtils.newForkJoinPool
és egyetlen szálkészlet semScheduledExecutorService
.A naplózás csak a munkaterület szintjén támogatott Unity Catalog-események esetében. A fiók szintjén, munkaterületre való hivatkozás nélkül zajló események, például metaadattár létrehozása, nem lesznek naplózva.
A Unity Catalog összes objektumnevére az alábbi korlátozások vonatkoznak:
- Az objektumnevek legfeljebb 255 karakter hosszúságúak lehetnek.
- A következő speciális karakterek nem engedélyezettek:
- Időszak (
.
) - Szóköz (
- Perjel (
/
) - Minden ASCII vezérlőkarakterek (00-1F hexa)
- A DELETE karakter (7F hexa)
- Időszak (
- A Unity Catalog az összes objektumnevet kisbetűsként tárolja.
- Ha UC-nevekre hivatkozik az SQL-ben, akkor a speciális karaktereket, például kötőjeleket (
-
kötőjeleket) tartalmazó nevek feloldásához háttértitkokat kell használnia.
Feljegyzés
Az oszlopnevek speciális karaktereket is használhatnak, de ha speciális karaktereket használnak, a nevet minden SQL-utasításban háttérrel kell megszűrni. A Unity Catalog megőrzi az oszlopnévházat, de a Unity Catalog-táblák lekérdezései nem érzéketlenek.
A Unity Catalog modelljeire további korlátozások vonatkoznak. Lásd a Unity Catalog támogatásának korlátait.
Erőforráskvóták
A Unity katalógus minden védendő objektumra erőforráskvótákat kényszerít rá. A korlátozások ugyanazt a hierarchikus szervezetet tartják tiszteletben a Unity katalógusban. Ha várhatóan túllépi ezeket az erőforráskorlátokat, forduljon az Azure Databricks-fiók csapatához.
Az alábbi kvótaértékek a szülő (vagy nagyszülő) objektumhoz viszonyítva vannak kifejezve a Unity katalógusban.
Objektum | Parent | Érték |
---|---|---|
table | schema | 10000 |
table | metaadattár | 100 000 |
kötet | schema | 10000 |
függvény | schema | 10000 |
regisztrált modell | schema | 1000 |
regisztrált modell | metaadattár | 5000 |
modellverzió | regisztrált modell | 10000 |
modellverzió | metaadattár | 100 000 |
schema | katalógus | 10000 |
katalógus | metaadattár | 1000 |
kapcsolat | metaadattár | 1000 |
tároló hitelesítő adatai | metaadattár | 200 |
külső hely | metaadattár | 500 |
A deltamegosztási korlátokat az erőforráskvótákban találhatja meg.