Mi az a Unity katalógus?

Ez a cikk bemutatja a Unity Catalogot, amely a Databricks lakehouse-on található adatok és AI-eszközök egységes szabályozási megoldása.

A Unity-katalógus áttekintése

A Unity Catalog központosított hozzáférés-vezérlési, naplózási, adatfeltárási és adatfelderítési képességeket biztosít az Azure Databricks-munkaterületeken.

Unity Catalog-diagram

A Unity Catalog főbb funkciói a következők:

  • Definiáljon egyszer, biztonságosan mindenhol: A Unity Catalog egyetlen helyet kínál az összes munkaterületre érvényes adathozzáférési szabályzatok felügyeletéhez.
  • Szabványoknak megfelelő biztonsági modell: A Unity Catalog biztonsági modellje a szabványos ANSI SQL-en alapul, és lehetővé teszi a rendszergazdák számára, hogy a meglévő data lake-ben ismerős szintaxissal, katalógusok, adatbázisok (más néven sémák), táblák és nézetek szintjén adjanak engedélyeket.
  • Beépített naplózás és leválasztás: A Unity Catalog automatikusan rögzíti az adatokhoz való hozzáférést rögzítő felhasználói szintű naplózási naplókat. A Unity Catalog emellett olyan életútadatokat is rögzít, amelyek nyomon követik az adategységek létrehozását és használatát minden nyelven.
  • Adatfelderítés: A Unity-katalógus lehetővé teszi az adategységek címkézését és dokumentálást, valamint keresési felületet biztosít az adatfelhasználók számára az adatok megtalálásához.
  • Rendszertáblák (nyilvános előzetes verzió): A Unity Catalog segítségével egyszerűen elérheti és lekérdezheti a fiók működési adatait, beleértve az auditnaplókat, a számlázható használatot és a leválasztást.

Hogyan szabályozza a Unity Catalog az adatokhoz és az AI-objektumokhoz való hozzáférést a felhőobjektum-tárolóban?

A Databricks azt javasolja, hogy a Unity Catalog használatával konfiguráljon minden hozzáférést a felhőobjektum-tárolóhoz. Lásd: Csatlakozás felhőbeli objektumtárba a Unity Catalog használatával.

A Unity Catalog a következő fogalmakat mutatja be az Azure Databricks és a felhőobjektum-tároló adatai közötti kapcsolatok kezeléséhez:

Feljegyzés

A Lakehouse Federation integrációt biztosít más külső rendszerek adataihoz. Ezeket az objektumokat nem a felhőbeli objektumtárolók biztosítják.

A Unity Catalog objektummodellje

A Unity Catalogban az elsődleges adatobjektumok hierarchiája metaadattárból táblázatba vagy kötetbe áramlik:

  • Metaadattár: A metaadatok legfelső szintű tárolója. Minden metaadattár egy háromszintű névteret (catalog..schematable) tesz elérhetővé, amely rendszerezi az adatokat.
  • Katalógus: Az objektumhierarchia első rétege, amely az adategységek rendszerezésére szolgál.
  • Séma: Az adatbázisoknak is nevezett sémák az objektumhierarchia második rétegét képezik, és táblákat és nézeteket tartalmaznak.
  • Táblák, nézetek és kötetek: Az adatobjektum-hierarchia legalacsonyabb szintjén táblák, nézetek és kötetek találhatók. A kötetek nem táblázatos adatok szabályozását biztosítják.
  • Modellek: Bár szigorúan véve nem adategységek, a regisztrált modellek a Unity Katalógusban is kezelhetők, és az objektumhierarchiában a legalacsonyabb szinten találhatók.

Unity Catalog objektummodell-diagram

Ez a biztonságos Unity Catalog-objektumok egyszerűsített nézete. További részletekért lásd : Biztonságos objektumok a Unity Katalógusban.

A Unity Catalog összes adatára háromszintű névtér használatával hivatkozhat: catalog.schema.assetahol asset tábla, nézet, kötet vagy modell lehet.

Metaadattárak

A metaadattár a Unity Catalog objektumainak legfelső szintű tárolója. Regisztrálja az adatok és az AI-eszközök metaadatait, valamint az azokhoz való hozzáférést szabályozó engedélyeket. Az Azure Databricks-fiók rendszergazdáinak létre kell hozniuk egy metaadattárat minden olyan régióhoz, amelyben működnek, és hozzárendelik őket az ugyanabban a régióban található Azure Databricks-munkaterületekhez. Ahhoz, hogy egy munkaterület a Unity Catalogot használja, egy Unity Catalog-metaadattárat kell csatolnia.

A metaadattárak igény szerint konfigurálhatók felügyelt tárolóhelyekkel egy Azure Data Lake Storage Gen2-tárolóban vagy a Cloudflare R2-gyűjtőben a saját felhőalapú tárfiókjában. Lásd: Felügyelt tárterület.

Feljegyzés

Ez a metaadattár különbözik az Azure Databricks-munkaterületeken található Hive-metaadattártól, amelyek nem lettek engedélyezve a Unity Cataloghoz. Ha a munkaterület egy régi Hive-metaadattárat tartalmaz, a metaadattárban lévő adatok továbbra is elérhetők lesznek a Unity Catalogban definiált adatok mellett egy katalógusban hive_metastore. Vegye figyelembe, hogy a hive_metastore katalógust nem a Unity Katalógus kezeli, és nem élvezi ugyanazt a funkciókészletet, mint a Unity Katalógusban definiált katalógusok.

Lásd: Unity Catalog-metaadattár létrehozása.

Katalógusok

A katalógus a Unity Catalog háromszintű névterének első rétege. Az adategységek rendszerezésére szolgál. A felhasználók megtekinthetik az összes katalógust, amelyhez adatengedélyt rendeltek.USE CATALOG

Attól függően, hogy a munkaterület hogyan lett létrehozva és engedélyezve a Unity Catalogban, előfordulhat, hogy a felhasználók alapértelmezett engedélyekkel rendelkeznek az automatikusan kiépített katalógusokhoz, beleértve a main katalógust vagy a munkaterület katalógusát (<workspace-name>). További információ: Alapértelmezett felhasználói jogosultságok.

Lásd: Katalógusok létrehozása és kezelése.

Sémák

A séma (más néven adatbázis) a Unity Catalog háromszintű névterének második rétege. A séma táblákat és nézeteket rendszerez. A felhasználók megtekinthetik az összes sémát, amelyhez az engedélyt hozzárendelték USE SCHEMA , valamint a USE CATALOG séma szülőkatalógusának engedélyét. Ha egy táblát vagy nézetet egy sémában szeretne elérni vagy listázni, a felhasználóknak a táblára vagy nézetre vonatkozó engedéllyel is rendelkezniük SELECT kell.

Ha a munkaterület manuálisan lett engedélyezve a Unity-katalógushoz, a katalógusban main elnevezett default alapértelmezett sémát tartalmaz, amely a munkaterület összes felhasználója számára elérhető. Ha a munkaterület automatikusan engedélyezve lett a Unity Cataloghoz, és tartalmaz egy katalógust <workspace-name> , akkor a katalógus tartalmaz egy sémát default , amely a munkaterület összes felhasználója számára elérhető.

Lásd: Sémák (adatbázisok) létrehozása és kezelése.

Táblázatok

Egy tábla a Unity Catalog háromszintű névterének harmadik rétegében található. Adatsorokat tartalmaz. Tábla létrehozásához a felhasználóknak rendelkezniük CREATE kell a sémával és USE SCHEMA engedélyekkel, és rendelkezniük kell a USE CATALOG szülőkatalógus engedélyével. A táblák lekérdezéséhez a felhasználóknak rendelkezniük kell a SELECT táblára vonatkozó engedéllyel, a USE SCHEMA szülőséma engedélyével és a USE CATALOG szülőkatalógus engedélyével.

Egy tábla felügyelhető vagy külső is lehet.

Felügyelt táblák

A felügyelt táblák az alapértelmezett módszer táblák létrehozására a Unity Catalogban. A Unity Catalog kezeli a táblák életciklusát és fájlelrendezését. Ne használjon az Azure Databricksen kívüli eszközöket az ezekben a táblákban lévő fájlok közvetlen kezeléséhez. A felügyelt táblák mindig a Delta táblaformátumot használják.

A Unity Cataloghoz manuálisan engedélyezett munkaterületek esetében a felügyelt táblák a metaadattár létrehozásakor konfigurált gyökértárhelyen lesznek tárolva. A felügyelt táblatárolási helyeket igény szerint a katalógus vagy a séma szintjén is megadhatja, felülírva a gyökértároló helyét.

A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében a metaadattár gyökértárolójának helye nem kötelező, a felügyelt táblák pedig általában a katalógus vagy séma szintjén vannak tárolva.

A felügyelt táblák elvetésekor a mögöttes adatok 30 napon belül törlődnek a felhőbeli bérlőből.

Lásd: Felügyelt táblák.

Külső táblák

A külső táblák olyan táblák, amelyek adatéletciklusát és fájlelrendezését nem a Unity Catalog kezeli. Külső táblák használatával nagy mennyiségű meglévő adatot regisztrálhat a Unity Catalogban, vagy ha közvetlen hozzáférést igényel az adatokhoz az Azure Databricks-fürtökön vagy a Databricks SQL-tárolókon kívüli eszközökkel.

Külső tábla elvetésekor a Unity Catalog nem törli az alapul szolgáló adatokat. A külső táblák jogosultságait ugyanúgy kezelheti és használhatja a lekérdezésekben, mint a felügyelt táblákat.

A külső táblák a következő fájlformátumokat használhatják:

  • DELTA
  • CSV
  • JSON
  • AVRO
  • PARKETTA
  • ORK
  • SZÖVEG

Lásd: Külső táblák.

Kilátás nyílik

A nézet egy metaadattár egy vagy több táblájából és nézetéből létrehozott írásvédett objektum. A Unity Catalog háromszintű névterének harmadik rétegében található. Több sémában és katalógusban lévő táblákból és más nézetekből is létrehozhat nézetet. Dinamikus nézeteket hozhat létre a sor- és oszlopszintű engedélyek engedélyezéséhez.

Lásd: Dinamikus nézet létrehozása.

Kötetek

A kötet a Unity Catalog háromszintű névterének harmadik rétegében található. A kötetek a Unity Catalog sémája szerint rendszerezett táblákhoz, nézetekhez és egyéb objektumokhoz tartoznak.

A kötetek bármilyen formátumban tárolt adatok könyvtárait és fájljait tartalmazzák. A kötetek nem táblázatos hozzáférést biztosítanak az adatokhoz, ami azt jelenti, hogy a kötetekben lévő fájlok nem regisztrálhatók táblákként.

  • Kötet létrehozásához a felhasználóknak rendelkezniük CREATE VOLUME kell a sémával és USE SCHEMA engedélyekkel, és rendelkezniük kell a USE CATALOG szülőkatalógus engedélyével.
  • A köteten belül tárolt fájlok és könyvtárak olvasásához a felhasználóknak rendelkezniük kell az READ VOLUME engedéllyel, a USE SCHEMA szülőséma engedélyével és a USE CATALOG szülőkatalógus engedélyével.
  • A köteten belül tárolt fájlok és könyvtárak hozzáadásához, eltávolításához vagy módosításához a felhasználóknak engedéllyel, a USE SCHEMA szülőséma engedélyével és a USE CATALOG szülőkatalógus engedélyével kell rendelkezniükWRITE VOLUME.

A kötetek kezelhetők vagy külsők is lehetnek.

Feljegyzés

Kötet definiálásakor a kötet elérési útján lévő adatokhoz való felhőalapú URI-hozzáférést a kötet engedélyei szabályozzák.

Felügyelt kötetek

A felügyelt kötetek kényelmes megoldást jelentenek, ha szabályozott helyet szeretne kiépíteni a nem táblázatos fájlok használatához.

A felügyelt kötetek a unitykatalógus alapértelmezett tárolási helyén tárolják a fájlokat ahhoz a sémához, amelyben azok találhatók. A Unity Cataloghoz manuálisan engedélyezett munkaterületek esetében a felügyelt kötetek a metaadattár létrehozásakor konfigurált gyökértárhelyen lesznek tárolva. A felügyelt kötettárhelyeket igény szerint a katalógus vagy a séma szintjén is megadhatja, felülírva a gyökértároló helyét. A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében a metaadattár gyökértárolójának helye nem kötelező, a felügyelt kötetek pedig általában a katalógus vagy séma szintjén vannak tárolva.

A felügyelt kötetek helyét a következő sorrend szabályozza:

  • Séma helye
  • Katalógus helye
  • Unity Catalog metaadattár gyökértároló helye

Felügyelt kötet törlésekor a kötetben tárolt fájlok is törlődnek a felhőbeli bérlőről 30 napon belül.

Lásd : Mi az a felügyelt kötet?.

Külső kötetek

Egy külső kötet regisztrálva van egy Unity-katalógus külső helyére, és adatmigrálás nélkül biztosít hozzáférést a felhőbeli tárolóban lévő meglévő fájlokhoz. A külső kötet létrehozásához a CREATE EXTERNAL VOLUME felhasználóknak engedéllyel kell rendelkezniük a külső helyen.

A külső kötetek olyan forgatókönyveket támogatnak, amelyekben a fájlokat más rendszerek állítják elő, és az Azure Databricksen belülről, objektumtárolással, vagy az Azure Databricksen kívüli eszközök közvetlen fájlhozzáféréshez szükségesek.

A Unity Catalog nem kezeli a külső kötetekben lévő fájlok életciklusát és elrendezését. Külső kötet elvetésekor a Unity Catalog nem törli a mögöttes adatokat.

Lásd: Mi az a külső kötet?.

Modellek

A modell a Unity Catalog háromszintű névterének harmadik rétegében található. Ebben az összefüggésben a "modell" egy olyan gépi tanulási modellre utal, amely az MLflow-modellregisztrációs adatbázisban van regisztrálva. Ha modellt szeretne létrehozni a Unity Catalogban, a felhasználóknak rendelkezniük kell a CREATE MODEL katalógushoz vagy sémához szükséges jogosultsággal. A felhasználónak rendelkeznie kell a USE CATALOG szülőkatalógusban és USE SCHEMA a szülőséma jogosultságával is.

Felügyelt tárterület

A felügyelt táblákat és felügyelt köteteket ezen szintek bármelyikén tárolhatja a Unity Catalog objektumhierarchiájában: metaadattárban, katalógusban vagy sémában. A hierarchia alacsonyabb szintjein történő tárolás felülbírálja a magasabb szinteken definiált tárolást.

Amikor egy fiókadminisztrátor manuálisan hoz létre egy metaadattárat, lehetősége van egy tárolóhely hozzárendelésére egy Azure Data Lake Storage Gen2-tárolóban vagy a Cloudflare R2-gyűjtőben a saját felhőalapú tárfiókjában, hogy metaadattárszintű tárolóként használhassa a felügyelt táblákhoz és kötetekhez. Ha metaadattárszintű felügyelt tárolóhely van hozzárendelve, akkor a katalógus és a sémaszintek felügyelt tárolási helyei nem kötelezőek. Ennek ellenére a metaadattárszintű tárolás nem kötelező, a Databricks pedig azt javasolja, hogy a katalógus szintjén rendeljen hozzá felügyelt tárterületet a logikai adatok elkülönítéséhez. Lásd az adatszabályozás és az adatelkülönítés építőelemét.

Fontos

Ha a munkaterület automatikusan engedélyezve lett a Unity Cataloghoz, a Unity Catalog metaadattár metaadattár-szintű felügyelt tár nélkül lett létrehozva. Dönthet úgy, hogy metaadattárszintű tárolót ad hozzá, de a Databricks azt javasolja, hogy a katalógus és a séma szintjén rendeljen hozzá felügyelt tárterületet. Ha segítségre van szüksége a metaadattárszintű tárolás szükségességéről, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozását, és az adatok fizikailag elkülönülnek a tárolóban.

A felügyelt tároló a következő tulajdonságokkal rendelkezik:

  • A felügyelt táblák és felügyelt kötetek az adatokat és metaadatfájlokat felügyelt tárolóban tárolják.
  • A felügyelt tárolóhelyek nem fedhetők át külső táblákkal vagy külső kötetekkel.

Az alábbi táblázat a felügyelt tároló deklarálását és a Unity Catalog-objektumokhoz való társítás módját ismerteti:

Társított Unity Catalog-objektum Beállítás Külső helyekkel való kapcsolat
Metaadattár A fiókadminisztrátor a metaadattár létrehozásakor vagy a metaadattár létrehozása után lett konfigurálva, ha a létrehozáskor nem adott meg tárterületet. Külső hely nem fedhető át.
Katalógus A katalógus létrehozásakor a MANAGED LOCATION kulcsszó használatával van megadva. Külső helyen kell tárolni.
Séma A séma létrehozásakor a MANAGED LOCATION kulcsszó használatával van megadva. Külső helyen kell tárolni.

A felügyelt táblák és felügyelt kötetek adatainak és metaadatainak tárolására használt felügyelt tárolóhely a következő szabályokat használja:

  • Ha a séma tartalmaz egy felügyelt helyet, az adatok a séma által felügyelt helyen lesznek tárolva.
  • Ha a tartalmazó séma nem rendelkezik felügyelt hellyel, de a katalógus rendelkezik felügyelt hellyel, az adatok a katalógus által felügyelt helyen lesznek tárolva.
  • Ha sem az azt tartalmazó séma, sem az azt tartalmazó katalógus nem rendelkezik felügyelt hellyel, az adatok a metaadattár által felügyelt helyen lesznek tárolva.

Tárolási hitelesítő adatok és külső helyek

A külső táblákhoz, külső kötetekhez és felügyelt tárolókhoz tartozó mögöttes felhőalapú tárolóhoz való hozzáférés kezeléséhez a Unity Catalog a következő objektumtípusokat használja:

Lásd: Csatlakozás felhőbeli objektumtárba a Unity Catalog használatával.

Identitáskezelés a Unity Katalógushoz

A Unity Catalog az Azure Databricks-fiók identitásait használja a felhasználók, szolgáltatásnevek és csoportok feloldásához és az engedélyek kikényszerítéséhez.

A fiók identitásainak konfigurálásához kövesse a Felhasználók, szolgáltatásnevek és csoportok kezelése című témakör utasításait. Tekintse meg ezeket a felhasználókat, szolgáltatásneveket és csoportokat, amikor hozzáférés-vezérlési szabályzatokat hoz létre a Unity Catalogban.

A Unity Catalog felhasználóit, szolgáltatásneveit és csoportjait is hozzá kell adni a munkaterületekhez, hogy hozzáférjenek a Unity Catalog adataihoz egy jegyzetfüzetben, egy Databricks SQL-lekérdezésben, a Catalog Explorerben vagy egy REST API-parancsban. A felhasználók, szolgáltatásnevek és csoportok munkaterületekhez való hozzárendelését identitás-összevonásnak nevezzük.

Minden olyan munkaterület, amelyhez Unity Catalog-metaadattár van csatolva, engedélyezve van az identitás-összevonáshoz.

A csoportokra vonatkozó speciális szempontok

A munkaterületen már létező csoportok a fiókkonzol helyi munkaterületeként vannak megjelölve. Ezek a munkaterület-helyi csoportok nem használhatók a Unity Katalógusban hozzáférési szabályzatok definiálására. Fiókszintű csoportokat kell használnia. Ha egy parancs egy munkaterület-helyi csoportra hivatkozik, az a parancs hibát ad vissza, amely szerint a csoport nem található. Ha korábban munkaterület-helyi csoportokkal kezelte a jegyzetfüzetekhez és más összetevőkhöz való hozzáférést, ezek az engedélyek érvényben maradnak.

Lásd: Csoportok kezelése.

a Unity Catalog Rendszergazda szerepkörei

A Unity-katalógus kezeléséhez fiókadminisztrátorokat, metaadattár-rendszergazdákat és munkaterület-rendszergazdákat is bevonnak:

Lásd Rendszergazda jogosultságokat a Unity Katalógusban.

Adatengedélyek a Unity Katalógusban

A Unity Catalogban az adatok alapértelmezés szerint biztonságosak. A felhasználók kezdetben nem férnek hozzá a metaadattárban lévő adatokhoz. A hozzáférést a metaadattár rendszergazdája, egy objektum tulajdonosa, vagy az objektumot tartalmazó katalógus vagy séma tulajdonosa is engedélyezheti. A Unity Catalog biztonságos objektumai hierarchikusak, a jogosultságok pedig lefelé öröklődnek.

Engedélyeket rendelhet hozzá és vonhat vissza a Catalog Explorer, az SQL-parancsok vagy a REST API-k használatával.

Lásd: Jogosultságok kezelése a Unity Katalógusban.

A Unity Catalog támogatott számítási és fürthozzáférési módjai

A Unity Catalog a Databricks Runtime 11.3 LTS-t vagy újabb verzióját futtató fürtökön támogatott. A Unity Catalog alapértelmezés szerint minden SQL Warehouse számítási verzióban támogatott.

A Databricks Runtime korábbi verzióiban futó fürtök nem támogatják a Unity Catalog GA összes funkcióját és funkcióját.

A Unity Catalogban az adatok eléréséhez a fürtöket a megfelelő hozzáférési móddal kell konfigurálni. A Unity Katalógus alapértelmezés szerint biztonságos. Ha egy fürt nincs konfigurálva a Unity-Catalog-kompatibilis (azaz megosztott vagy hozzárendelt) hozzáférési módok egyikével, a fürt nem fér hozzá az adatokhoz a Unity Catalogban. Lásd: Hozzáférési módok.

Az egyes Databricks Runtime-verziókban a Unity Catalog funkcióinak változásaival kapcsolatos részletes információkért tekintse meg a kibocsátási megjegyzéseket.

A Unity Catalog korlátozásai a hozzáférési módtól és a Databricks Runtime-verziótól függően változnak. Lásd a Unity Catalog számítási hozzáférési módra vonatkozó korlátozásait.

A Unity-katalógus adatsorai

A Unity Catalog használatával bármilyen, Azure Databricks-fürtön vagy SQL Warehouse-on végrehajtott nyelven rögzítheti a futtatókörnyezeti adatsorokat a lekérdezések között. A rendszer az oszlopszintig rögzíti a sorokat, és a lekérdezéshez kapcsolódó jegyzetfüzeteket, munkafolyamatokat és irányítópultokat is tartalmaz. További információ: Adatsor rögzítése és megtekintése a Unity Catalog használatával.

Lakehouse Federation és Unity Catalog

A Lakehouse Federation az Azure Databricks lekérdezés-összevonási platformja. A lekérdezési összevonás kifejezés olyan funkciók gyűjteményét ismerteti, amelyek lehetővé teszik a felhasználók és a rendszerek számára, hogy lekérdezéseket futtasson több silózott adatforráson anélkül, hogy az összes adatot egységes rendszerbe kellene migrálniuk.

Az Azure Databricks a Unity Catalog használatával kezeli a lekérdezések összevonását. A Unity Catalog használatával írásvédett kapcsolatokat konfigurálhat a népszerű külső adatbázisrendszerekhez, és külső adatbázisokat tükröző idegen katalógusokat hozhat létre. A Unity Catalog adatszabályozási és adatleágazási eszközei biztosítják, hogy az adathozzáférés kezelése és naplózása a felhasználók által az Azure Databricks-munkaterületeken végzett összes összevont lekérdezés esetében történjen.

Lásd : Mi az a Lakehouse Federation.

Hogyan állítsa be a Unity Katalógust a szervezetem számára?

A Unity-katalógus beállításáról a Unity-katalógus beállítása és kezelése című témakörben olvashat.

Támogatott régiók

Minden régió támogatja a Unity Catalogot. További részletekért tekintse meg az Azure Databricks-régiókat.

Támogatott adatfájlformátumok

A Unity Catalog a következő táblázatformátumokat támogatja:

A Unity-katalógus korlátozásai

A Unity Catalogra az alábbi korlátozások vonatkoznak.

Feljegyzés

Ha a fürt a Databricks Runtime 11.3 LTS alatti verzióján fut, előfordulhat, hogy további korlátozások is vannak, és nem szerepel a listán. A Unity Catalog a Databricks Runtime 11.3 LTS vagy újabb verziójában támogatott.

A Unity Catalog korlátozásai a Databricks futtatókörnyezetétől és a hozzáférési módtól függően változnak. A strukturált streamelési számítási feladatok további korlátozásokkal rendelkeznek a Databricks Futtatókörnyezet és a hozzáférési mód alapján. Lásd a Unity Catalog számítási hozzáférési módra vonatkozó korlátozásait.

  • Az R számítási feladatai nem támogatják a dinamikus nézetek használatát sorszintű vagy oszlopszintű biztonsághoz.

  • A Databricks Runtime 13.3 LTS-ben és újabb verziókban a sekély klónok támogatják a Unity Catalog által felügyelt táblák létrehozását a meglévő Unity Catalog által felügyelt táblákból. A Databricks Runtime 12.2 LTS-ben és az alábbi verziókban a Unity Catalog nem támogatja a sekély klónokat. Lásd: Shallow clone for Unity Catalog tables.

  • A gyűjtőzés nem támogatott a Unity Catalog-táblák esetében. Ha olyan parancsokat futtat, amelyek egy gyűjtős táblát próbálnak létrehozni a Unity Catalogban, az kivételt okoz.

  • Ha több régió munkaterületéről ugyanarra az útvonalra vagy Delta Lake-táblára ír, az megbízhatatlan teljesítményhez vezethet, ha egyes fürtök hozzáférnek a Unity Katalógushoz, míg mások nem.

  • A parancsokkal ALTER TABLE ADD PARTITION létrehozott egyéni partíciós sémák nem támogatottak a Unity Catalog tábláiban. A Unity Catalog könyvtárstílusú particionálást használó táblákhoz férhet hozzá.

  • A DataFrame írási műveleteinek felülírási módja a Unity Catalogban csak Delta-táblák esetében támogatott, más fájlformátumok esetében nem. A felhasználónak rendelkeznie kell a CREATE szülőséma jogosultságával, és a meglévő objektum tulajdonosának kell lennie, vagy rendelkeznie kell az MODIFY objektum jogosultságával.

  • A Databricks Runtime 13.3 LTS és újabb verziókban a Python skaláris UDF-ek támogatottak. A Databricks Runtime 12.2 LTS-ben és az alábbi verziókban nem használhat Python UDF-eket, beleértve az UDAF-eket, az UDTF-eket és a Pandas-t a Sparkon (applyInPandas és mapInPandas).

  • A Databricks Runtime 14.2 és újabb verziókban a Scala skaláris UDF-jei támogatottak a megosztott fürtökön. A Databricks Runtime 14.1 és újabb verzióban az összes Scala UDF nem támogatott megosztott fürtökön.

  • A korábban munkaterületen (azaz munkaterületszintű csoportokban) létrehozott csoportok nem használhatók a Unity Catalog GRANT utasításaiban. Ennek célja, hogy egységes nézetet biztosítson a munkaterületeken átnyúló csoportokról. Ha csoportokat szeretne használni a GRANT-utasításokban, hozza létre a csoportokat a fiók szintjén, és frissítse az egyszerű vagy csoportkezelés automatizálását (például SCIM, Okta és Microsoft Entra ID (korábbi nevén Azure Active Directory) összekötőket és Terraformot), hogy a fiókvégpontokra hivatkozzon munkaterület-végpontok helyett. Lásd a fiókcsoportok és a munkaterület helyi csoportjai közötti különbséget.

  • A standard Scala-szálkészletek nem támogatottak. Ehelyett használja például a speciális szálkészleteketorg.apache.spark.util.ThreadUtilsorg.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool. A következő szálkészletek ThreadUtils azonban nem támogatottak: ThreadUtils.newForkJoinPool és egyetlen szálkészlet sem ScheduledExecutorService .

  • A naplózás csak a munkaterület szintjén támogatott Unity Catalog-események esetében. A fiók szintjén, munkaterületre való hivatkozás nélkül zajló események, például metaadattár létrehozása, nem lesznek naplózva.

A Unity Catalog összes objektumnevére az alábbi korlátozások vonatkoznak:

  • Az objektumnevek legfeljebb 255 karakter hosszúságúak lehetnek.
  • A következő speciális karakterek nem engedélyezettek:
    • Időszak (.)
    • Szóköz ( )
    • Perjel (/)
    • Minden ASCII vezérlőkarakterek (00-1F hexa)
    • A DELETE karakter (7F hexa)
  • A Unity Catalog az összes objektumnevet kisbetűsként tárolja.
  • Ha UC-nevekre hivatkozik az SQL-ben, akkor a speciális karaktereket, például kötőjeleket (-kötőjeleket) tartalmazó nevek feloldásához háttértitkokat kell használnia.

Feljegyzés

Az oszlopnevek speciális karaktereket is használhatnak, de ha speciális karaktereket használnak, a nevet minden SQL-utasításban háttérrel kell megszűrni. A Unity Catalog megőrzi az oszlopnévházat, de a Unity Catalog-táblák lekérdezései nem érzéketlenek.

A Unity Catalog modelljeire további korlátozások vonatkoznak. Lásd a Unity Catalog támogatásának korlátait.

Erőforráskvóták

A Unity katalógus minden védendő objektumra erőforráskvótákat kényszerít rá. A korlátozások ugyanazt a hierarchikus szervezetet tartják tiszteletben a Unity katalógusban. Ha várhatóan túllépi ezeket az erőforráskorlátokat, forduljon az Azure Databricks-fiók csapatához.

Az alábbi kvótaértékek a szülő (vagy nagyszülő) objektumhoz viszonyítva vannak kifejezve a Unity katalógusban.

Objektum Parent Érték
table schema 10000
table metaadattár 100 000
kötet schema 10000
függvény schema 10000
regisztrált modell schema 1000
regisztrált modell metaadattár 5000
modellverzió regisztrált modell 10000
modellverzió metaadattár 100 000
schema katalógus 10000
katalógus metaadattár 1000
kapcsolat metaadattár 1000
tároló hitelesítő adatai metaadattár 200
külső hely metaadattár 500

A deltamegosztási korlátokat az erőforráskvótákban találhatja meg.