Co to jest wykaz Unity?

W tym artykule przedstawiono wykaz unity, ujednolicone rozwiązanie do zapewniania ładu dla danych i zasobów sztucznej inteligencji w lakehouse usługi Databricks.

Omówienie wykazu aparatu Unity

Wykaz aparatu Unity zapewnia scentralizowaną kontrolę dostępu, inspekcję, pochodzenie i możliwości odnajdywania danych w obszarach roboczych usługi Azure Databricks.

Diagram wykazu aparatu Unity

Najważniejsze funkcje wykazu aparatu Unity obejmują:

  • Definiowanie raz, zabezpieczanie wszędzie: Katalog aparatu Unity oferuje jedno miejsce do administrowania zasadami dostępu do danych, które mają zastosowanie we wszystkich obszarach roboczych.
  • Model zabezpieczeń zgodny ze standardami: model zabezpieczeń wykazu aparatu Unity jest oparty na standardowym języku ANSI SQL i umożliwia administratorom udzielanie uprawnień w istniejącym magazynie danych za pomocą znanej składni, na poziomie wykazów, baz danych (nazywanych również schematami), tabelami i widokami.
  • Wbudowane inspekcje i pochodzenie: Wykaz aparatu Unity automatycznie przechwytuje dzienniki inspekcji na poziomie użytkownika, które rejestrują dostęp do danych. Wykaz aparatu Unity przechwytuje również dane pochodzenia, które śledzą sposób tworzenia i użycia zasobów danych we wszystkich językach.
  • Odnajdywanie danych: usługa Unity Catalog umożliwia tagowanie i dokumentowanie zasobów danych oraz udostępnia interfejs wyszukiwania, który ułatwia konsumentom danych znajdowanie danych.
  • Tabele systemowe (publiczna wersja zapoznawcza): Wykaz aparatu Unity umożliwia łatwy dostęp do danych operacyjnych konta i wykonywanie zapytań o nie, w tym dzienniki inspekcji, rozliczane użycie i pochodzenie danych.

Jak wykaz aparatu Unity zarządza dostępem do danych i zasobów sztucznej inteligencji w magazynie obiektów w chmurze?

Usługa Databricks zaleca skonfigurowanie całego dostępu do magazynu obiektów w chmurze przy użyciu wykazu aparatu Unity. Zobacz Połączenie do magazynu obiektów w chmurze przy użyciu wykazu aparatu Unity.

Wykaz aparatu Unity wprowadza następujące pojęcia dotyczące zarządzania relacjami między danymi w usłudze Azure Databricks i magazynie obiektów w chmurze:

Uwaga

Federacja lakehouse zapewnia integrację danych w innych systemach zewnętrznych. Te obiekty nie są wspierane przez magazyn obiektów w chmurze.

Model obiektów wykazu aparatu Unity

W katalogu aparatu Unity hierarchia podstawowych obiektów danych przepływa z magazynu metadanych do tabeli lub woluminu:

  • Magazyn metadanych: Kontener najwyższego poziomu dla metadanych. Każdy magazyn metadanych uwidacznia trzy-poziomową przestrzeń nazw (catalog..schema),table która organizuje dane.
  • Wykaz: Pierwsza warstwa hierarchii obiektów używana do organizowania zasobów danych.
  • Schemat: znane również jako bazy danych schematy są drugą warstwą hierarchii obiektów i zawierają tabele i widoki.
  • Tabele, widoki i woluminy: na najniższym poziomie w hierarchii obiektów danych są tabele, widoki i woluminy. Woluminy zapewniają ład dla danych innych niż tabelaryczne.
  • Modele: Chociaż nie są, ściśle rzecz biorąc, zasoby danych, zarejestrowane modele mogą być również zarządzane w wykazie aparatu Unity i znajdują się na najniższym poziomie w hierarchii obiektów.

Diagram modelu obiektów wykazu aparatu Unity

Jest to uproszczony widok zabezpieczanych obiektów wykazu aparatu Unity. Aby uzyskać więcej informacji, zobacz Zabezpieczane obiekty w wykazie aparatu Unity.

Wszystkie dane w wykazie aparatu Unity odwołują się do trzech poziomów przestrzeni nazw: catalog.schema.asset, gdzie asset może być tabelą, widokiem, woluminem lub modelem.

Magazyny metadanych

Magazyn metadanych to kontener obiektów najwyższego poziomu w wykazie aparatu Unity. Rejestruje metadane dotyczące danych i zasobów sztucznej inteligencji oraz uprawnienia, które zarządzają dostępem do nich. Administratorzy konta usługi Azure Databricks powinni utworzyć jeden magazyn metadanych dla każdego regionu, w którym działają i przypisać je do obszarów roboczych usługi Azure Databricks w tym samym regionie. Aby obszar roboczy mógł korzystać z wykazu aparatu Unity, musi mieć dołączony magazyn metadanych wykazu aparatu Unity.

Magazyn metadanych można opcjonalnie skonfigurować przy użyciu zarządzanej lokalizacji magazynu w kontenerze usługi Azure Data Lake Storage Gen2 lub zasobniku Cloudflare R2 na własnym koncie magazynu w chmurze. Zobacz Magazyn zarządzany.

Uwaga

Ten magazyn metadanych różni się od magazynu metadanych Hive zawartego w obszarach roboczych usługi Azure Databricks, które nie zostały włączone dla wykazu aparatu Unity. Jeśli obszar roboczy zawiera starszy magazyn metadanych Hive, dane w tym magazynie metadanych będą nadal dostępne wraz z danymi zdefiniowanymi w wykazie aparatu Unity w wykazie o nazwie hive_metastore. Należy pamiętać, że hive_metastore wykaz nie jest zarządzany przez wykaz aparatu Unity i nie korzysta z tego samego zestawu funkcji co wykazy zdefiniowane w wykazie aparatu Unity.

Zobacz Tworzenie magazynu metadanych wykazu aparatu Unity.

Katalogi

Wykaz jest pierwszą warstwą trójwarstwowej przestrzeni nazw wykazu aparatu Unity. Służy do organizowania zasobów danych. Użytkownicy mogą zobaczyć wszystkie wykazy, do których przypisano USE CATALOGim uprawnienie do danych.

W zależności od sposobu tworzenia i włączania obszaru roboczego dla wykazu aparatu Unity użytkownicy mogą mieć domyślne uprawnienia do automatycznie aprowizowania katalogów, w tym main wykazu lub wykazu obszarów roboczych (<workspace-name>). Aby uzyskać więcej informacji, zobacz Domyślne uprawnienia użytkownika.

Zobacz Tworzenie katalogów i zarządzanie nimi.

Schematów

Schemat (nazywany również bazą danych) to druga warstwa trójwarstwowej przestrzeni nazw wykazu aparatu Unity. Schemat organizuje tabele i widoki. Użytkownicy mogą zobaczyć wszystkie schematy, na których przypisano USE SCHEMA im uprawnienie, wraz z USE CATALOG uprawnieniem w katalogu nadrzędnym schematu. Aby uzyskać dostęp do lub wyświetlić tabelę lub widok w schemacie, użytkownicy muszą mieć również SELECT uprawnienia do tabeli lub widoku.

Jeśli obszar roboczy został włączony ręcznie dla wykazu aparatu Unity, zawiera on domyślny schemat o nazwie default w main wykazie, który jest dostępny dla wszystkich użytkowników w obszarze roboczym. Jeśli obszar roboczy został włączony automatycznie dla wykazu aparatu Unity i zawiera <workspace-name> wykaz, ten wykaz zawiera schemat o nazwie default dostępny dla wszystkich użytkowników w obszarze roboczym.

Zobacz Tworzenie schematów (baz danych) i zarządzanie nimi.

Tabel

Tabela znajduje się w trzeciej warstwie trójwarstwowej przestrzeni nazw wykazu aparatu Unity. Zawiera wiersze danych. Aby utworzyć tabelę, użytkownicy muszą mieć uprawnienia i USE SCHEMA uprawnienia CREATE do schematu i muszą mieć USE CATALOG uprawnienia do katalogu nadrzędnego. Aby wykonać zapytanie dotyczące tabeli, użytkownicy muszą mieć SELECT uprawnienia do tabeli, USE SCHEMA uprawnienia do jego schematu nadrzędnego i USE CATALOG uprawnienia do katalogu nadrzędnego.

Tabelę można zarządzać lub zewnętrznie.

Tabele zarządzane

Tabele zarządzane to domyślny sposób tworzenia tabel w wykazie aparatu Unity. Wykaz aparatu Unity zarządza cyklem życia i układem plików dla tych tabel. Nie należy używać narzędzi spoza usługi Azure Databricks do bezpośredniego manipulowania plikami w tych tabelach. Tabele zarządzane zawsze używają formatu tabeli delty .

W przypadku obszarów roboczych, które zostały włączone ręcznie dla wykazu aparatu Unity, tabele zarządzane są przechowywane w głównej lokalizacji magazynu skonfigurowanej podczas tworzenia magazynu metadanych. Opcjonalnie można określić lokalizacje magazynu tabel zarządzanych na poziomach katalogu lub schematu, przesłaniając lokalizację magazynu głównego.

W przypadku obszarów roboczych, które zostały włączone dla wykazu aparatu Unity automatycznie, lokalizacja magazynu głównego magazynu metadanych jest opcjonalna, a tabele zarządzane są zwykle przechowywane na poziomach wykazu lub schematu.

Po usunięciu tabeli zarządzanej jej dane bazowe zostaną usunięte z dzierżawy chmury w ciągu 30 dni.

Zobacz Tabele zarządzane.

Tabele zewnętrzne

Tabele zewnętrzne to tabele, których cykl życia danych i układ plików nie są zarządzane przez wykaz aparatu Unity. Użyj tabel zewnętrznych, aby zarejestrować duże ilości istniejących danych w wykazie aparatu Unity lub jeśli potrzebujesz bezpośredniego dostępu do danych przy użyciu narzędzi spoza klastrów usługi Azure Databricks lub magazynów SQL usługi Databricks.

Po usunięciu tabeli zewnętrznej wykaz aparatu Unity nie usuwa danych bazowych. Możesz zarządzać uprawnieniami w tabelach zewnętrznych i używać ich w zapytaniach w taki sam sposób, jak w przypadku tabel zarządzanych.

Tabele zewnętrzne mogą używać następujących formatów plików:

  • DELTA
  • CSV
  • JSON
  • AVRO
  • PARKIET
  • ORC
  • TEKST

Zobacz Tabele zewnętrzne.

Widoki

Widok jest obiektem tylko do odczytu utworzonym na podstawie co najmniej jednej tabeli i widoków w magazynie metadanych. Znajduje się ona w trzeciej warstwie trzy-poziomowej przestrzeni nazw wykazu aparatu Unity. Widok można utworzyć na podstawie tabel i innych widoków w wielu schematach i katalogach. Możesz utworzyć widoki dynamiczne, aby włączyć uprawnienia na poziomie wiersza i kolumny.

Zobacz Tworzenie widoku dynamicznego.

Woluminy

Wolumin znajduje się w trzeciej warstwie trzywarstwowej przestrzeni nazw wykazu aparatu Unity. Woluminy są elementami równorzędnymi tabel, widoków i innych obiektów zorganizowanych w schemacie w wykazie aparatu Unity.

Woluminy zawierają katalogi i pliki dla danych przechowywanych w dowolnym formacie. Woluminy zapewniają nie tabelaryczny dostęp do danych, co oznacza, że pliki w woluminach nie mogą być rejestrowane jako tabele.

  • Aby utworzyć wolumin, użytkownicy muszą mieć CREATE VOLUME uprawnienia i USE SCHEMA uprawnienia do schematu i muszą mieć USE CATALOG uprawnienia do katalogu nadrzędnego.
  • Aby odczytywać pliki i katalogi przechowywane wewnątrz woluminu, użytkownicy muszą mieć READ VOLUME uprawnienia, USE SCHEMA uprawnienia do jego schematu nadrzędnego i USE CATALOG uprawnienia w katalogu nadrzędnym.
  • Aby dodawać, usuwać lub modyfikować pliki i katalogi przechowywane wewnątrz woluminu, użytkownicy muszą mieć WRITE VOLUME uprawnienia, USE SCHEMA uprawnienie do jego schematu nadrzędnego i USE CATALOG uprawnienie do katalogu nadrzędnego.

Wolumin może być zarządzany lub zewnętrzny.

Uwaga

Podczas definiowania woluminu dostęp identyfikatora URI chmury do danych w ramach ścieżki woluminu podlega uprawnieniam woluminu.

Woluminy zarządzane

Woluminy zarządzane są wygodnym rozwiązaniem, gdy chcesz aprowizować zarządzaną lokalizację do pracy z plikami nie tabelarycznymi.

Woluminy zarządzane przechowują pliki w domyślnej lokalizacji przechowywania wykazu aparatu Unity dla schematu, w którym są zawarte. W przypadku obszarów roboczych, które zostały włączone ręcznie dla wykazu aparatu Unity, woluminy zarządzane są przechowywane w głównej lokalizacji magazynu skonfigurowanej podczas tworzenia magazynu metadanych. Opcjonalnie można określić lokalizacje magazynu woluminów zarządzanych na poziomach katalogu lub schematu, przesłaniając główną lokalizację magazynu. W przypadku obszarów roboczych, które zostały włączone automatycznie dla wykazu aparatu Unity, lokalizacja magazynu głównego magazynu metadanych jest opcjonalna, a woluminy zarządzane są zwykle przechowywane na poziomach katalogu lub schematu.

Następujący pierwszeństwo określa lokalizację używaną dla woluminu zarządzanego:

  • Lokalizacja schematu
  • Lokalizacja katalogu
  • Lokalizacja magazynu metadanych wykazu aparatu Unity

Po usunięciu woluminu zarządzanego pliki przechowywane w tym woluminie są również usuwane z dzierżawy chmury w ciągu 30 dni.

Zobacz Co to jest wolumin zarządzany?.

Woluminy zewnętrzne

Wolumin zewnętrzny jest rejestrowany w lokalizacji zewnętrznej wykazu aparatu Unity i zapewnia dostęp do istniejących plików w magazynie w chmurze bez konieczności migracji danych. Użytkownicy muszą mieć CREATE EXTERNAL VOLUME uprawnienia do lokalizacji zewnętrznej, aby utworzyć wolumin zewnętrzny.

Woluminy zewnętrzne obsługują scenariusze, w których pliki są tworzone przez inne systemy i przygotowane do uzyskiwania dostępu z poziomu usługi Azure Databricks przy użyciu magazynu obiektów lub gdzie narzędzia spoza usługi Azure Databricks wymagają bezpośredniego dostępu do plików.

Wykaz aparatu Unity nie zarządza cyklem życia i układem plików w woluminach zewnętrznych. Po usunięciu woluminu zewnętrznego wykaz aparatu Unity nie usuwa danych bazowych.

Zobacz Co to jest wolumin zewnętrzny?.

Modele

Model znajduje się w trzeciej warstwie trójwarstwowej przestrzeni nazw wykazu aparatu Unity. W tym kontekście "model" odnosi się do modelu uczenia maszynowego zarejestrowanego w rejestrze modeli MLflow. Aby utworzyć model w wykazie aparatu Unity, użytkownicy muszą mieć CREATE MODEL uprawnienia do katalogu lub schematu. Użytkownik musi również mieć USE CATALOG uprawnienia do katalogu nadrzędnego i USE SCHEMA schematu nadrzędnego.

Magazyn zarządzany

Tabele zarządzane i woluminy zarządzane można przechowywać na dowolnym z tych poziomów w hierarchii obiektów wykazu aparatu Unity: magazyn metadanych, katalog lub schemat. Magazyn na niższych poziomach w hierarchii zastępuje magazyn zdefiniowany na wyższych poziomach.

Gdy administrator konta ręcznie utworzy magazyn metadanych, będzie miał możliwość przypisania lokalizacji magazynu w kontenerze usługi Azure Data Lake Storage Gen2 lub zasobniku Cloudflare R2 na własnym koncie magazynu w chmurze do użycia jako magazyn metadanych dla zarządzanych tabel i woluminów. Jeśli przypisano lokalizację magazynu zarządzanego na poziomie magazynu metadanych, zarządzane lokalizacje magazynu na poziomach wykazu i schematu są opcjonalne. Oznacza to, że magazyn na poziomie magazynu metadanych jest opcjonalny, a usługa Databricks zaleca przypisanie magazynu zarządzanego na poziomie wykazu na potrzeby izolacji danych logicznych. Zobacz Bloki konstrukcyjne ładu danych i izolacji danych.

Ważne

Jeśli obszar roboczy został automatycznie włączony dla wykazu aparatu Unity, magazyn metadanych wykazu aparatu Unity został utworzony bez magazynu zarządzanego na poziomie magazynu metadanych. Możesz dodać magazyn na poziomie magazynu metadanych, ale usługa Databricks zaleca przypisywanie magazynu zarządzanego na poziomach wykazu i schematu. Aby uzyskać pomoc przy podejmowaniu decyzji, czy potrzebujesz magazynu metadanych, zobacz (Opcjonalnie) Tworzenie magazynu metadanych na poziomie magazynu i Dane są fizycznie oddzielone w magazynie.

Magazyn zarządzany ma następujące właściwości:

  • Zarządzane tabele i woluminy zarządzane przechowują dane i pliki metadanych w magazynie zarządzanym.
  • Lokalizacje magazynu zarządzanego nie mogą nakładać się na tabele zewnętrzne lub woluminy zewnętrzne.

W poniższej tabeli opisano sposób deklarowanego magazynu zarządzanego i skojarzonego z obiektami wykazu aparatu Unity:

Skojarzony obiekt wykazu aparatu Unity Jak ustawić Relacja z lokalizacjami zewnętrznymi
Magazyn metadanych Skonfigurowane przez administratora konta podczas tworzenia magazynu metadanych lub dodane po utworzeniu magazynu metadanych, jeśli podczas tworzenia nie określono magazynu. Nie można nakładać się na lokalizację zewnętrzną.
Wykaz Określony podczas tworzenia wykazu przy użyciu słowa kluczowego MANAGED LOCATION . Musi znajdować się w lokalizacji zewnętrznej.
Schemat Określony podczas tworzenia schematu przy użyciu słowa kluczowego MANAGED LOCATION . Musi znajdować się w lokalizacji zewnętrznej.

Zarządzana lokalizacja magazynu używana do przechowywania danych i metadanych dla zarządzanych tabel i woluminów zarządzanych korzysta z następujących reguł:

  • Jeśli schemat zawierający ma zarządzaną lokalizację, dane są przechowywane w lokalizacji zarządzanej schematu.
  • Jeśli schemat zawierający nie ma lokalizacji zarządzanej, ale katalog ma lokalizację zarządzaną, dane są przechowywane w lokalizacji zarządzanej katalogu.
  • Jeśli ani schemat zawierający, ani katalog nie mają lokalizacji zarządzanej, dane są przechowywane w lokalizacji zarządzanej magazynu metadanych.

Poświadczenia magazynu i lokalizacje zewnętrzne

Aby zarządzać dostępem do bazowego magazynu w chmurze dla tabel zewnętrznych, woluminów zewnętrznych i magazynu zarządzanego, wykaz aparatu Unity używa następujących typów obiektów:

Zobacz Połączenie do magazynu obiektów w chmurze przy użyciu wykazu aparatu Unity.

Zarządzanie tożsamościami dla wykazu aparatu Unity

Wykaz aparatu Unity używa tożsamości na koncie usługi Azure Databricks do rozpoznawania użytkowników, jednostek usługi i grup oraz wymuszania uprawnień.

Aby skonfigurować tożsamości na koncie, postępuj zgodnie z instrukcjami w temacie Zarządzanie użytkownikami, jednostkami usługi i grupami. Zapoznaj się z tymi użytkownikami, jednostkami usługi i grupami podczas tworzenia zasad kontroli dostępu w wykazie aparatu Unity.

Użytkownicy wykazu aparatu Unity, jednostki usługi i grupy muszą być również dodawani do obszarów roboczych w celu uzyskania dostępu do danych wykazu aparatu Unity w notesie, zapytania SQL usługi Databricks, Eksploratora wykazu lub polecenia interfejsu API REST. Przypisanie użytkowników, jednostek usługi i grup do obszarów roboczych jest nazywane federacją tożsamości.

Wszystkie obszary robocze z dołączonym magazynem metadanych wykazu aparatu Unity są włączone dla federacji tożsamości.

Specjalne zagadnienia dotyczące grup

Wszystkie grupy, które już istnieją w obszarze roboczym, są oznaczone etykietą Obszar roboczy lokalny w konsoli konta. Tych grup lokalnych obszaru roboczego nie można używać w wykazie aparatu Unity do definiowania zasad dostępu. Należy użyć grup na poziomie konta. Jeśli w poleceniu odwołuje się grupa workspace-local, to polecenie zwróci błąd, że nie znaleziono grupy. Jeśli wcześniej użyto grup obszarów roboczych i lokalnych do zarządzania dostępem do notesów i innych artefaktów, te uprawnienia pozostaną w mocy.

Zobacz Zarządzanie grupami.

role Administracja dla wykazu aparatu Unity

Administratorzy kont, administratorzy magazynu metadanych i administratorzy obszaru roboczego są zaangażowani w zarządzanie katalogiem aparatu Unity:

Zobacz uprawnienia Administracja w katalogu aparatu Unity.

Uprawnienia danych w wykazie aparatu Unity

W katalogu aparatu Unity dane są domyślnie bezpieczne. Początkowo użytkownicy nie mają dostępu do danych w magazynie metadanych. Dostęp można udzielić administratorowi magazynu metadanych, właścicielowi obiektu lub właścicielowi wykazu lub schematu zawierającego obiekt. Zabezpieczane obiekty w rozwiązaniu Unity Catalog są hierarchiczne, a uprawnienia są dziedziczone w dół.

Uprawnienia można przypisywać i odwoływać przy użyciu Eksploratora wykazu, poleceń SQL lub interfejsów API REST.

Zobacz Zarządzanie uprawnieniami w wykazie aparatu Unity.

Obsługiwane tryby dostępu obliczeniowego i klastra dla wykazu aparatu Unity

Wykaz aparatu Unity jest obsługiwany w klastrach z uruchomionym środowiskiem Databricks Runtime 11.3 LTS lub nowszym. Katalog aparatu Unity jest domyślnie obsługiwany we wszystkich wersjach obliczeniowych usługi SQL Warehouse .

Klastry działające we wcześniejszych wersjach środowiska Databricks Runtime nie zapewniają obsługi wszystkich funkcji i funkcji wykazu aparatu Unity.

Aby uzyskać dostęp do danych w wykazie aparatu Unity, klastry muszą być skonfigurowane z odpowiednim trybem dostępu. Katalog aparatu Unity jest domyślnie bezpieczny. Jeśli klaster nie jest skonfigurowany z jednym z trybów dostępu obsługujących wykaz aparatu Unity (czyli udostępnionych lub przypisanych), klaster nie może uzyskać dostępu do danych w wykazie aparatu Unity. Zobacz Tryby dostępu.

Aby uzyskać szczegółowe informacje o zmianach funkcji wykazu aparatu Unity w każdej wersji środowiska Databricks Runtime, zobacz informacje o wersji.

Ograniczenia dotyczące wykazu aparatu Unity różnią się w zależności od trybu dostępu i wersji środowiska Databricks Runtime. Zobacz Ograniczenia trybu dostępu obliczeniowego dla wykazu aparatu Unity.

Pochodzenie danych dla wykazu aparatu Unity

Za pomocą wykazu aparatu Unity można przechwytywać pochodzenie danych środowiska uruchomieniowego między zapytaniami w dowolnym języku wykonywanym w klastrze usługi Azure Databricks lub usłudze SQL Warehouse. Pochodzenie jest przechwytywane na poziomie kolumny i obejmuje notesy, przepływy pracy i pulpity nawigacyjne powiązane z zapytaniem. Aby dowiedzieć się więcej, zobacz Przechwytywanie i wyświetlanie pochodzenia danych przy użyciu wykazu aparatu Unity.

Federacja lakehouse i katalog aparatu Unity

Federacja lakehouse to platforma federacyjna zapytań dla usługi Azure Databricks. Termin Federacja zapytań opisuje kolekcję funkcji, które umożliwiają użytkownikom i systemom uruchamianie zapytań względem wielu silosowych źródeł danych bez konieczności migrowania wszystkich danych do ujednoliconego systemu.

Usługa Azure Databricks używa wykazu aparatu Unity do zarządzania federacją zapytań. Wykaz aparatu Unity służy do konfigurowania połączeń tylko do odczytu z popularnymi zewnętrznymi systemami baz danych i tworzenia katalogów obcych dublujących zewnętrzne bazy danych. Narzędzia do zapewniania ładu danych i pochodzenia danych w wykazie aparatu Unity zapewniają, że dostęp do danych jest zarządzany i poddany inspekcji dla wszystkich zapytań federacyjnych wykonanych przez użytkowników w obszarach roboczych usługi Azure Databricks.

Zobacz Co to jest Federacja Lakehouse.

Jak mogę skonfigurować wykaz aparatu Unity dla mojej organizacji?

Aby dowiedzieć się, jak skonfigurować wykaz aparatu Unity, zobacz Konfigurowanie wykazu aparatu Unity i zarządzanie nim.

Obsługiwane regiony

Wszystkie regiony obsługują wykaz aparatu Unity. Aby uzyskać szczegółowe informacje, zobacz Regiony usługi Azure Databricks.

Obsługiwane formaty plików danych

Katalog aparatu Unity obsługuje następujące formaty tabeli:

  • Tabele zarządzane muszą używać delta formatu tabeli.
  • Tabele zewnętrzne mogą używać delta, , CSV, JSONavro, parquetORClub text.

Ograniczenia wykazu aparatu Unity

Wykaz aparatu Unity ma następujące ograniczenia.

Uwaga

Jeśli klaster jest uruchomiony w środowisku Databricks Runtime w wersji starszej niż 11.3 LTS, mogą istnieć dodatkowe ograniczenia, a nie wymienione tutaj. Wykaz aparatu Unity jest obsługiwany w środowisku Databricks Runtime 11.3 LTS lub nowszym.

Ograniczenia wykazu aparatu Unity różnią się w zależności od środowiska Databricks Runtime i trybu dostępu. Obciążenia przesyłania strumieniowego ze strukturą mają dodatkowe ograniczenia oparte na środowisku Databricks Runtime i trybie dostępu. Zobacz Ograniczenia trybu dostępu obliczeniowego dla wykazu aparatu Unity.

  • Obciążenia w języku R nie obsługują używania widoków dynamicznych na poziomie wiersza lub na poziomie kolumny.

  • W środowisku Databricks Runtime 13.3 LTS lub nowszym klony płytkie są obsługiwane do tworzenia tabel zarządzanych w wykazie aparatu Unity z istniejących tabel zarządzanych przez wykaz aparatu Unity. W środowisku Databricks Runtime 12.2 LTS i poniżej nie ma obsługi płytkich klonów w katalogu aparatu Unity. Zobacz Płytkie klonowanie tabel wykazu aparatu Unity.

  • Zasobniki nie są obsługiwane w przypadku tabel wykazu aparatu Unity. Jeśli uruchomisz polecenia, które spróbują utworzyć tabelę zasobnikową w wykazie aparatu Unity, zgłosi wyjątek.

  • Zapisywanie w tej samej ścieżce lub tabeli usługi Delta Lake z obszarów roboczych w wielu regionach może prowadzić do zawodnej wydajności, jeśli niektóre klastry uzyskują dostęp do wykazu aparatu Unity, a inne nie.

  • Niestandardowe schematy partycji utworzone przy użyciu poleceń takich jak ALTER TABLE ADD PARTITION nie są obsługiwane w przypadku tabel w wykazie aparatu Unity. Wykaz aparatu Unity może uzyskiwać dostęp do tabel korzystających z partycjonowania w stylu katalogu.

  • Tryb zastępowania operacji zapisu ramki danych w wykazie aparatu Unity jest obsługiwany tylko w przypadku tabel delty, a nie dla innych formatów plików. Użytkownik musi mieć CREATE uprawnienia do schematu nadrzędnego i musi być właścicielem istniejącego obiektu lub mieć MODIFY uprawnienia do obiektu.

  • W środowisku Databricks Runtime 13.3 LTS i nowszym obsługiwane są skalarne funkcje zdefiniowane przez użytkownika języka Python. W środowisku Databricks Runtime 12.2 LTS i poniżej nie można używać funkcji zdefiniowanych przez użytkownika języka Python, w tym funkcji UDAFs, funkcji UDF i biblioteki Pandas na platformie Spark (applyInPandas i mapInPandas).

  • W środowisku Databricks Runtime 14.2 lub nowszym scala skalarne funkcje zdefiniowane przez użytkownika są obsługiwane w udostępnionych klastrach. W środowisku Databricks Runtime 14.1 lub nowszym wszystkie funkcje zdefiniowane przez użytkownika języka Scala nie są obsługiwane w klastrach udostępnionych.

  • Nie można używać grup utworzonych wcześniej w obszarze roboczym (czyli grupach na poziomie obszaru roboczego) w instrukcjach GRANT wykazu aparatu Unity. Ma to na celu zapewnienie spójnego widoku grup, które mogą obejmować obszary robocze. Aby użyć grup w instrukcjach GRANT, utwórz grupy na poziomie konta i zaktualizuj dowolną automatyzację zarządzania podmiotami zabezpieczeń lub grup (takimi jak SCIM, Okta i Microsoft Entra ID (dawniej Azure Active Directory) łączniki i Terraform), aby odwoływać się do punktów końcowych konta zamiast punktów końcowych obszaru roboczego. Zobacz Różnice między grupami kont i grupami lokalnymi obszaru roboczego.

  • Pule wątków języka Scala w warstwie Standardowa nie są obsługiwane. Zamiast tego użyj specjalnych pul wątków w org.apache.spark.util.ThreadUtilspliku , na przykład org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool. Jednak następujące pule wątków w programie ThreadUtils nie są obsługiwane: ThreadUtils.newForkJoinPool i żadna ScheduledExecutorService pula wątków.

  • Rejestrowanie inspekcji jest obsługiwane tylko dla zdarzeń wykazu aparatu Unity na poziomie obszaru roboczego. Zdarzenia, które odbywają się na poziomie konta bez odwołania do obszaru roboczego, takiego jak tworzenie magazynu metadanych, nie są rejestrowane.

Obowiązują następujące ograniczenia dotyczące wszystkich nazw obiektów w wykazie aparatu Unity:

  • Nazwy obiektów nie mogą przekraczać 255 znaków.
  • Następujące znaki specjalne są niedozwolone:
    • Okres (.)
    • Spacja ( )
    • Ukośnik do przodu (/)
    • Wszystkie znaki sterujące ASCII (szesnastkowy szesnastkowy 00-1F)
    • Znak DELETE (szesnastkowy 7F)
  • Wykaz aparatu Unity przechowuje wszystkie nazwy obiektów jako małe litery.
  • W przypadku odwoływania się do nazw UC w języku SQL należy użyć backticksów, aby użyć nazw ucieczki zawierających znaki specjalne, takie jak łączniki (-).

Uwaga

Nazwy kolumn mogą używać znaków specjalnych, ale nazwa musi zostać uniknięta z backticks we wszystkich instrukcjach SQL, jeśli są używane znaki specjalne. Wykaz aparatu Unity zachowuje wielkość liter nazw kolumn, ale zapytania względem tabel wykazu aparatu Unity są bez uwzględniania wielkości liter.

Istnieją dodatkowe ograniczenia dotyczące modeli w wykazie aparatu Unity. Zobacz Ograniczenia dotyczące obsługi wykazu aparatu Unity.

Przydziały zasobów

Unity Catalog wymusza limity przydziału zasobów dla wszystkich zabezpieczanych obiektów. Limity mają taką samą hierarchiczną organizacją w całej usłudze Unity Catalog. Jeśli spodziewasz się przekroczyć te limity zasobów, skontaktuj się z zespołem konta usługi Azure Databricks.

Poniższe wartości limitów przydziału są wyrażane względem obiektu nadrzędnego (lub najwyższego poziomu) w usłudze Unity Catalog.

Objekt Parent Wartość
table schema 10 000
table magazyn metadanych 100000
wolumin schema 10 000
function schema 10 000
zarejestrowany model schema 1000
zarejestrowany model magazyn metadanych 5000
wersja modelu zarejestrowany model 10 000
wersja modelu magazyn metadanych 100000
schema wykaz 10 000
wykaz magazyn metadanych 1000
połączenie magazyn metadanych 1000
referencja storage magazyn metadanych 200
lokalizacja zewnętrzna magazyn metadanych 500

Aby uzyskać informacje o limitach udostępniania różnicowego, zobacz Limity przydziału zasobów.