Připojení do cloudového úložiště objektů pomocí katalogu Unity

Tento článek poskytuje přehled konfigurací připojení ke cloudovému úložišti, které jsou potřeba pro práci s daty pomocí katalogu Unity.

Databricks doporučuje ke správě přístupu ke všem datům uloženým v cloudovém úložišti objektů používat Katalog Unity. Unity Catalog poskytuje sadu nástrojů pro konfiguraci zabezpečených připojení ke cloudovému úložišti objektů. Tato připojení poskytují přístup k provedení následujících akcí:

  • Ingestování nezpracovaných dat do jezera
  • Vytváření a čtení spravovaných tabulek v zabezpečeném cloudovém úložišti
  • Zaregistrujte nebo vytvořte externí tabulky obsahující tabulková data.
  • Čtení a zápis nestrukturovaných dat

Upozorňující

Neudělujte koncovým uživatelům přístup na úrovni úložiště ke spravovaným tabulkám nebo svazkům katalogu Unity. To ohrožuje zabezpečení a zásady správného řízení dat.

Udělení přístupu na úrovni úložiště uživatelům k externímu úložišti v Azure Data Lake Storage Gen2 nedodržuje žádná oprávnění udělená ani audity spravované katalogem Unity. Přímý přístup vynechá auditování, rodokmen a další funkce zabezpečení a monitorování katalogu Unity, včetně řízení přístupu a oprávnění. Zodpovídáte za správu přímého přístupu k úložišti prostřednictvím Azure Data Lake Storage Gen2 a zajišťujete, aby uživatelé měli příslušná oprávnění udělená prostřednictvím prostředků infrastruktury.

Vyhněte se všem scénářům, které udělují přímý přístup k zápisu na úrovni úložiště pro kontejnery, které ukládají spravované tabulky Databricks. Změna, odstranění nebo vývoj objektů přímo prostřednictvím úložiště, které byly původně spravovány katalogem Unity, může vést k poškození dat.

Poznámka:

Pokud byl váš pracovní prostor vytvořen před 9. listopadem 2023, nemusí být povolený pro katalog Unity. Správce účtu musí pro váš pracovní prostor povolit katalog Unity. Viz Povolení pracovního prostoru pro katalog Unity.

Jak Katalog Unity připojuje úložiště objektů k Azure Databricks?

Azure Databricks podporuje kontejnery Azure Data Lake Storage Gen2 i kontejnery Cloudflare R2 (Public Preview) jako umístění cloudového úložiště pro data a prostředky AI zaregistrované v katalogu Unity. R2 je určen především pro případy použití, ve kterých se chcete vyhnout poplatkům za výchozí přenos dat, jako je rozdílové sdílení mezi cloudy a oblastmi. Další informace najdete v tématu Použití replik Cloudflare R2 nebo migrace úložiště na R2.

Ke správě přístupu k podkladovému cloudovému úložišti, které obsahuje tabulky a svazky, používá Katalog Unity následující typy objektů:

  • Přihlašovací údaje úložiště představují mechanismus ověřování a autorizace pro přístup k datům uloženým ve vašem cloudovém tenantovi pomocí spravované identity Nebo instančního objektu Azure pro kontejnery Azure Data Lake Storage Gen2 nebo token rozhraní API R2 pro kontejnery Cloudflare R2. Každé přihlašovací údaje úložiště podléhají zásadám řízení přístupu katalogu Unity, které určují, kteří uživatelé a skupiny mají přístup k přihlašovacím údajům. Pokud uživatel nemá přístup k přihlašovacím údajům úložiště v katalogu Unity, požadavek selže a Katalog Unity se nepokusí ověřit ve vašem cloudovém tenantovi jménem uživatele. Oprávnění k vytváření přihlašovacích údajů k úložišti by se mělo udělit jenom uživatelům, kteří potřebují definovat externí umístění. Viz Vytvoření přihlašovacích údajů úložiště pro připojení k Azure Data Lake Storage Gen2 a vytvoření přihlašovacích údajů úložiště pro připojení ke Cloudflare R2.

  • Externí umístění je objekt, který kombinuje cestu cloudového úložiště s přihlašovacími údaji úložiště, které autorizuje přístup k cestě cloudového úložiště. Každé umístění úložiště podléhá zásadám řízení přístupu ke katalogu Unity, které určují, kteří uživatelé a skupiny mají přístup k přihlašovacím údajům. Pokud uživatel nemá přístup k umístění úložiště v katalogu Unity, požadavek selže a Katalog Unity se nepokusí ověřit ve vašem cloudovém tenantovi jménem uživatele. Oprávnění k vytváření a používání externích umístění by mělo být uděleno pouze uživatelům, kteří potřebují vytvářet externí tabulky, externí svazky nebo spravovaná umístění úložiště. Viz Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks.

    Externí umístění se používají pro externí datové prostředky, jako jsou externí tabulky a externí svazky, a pro spravované datové prostředky, jako jsou spravované tabulky a spravované svazky. Další informace o rozdílu naleznete v tématu Tabulky a svazky.

    Pokud se pro ukládání spravovaných tabulek a spravovaných svazků používá externí umístění, označuje se jako spravované umístění úložiště. Spravovaná umístění úložiště můžou existovat na úrovni metastoru, katalogu nebo schématu. Databricks doporučuje konfigurovat spravovaná umístění úložiště na úrovni katalogu. Pokud potřebujete podrobnější izolaci, můžete určit spravovaná umístění úložiště na úrovni schématu. Pracovní prostory, které jsou povolené pro Katalog Unity, ve výchozím nastavení nemají žádné úložiště na úrovni metastoru, ale můžete určit spravované umístění úložiště na úrovni metastoru, které bude poskytovat výchozí úložiště, pokud není definováno žádné úložiště na úrovni katalogu. Pracovní prostory, které jsou pro katalog Unity povolené ručně, ve výchozím nastavení přijímají umístění spravovaného úložiště na úrovni metastoru. Viz Určení spravovaného umístění úložiště v katalogu Unity a osvědčených postupech katalogu Unity.

Svazky jsou zabezpečitelný objekt, který by většina uživatelů Azure Databricks měla použít k přímé interakci s ne tabulkovými daty v cloudovém úložišti objektů. Viz Vytvoření svazků a práce se svazky.

Poznámka:

I když Katalog Unity podporuje přístup k externím tabulkám a externím svazkům pomocí identifikátorů URI cloudového úložiště, Doporučuje Databricks, aby uživatelé přečetli a zapisují všechny tabulky Katalogu Unity pomocí názvů tabulek a přistupují k datům ve svazcích pomocí /Volumes cest.

Další kroky

Pokud právě začínáte s katalogem Unity jako správcem, přečtěte si téma Nastavení a správa katalogu Unity.

Pokud jste nový uživatel a váš pracovní prostor je už povolený pro Katalog Unity, přečtěte si kurz : Vytvoření první tabulky a udělení oprávnění.