Monitorowanie kosztów ruchu wychodzącego udostępniania różnicowego i zarządzanie nimi (dla dostawców)

W tym artykule opisano narzędzia, których można użyć do monitorowania kosztów ruchu wychodzącego dostawcy chmury i zarządzania nimi podczas udostępniania danych i zasobów sztucznej inteligencji przy użyciu funkcji udostępniania różnicowego.

W przeciwieństwie do innych platform udostępniania danych udostępnianie różnicowe nie wymaga replikacji danych. Ten model ma wiele zalet, ale oznacza to, że dostawca chmury może pobierać opłaty za ruch wychodzący danych podczas udostępniania danych w chmurach lub regionach. Jeśli używasz funkcji Delta Sharing do udostępniania danych i zasobów sztucznej inteligencji w regionie, nie ponosisz żadnych kosztów ruchu wychodzącego.

Aby monitorować opłaty za ruch wychodzący i zarządzać nimi, usługa Databricks zapewnia:

Replikowanie danych w celu uniknięcia kosztów ruchu wychodzącego

Jednym z podejść do unikania kosztów ruchu wychodzącego jest utworzenie i zsynchronizowanie lokalnych replik udostępnionych danych w regionach, z których korzystają ich adresaci. Innym podejściem jest sklonowanie udostępnionych danych do regionów lokalnych na potrzeby aktywnego wykonywania zapytań, skonfigurowanie synchronizacji między udostępnioną tabelą a klonem lokalnym. W tej sekcji omówiono wiele wzorców replikacji.

Używanie głębokiego klonowania różnicowego na potrzeby replikacji przyrostowej

Dostawcy mogą używać DEEP CLONE funkcji do replikowania tabel różnicowych do lokalizacji zewnętrznych w różnych regionach, do których współużytkują. Głębokie klony kopiują dane i metadane tabeli źródłowej do obiektu docelowego klonowania. Głębokie klony umożliwiają również aktualizacje przyrostowe, identyfikując nowe dane w tabeli źródłowej i odświeżając odpowiednio obiekt docelowy.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

Zadanie przepływów pracy usługi Databricks można zaplanować w celu przyrostowego odświeżania danych tabeli docelowej z najnowszymi aktualizacjami w tabeli udostępnionej przy użyciu następującego polecenia:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

Zobacz Klonowanie tabeli w usłudze Azure Databricks i Wprowadzenie do przepływów pracy usługi Azure Databricks.

Włączanie zestawienia danych zmian (CDF) w tabelach udostępnionych na potrzeby replikacji przyrostowej

Gdy tabela jest udostępniana jego cdF, odbiorca może uzyskać dostęp do zmian i scalić je z lokalną kopią tabeli, gdzie użytkownicy wykonują zapytania. W tym scenariuszu dostęp adresata do danych nie przekracza granic regionów, a ruch wychodzący jest ograniczony do odświeżania kopii lokalnej. Jeśli adresat znajduje się w usłudze Databricks, może użyć zadania przepływu pracy usługi Databricks, aby propagować zmiany do repliki lokalnej.

Aby udostępnić tabelę cdF, musisz włączyć usługę CDF w tabeli i udostępnić ją WITH HISTORY.

Aby uzyskać więcej informacji na temat korzystania z usługi CDF, zobacz Use Delta Lake change data feed on Azure Databricks (Używanie zestawienia zmian usługi Delta Lake w usłudze Azure Databricks ) i Add tables to a share (Dodawanie tabel do udziału).

Używanie replik Cloudflare R2 lub migrowanie magazynu do wersji R2

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Magazyn obiektów Cloudflare R2 nie ponosi opłat za ruch wychodzący. Replikowanie lub migrowanie danych udostępnianych w usłudze R2 umożliwia udostępnianie danych przy użyciu funkcji Delta Sharing bez ponoszenia opłat za ruch wychodzący. W tej sekcji opisano sposób replikowania danych do lokalizacji R2 i włączania aktualizacji przyrostowych z tabel źródłowych.

Wymagania

  • Obszar roboczy usługi Databricks jest włączony dla wykazu aparatu Unity.
  • Databricks Runtime 14.3 lub nowszy albo SQL Warehouse 2024.15 lub nowszy.
  • Konto cloudflare. Zobacz: https://dash.cloudflare.com/sign-up.
  • Rola Administracja Cloudflare R2. Zapoznaj się z dokumentacją ról cloudflare.
  • CREATE STORAGE CREDENTIAL uprawnienia do magazynu metadanych wykazu aparatu Unity dołączonego do obszaru roboczego. Administratorzy kont i administratorzy magazynu metadanych mają domyślnie te uprawnienia.
  • CREATE EXTERNAL LOCATION uprawnienie zarówno w magazynie metadanych, jak i poświadczeniu magazynu, do którego odwołuje się lokalizacja zewnętrzna. Administratorzy magazynu metadanych mają domyślnie te uprawnienia.
  • CREATE MANAGED STORAGE uprawnienia w lokalizacji zewnętrznej.
  • CREATE CATALOG w magazynie metadanych. Administratorzy magazynu metadanych mają domyślnie te uprawnienia.

Instalowanie zasobnika R2 jako lokalizacji zewnętrznej w usłudze Azure Databricks

  1. Utwórz zasobnik Cloudflare R2.

    Zobacz Konfigurowanie zasobnika R2.

  2. Utwórz poświadczenie magazynu w wykazie aparatu Unity, które zapewnia dostęp do zasobnika R2.

    Zobacz Tworzenie poświadczeń magazynu.

  3. Użyj poświadczeń magazynu, aby utworzyć lokalizację zewnętrzną w katalogu aparatu Unity.

    Zobacz Tworzenie lokalizacji zewnętrznej w celu połączenia magazynu w chmurze z usługą Azure Databricks.

Tworzenie nowego wykazu przy użyciu lokalizacji zewnętrznej

Utwórz wykaz, który używa nowej lokalizacji zewnętrznej jako zarządzanej lokalizacji magazynu.

Zobacz Tworzenie katalogów i zarządzanie nimi.

Podczas tworzenia wykazu wykonaj następujące czynności:

Eksplorator wykazu

  • Wybierz typ wykazu w warstwie Standardowa .
  • W obszarze Lokalizacja magazynu wybierz pozycję Wybierz lokalizację magazynu i wprowadź ścieżkę do zasobnika R2 zdefiniowanego jako lokalizacja zewnętrzna. Na przykład r2://mybucket@my-account-id.r2.cloudflarestorage.com

Sql

Użyj ścieżki do zasobnika R2 zdefiniowanego jako lokalizacja zewnętrzna. Na przykład:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

Sklonuj dane, które chcesz udostępnić do tabeli w nowym wykazie

Służy DEEP CLONE do replikowania tabel w usłudze Azure Data Lake Storage Gen2 do nowego katalogu, który używa języka R2 do magazynu zarządzanego. Głębokie klony kopiują dane i metadane tabeli źródłowej do obiektu docelowego klonowania. Głębokie klony umożliwiają również aktualizacje przyrostowe, identyfikując nowe dane w tabeli źródłowej i odświeżając odpowiednio obiekt docelowy.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

Zadanie przepływów pracy usługi Databricks można zaplanować w celu przyrostowego odświeżania danych tabeli docelowej przy użyciu najnowszych aktualizacji w tabeli źródłowej przy użyciu następującego polecenia:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

Zobacz Klonowanie tabeli w usłudze Azure Databricks i Wprowadzenie do przepływów pracy usługi Azure Databricks.

Udostępnianie nowej tabeli

Podczas tworzenia udziału dodaj tabele, które znajdują się w nowym wykazie, przechowywane w języku R2. Proces jest taki sam jak dodawanie dowolnej tabeli do udziału.

Zobacz Tworzenie udziałów i zarządzanie nimi na potrzeby udostępniania różnicowego.