Nasazení služby Azure Databricks ve vlastní virtuální síti Azure (injektáž virtuální sítě)

Tento článek popisuje, jak nasadit pracovní prostor Azure Databricks ve vlastní virtuální síti Azure, označované také jako injektáž virtuální sítě.

Přizpůsobení sítě pomocí injektáže virtuální sítě

Azure Databricks je ve výchozím nasazení spravovaná služba v Azure. Virtuální síť Azure se nasadí do uzamčené skupiny prostředků. Všechny klasické prostředky roviny výpočetních prostředků jsou přidružené k této virtuální síti. Pokud potřebujete přizpůsobení sítě, můžete nasadit prostředky klasické výpočetní roviny Azure Databricks ve vlastní virtuální síti. To umožňuje:

Nasazení prostředků klasické výpočetní roviny Azure Databricks do vlastní virtuální sítě vám také umožní využívat flexibilní rozsahy CIDR. Pro virtuální síť můžete použít velikost /16-/24rozsahu CIDR . Pro podsítě použijte rozsahy IP adres tak malé jako /26.

Důležité

Virtuální síť pro existující pracovní prostor nelze nahradit. Pokud váš aktuální pracovní prostor nemůže pojmout požadovaný počet aktivních uzlů clusteru, doporučujeme vytvořit jiný pracovní prostor ve větší virtuální síti. Podle tohoto podrobného postupu migrace zkopírujte prostředky (poznámkové bloky, konfigurace clusteru, úlohy) ze starého do nového pracovního prostoru.

Požadavky na virtuální síť

Virtuální síť, kterou nasadíte do pracovního prostoru Azure Databricks, musí splňovat následující požadavky:

  • Oblast: Virtuální síť se musí nacházet ve stejné oblasti a předplatném jako pracovní prostor Azure Databricks.
  • Předplatné: Virtuální síť musí být ve stejném předplatném jako pracovní prostor Azure Databricks.
  • Adresní prostor: Blok CIDR mezi /16 virtuální sítí a /24 blokem CIDR až /26 pro dvě podsítě: podsíť kontejneru a podsíť hostitele. Pokyny k maximálnímu počtu uzlů clusteru na základě velikosti virtuální sítě a jejích podsítí najdete v tématu Adresní prostor a maximální počet uzlů clusteru.
  • Podsítě: Virtuální síť musí obsahovat dvě podsítě vyhrazené pro váš pracovní prostor Azure Databricks: podsíť kontejneru (někdy označovanou jako privátní podsíť) a podsíť hostitele (někdy označovanou jako veřejná podsíť). Když nasadíte pracovní prostor pomocí zabezpečeného připojení ke clusteru, podsíť kontejneru i podsíť hostitele používají privátní IP adresy. Podsítě nemůžete sdílet mezi pracovními prostory ani nasazovat jiné prostředky Azure do podsítí, které používá váš pracovní prostor Azure Databricks. Pokyny k maximálnímu počtu uzlů clusteru na základě velikosti virtuální sítě a jejích podsítí najdete v tématu Adresní prostor a maximální počet uzlů clusteru.

Adresní prostor a maximální počet uzlů clusteru

Pracovní prostor s menší virtuální sítí může běžet rychleji než pracovní prostor s větší virtuální sítí. Použijte blok CIDR mezi /16 virtuální sítí a /24 blokem CIDR až /26 pro dvě podsítě (podsíť kontejneru a podsíť hostitele). Blok CIDR můžete vytvořit až /28 pro vaše podsítě, ale Databricks nedoporučuje podsíť menší než /26.

Rozsah CIDR pro adresní prostor vaší virtuální sítě ovlivňuje maximální počet uzlů clusteru, které může váš pracovní prostor používat.

Pracovní prostor Azure Databricks vyžaduje ve virtuální síti dvě podsítě: podsíť kontejneru a podsíť hostitele. Azure si v každé podsíti vyhrazuje pět IP adres. Azure Databricks vyžaduje pro každý uzel clusteru dvě IP adresy: jednu IP adresu hostitele v podsíti hostitele a jednu IP adresu kontejneru v podsíti kontejneru.

  • Možná nebudete chtít použít celý adresní prostor vaší virtuální sítě. Můžete například chtít vytvořit více pracovních prostorů v jedné virtuální síti. Protože nemůžete sdílet podsítě mezi pracovními prostory, můžete chtít podsítě, které nepoužívají celkový adresní prostor virtuální sítě.
  • Adresní prostor je nutné přidělit pro dvě nové podsítě, které jsou v adresních prostorech virtuální sítě a nepřekrývají adresní prostor aktuálních nebo budoucích podsítí v dané virtuální síti.

Následující tabulka uvádí maximální velikost podsítě na základě velikosti sítě. Tato tabulka předpokládá, že neexistují žádné další podsítě, které zabírají adresní prostor. Pokud máte existující podsítě nebo chcete rezervovat adresní prostor pro jiné podsítě, použijte menší podsítě:

Adresní prostor virtuální sítě (CIDR) Maximální velikost podsítě Azure Databricks (CIDR) za předpokladu, že žádné jiné podsítě
/16 /17
/17 /18
/18 /19
/20 /21
/21 /22
/22 /23
/23 /24
/24 /25

Pokud chcete najít maximální počet uzlů clusteru na základě velikosti podsítě, použijte následující tabulku. IP adresy na sloupec podsítě zahrnují pět IP adres vyhrazených pro Azure. Sloupec úplně vpravo označuje počet uzlů clusteru, které se můžou současně spouštět v pracovním prostoru zřízeném s podsítěmi dané velikosti.

Velikost podsítě (CIDR) IP adresy na podsíť Maximální počet uzlů clusteru Azure Databricks
/17 32768 32763
/18 16384 16379
/19 8192 8187
/20 4096 4091
/21 2048 2043
/22 1024 1019
/23 512 507
/24 256 251
/25 128 123
/26 64 59

Výchozí IP adresy při použití zabezpečeného připojení ke clusteru

Pokud povolíte zabezpečené připojení clusteru ve vašem pracovním prostoru, který používá injektáž virtuální sítě, databricks doporučuje, aby váš pracovní prostor má stabilní veřejnou IP adresu výchozího přenosu dat.

Stabilní veřejné IP adresy pro výchozí přenos dat jsou užitečné, protože je můžete přidat do externích seznamů povolených přenosů dat. Pokud se například chcete připojit z Azure Databricks k Salesforce se stabilní odchozí IP adresou.

Upozorňující

Microsoft oznámil, že 30. září 2025 se výchozí odchozí přístup pro virtuální počítače v Azure vyřadí z důchodu. Podívejte se na toto oznámení. To znamená, že pracovní prostory Azure Databricks, které místo stabilní veřejné IP adresy odchozích přenosů používají výchozí odchozí přístup, nemusí po tomto datu dál fungovat. Databricks doporučuje přidat explicitní odchozí metody pro pracovní prostory před tímto datem.

Pokud chcete nakonfigurovat stabilní veřejnou IP adresu výchozího přenosu dat, přečtěte si téma Výchozí přenos dat pomocí injektáže virtuální sítě.

Sdílené prostředky a partnerský vztah

Pokud se vyžadují sdílené síťové prostředky, jako je DNS, databricks důrazně doporučuje dodržovat osvědčené postupy Azure pro hvězdicový model. Pomocí partnerského vztahu virtuálních sítí virtuálních sítí můžete rozšířit privátní IP prostor virtuální sítě pracovního prostoru do centra a zachovat paprsky oddělené od sebe.

Pokud máte ve virtuální síti další prostředky nebo používáte partnerský vztah, databricks důrazně doporučuje přidat pravidla odepření do skupin zabezpečení sítě (NSG), které jsou připojené k jiným sítím a podsítím ve stejné virtuální síti nebo jsou v partnerském vztahu s danou virtuální sítí. Přidejte pravidla zamítnutí pro připojení pro příchozí i odchozí připojení, aby omezila připojení výpočetních prostředků Azure Databricks i z nich. Pokud váš cluster potřebuje přístup k prostředkům v síti, přidejte pravidla, která umožňují pouze minimální množství přístupu potřebného ke splnění požadavků.

Související informace najdete v tématu Pravidla skupiny zabezpečení sítě.

Vytvoření pracovního prostoru Azure Databricks pomocí webu Azure Portal

Tato část popisuje, jak vytvořit pracovní prostor Azure Databricks na webu Azure Portal a nasadit ho ve vlastní existující virtuální síti. Azure Databricks aktualizuje virtuální síť o dvě nové podsítě, pokud ještě neexistují, pomocí vámi zadaných rozsahů CIDR. Služba také aktualizuje podsítě novou skupinou zabezpečení sítě, konfigurací příchozích a odchozích pravidel a nakonec nasadí pracovní prostor do aktualizované virtuální sítě. Pokud chcete mít větší kontrolu nad konfigurací virtuální sítě, použijte místo portálu šablony Azure Resource Manageru (ARM) dodané v Azure Databricks. Můžete například použít existující skupiny zabezpečení sítě nebo vytvořit vlastní pravidla zabezpečení. Viz Pokročilá konfigurace pomocí šablon Azure Resource Manageru.

Uživatel, který pracovní prostor vytvoří, musí mít přiřazenou roli Přispěvatel sítě k příslušné virtuální síti nebo vlastní roli, která má přiřazená Microsoft.Network/virtualNetworks/subnets/join/action oprávnění.Microsoft.Network/virtualNetworks/subnets/write

Musíte nakonfigurovat virtuální síť, do které nasadíte pracovní prostor Azure Databricks. Můžete použít existující virtuální síť nebo vytvořit novou, ale virtuální síť musí být ve stejné oblasti a stejném předplatném jako pracovní prostor Azure Databricks, který plánujete vytvořit. Virtuální síť musí mít velikost v rozsahu CIDR mezi /16 a /24. Další požadavky najdete v tématu Požadavky na virtuální síť.

Při konfiguraci pracovního prostoru použijte existující podsítě nebo zadejte názvy a rozsahy IP adres pro nové podsítě.

  1. Na webu Azure Portal vyberte + Vytvořit analýzu > prostředků > Azure Databricks nebo vyhledejte Azure Databricks a kliknutím na Vytvořit nebo + Přidat spusťte dialogové okno Azure Databricks Service.

  2. Postupujte podle kroků konfigurace popsaných v pracovním prostoru Azure Databricks ve vlastním rychlém startu pro virtuální síť .

  3. Na kartě Sítě vyberte virtuální síť, kterou chcete použít v poli Virtuální síť.

    Důležité

    Pokud v nástroji pro výběr nevidíte název sítě, ověřte, že oblast Azure, kterou jste zadali pro pracovní prostor, odpovídá oblasti Azure požadované virtuální sítě.

    Výběr virtuální sítě

  4. Pojmenujte své podsítě a zadejte rozsahy CIDR v bloku až do velikosti /26. Pokyny k maximálnímu počtu uzlů clusteru na základě velikosti virtuální sítě a jejích podsítí najdete v tématu Adresní prostor a maximální počet uzlů clusteru. Rozsahy CIDR podsítě nelze po nasazení pracovního prostoru změnit.

    • Pokud chcete zadat existující podsítě, zadejte přesné názvy existujících podsítí. Při použití existujících podsítí také nastavte rozsahy IP adres ve formuláři pro vytvoření pracovního prostoru tak, aby přesně odpovídaly rozsahům IP adres existujících podsítí.
    • Pokud chcete vytvořit nové podsítě, zadejte názvy podsítí, které v této virtuální síti ještě neexistují. Podsítě se vytvoří se zadanými rozsahy IP adres. Rozsahy IP adres musíte zadat v rozsahu IP adres vaší virtuální sítě a ještě není přiděleno existujícím podsítím.

    Azure Databricks vyžaduje, aby názvy podsítí nebyly delší než 80 znaků.

    Podsítě získají přidružená pravidla skupiny zabezpečení sítě, která obsahují pravidlo pro povolení interní komunikace clusteru. Azure Databricks má delegovaná oprávnění k aktualizaci obou podsítí prostřednictvím Microsoft.Databricks/workspaces poskytovatele prostředků. Tato oprávnění platí jenom pro pravidla skupiny zabezpečení sítě, která vyžaduje Azure Databricks, ne pro jiná pravidla skupiny zabezpečení sítě, která přidáte, nebo do výchozích pravidel skupiny zabezpečení sítě, která jsou součástí všech skupin zabezpečení sítě.

  5. Kliknutím na Vytvořit nasadíte pracovní prostor Azure Databricks do virtuální sítě.

Pokročilá konfigurace pomocí šablon Azure Resource Manageru

Pokud chcete mít větší kontrolu nad konfigurací virtuální sítě, použijte místo automatické konfigurace virtuální sítě založené na uživatelském rozhraní portálu a nasazení pracovního prostoru následující šablony Azure Resource Manageru (ARM). Můžete například použít existující podsítě, existující skupinu zabezpečení sítě nebo přidat vlastní pravidla zabezpečení.

Pokud k nasazení pracovního prostoru do existující virtuální sítě používáte vlastní šablonu Azure Resource Manageru nebo šablonu pracovního prostoru pro injektáž virtuální sítě Azure Databricks, musíte před nasazením pracovního prostoru vytvořit podsítě hostitele a kontejneru, připojit skupinu zabezpečení sítě ke každé podsíti a delegovat Microsoft.Databricks/workspaces podsítě poskytovateli prostředků. Pro každý pracovní prostor, který nasazujete, musíte mít samostatnou dvojici podsítí.

Šablona all-in-one

Pokud chcete vytvořit virtuální síť a pracovní prostor Azure Databricks pomocí jedné šablony, použijte šablonu typu All-in-one pro pracovní prostory vložené do virtuální sítě Azure Databricks.

Šablona virtuální sítě

Pokud chcete vytvořit virtuální síť se správnými podsítěmi pomocí šablony, použijte šablonu virtuální sítě pro injektáž virtuální sítě Databricks.

Šablona pracovního prostoru Azure Databricks

Pokud chcete nasadit pracovní prostor Azure Databricks do existující virtuální sítě pomocí šablony, použijte šablonu pracovního prostoru pro injektáž virtuální sítě Azure Databricks.

Šablona pracovního prostoru umožňuje zadat existující virtuální síť a používat existující podsítě:

  • Pro každý nasazený pracovní prostor musíte mít samostatnou dvojici podsítí hostitele nebo kontejneru. Není podporováno sdílení podsítí mezi pracovními prostory nebo nasazení dalších prostředků Azure do podsítí, které používá váš pracovní prostor Azure Databricks.
  • Hostitel virtuální sítě a podsítě kontejneru musí mít připojené skupiny zabezpečení sítě a musí být před použitím této šablony Azure Resource Manageru pro nasazení pracovního prostoru delegovány do Microsoft.Databricks/workspaces služby.
  • Pokud chcete vytvořit virtuální síť s správně delegovanými podsítěmi, použijte šablonu virtuální sítě pro injektáž virtuální sítě Databricks.
  • Pokud chcete použít existující virtuální síť, pokud jste ještě nedelegovali podsítě hostitele a kontejneru, přečtěte si téma Přidání nebo odebrání delegování podsítě.

Pravidla skupin zabezpečení sítě

Následující tabulky zobrazují aktuální pravidla skupin zabezpečení sítě používaná službou Azure Databricks. Pokud Azure Databricks potřebuje přidat pravidlo nebo změnit rozsah existujícího pravidla v tomto seznamu, dostanete předem oznámení. Tento článek a tabulky budou aktualizovány vždy, když dojde k takové změně.

Jak Azure Databricks spravuje pravidla skupin zabezpečení sítě

Pravidla NSG uvedená v následujících částech představují ty, které Azure Databricks automaticky zřizuje a spravuje ve vaší skupině zabezpečení sítě na základě delegování hostitelů virtuální sítě a podsítí kontejnerů do Microsoft.Databricks/workspaces služby. Nemáte oprávnění k aktualizaci nebo odstranění těchto pravidel NSG a veškerý pokus o to je blokován delegováním podsítě. Azure Databricks musí tato pravidla vlastnit, aby microsoft mohl spolehlivě pracovat a podporovat službu Azure Databricks ve vaší virtuální síti.

Některá z těchto pravidel NSG mají virtuální síť přiřazenou jako zdroj a cíl. Tato funkce byla implementována, aby se zjednodušil návrh bez značky služby na úrovni podsítě v Azure. Všechny clustery jsou chráněny druhou vrstvou zásad sítě interně, aby se cluster A nemohl připojit ke clusteru B ve stejném pracovním prostoru. To platí i pro více pracovních prostorů, pokud jsou vaše pracovní prostory nasazené do jiné dvojice podsítí ve stejné virtuální síti spravované zákazníkem.

Důležité

Databricks důrazně doporučuje přidat pravidla odepření do skupin zabezpečení sítě (NSG), které jsou připojené k jiným sítím a podsítím, které jsou ve stejné virtuální síti nebo jsou v partnerském vztahu k této virtuální síti. Přidejte pravidla zamítnutí pro připojení pro příchozí i odchozí připojení, aby omezila připojení výpočetních prostředků Azure Databricks i z nich. Pokud váš cluster potřebuje přístup k prostředkům v síti, přidejte pravidla, která umožňují pouze minimální množství přístupu potřebného ke splnění požadavků.

Pravidla skupiny zabezpečení sítě pro pracovní prostory

Informace v této části platí jenom pro pracovní prostory Azure Databricks vytvořené po 13. lednu 2020. Pokud byl váš pracovní prostor vytvořen před vydáním zabezpečeného připojení ke clusteru (SCC) 13. ledna 2020, přečtěte si další část.

Tato tabulka uvádí pravidla skupin zabezpečení sítě pro pracovní prostory a obsahuje dvě příchozí pravidla skupin zabezpečení, která jsou zahrnutá pouze v případě , že je zakázané zabezpečené připojení clusteru (SCC ).

Směr Protokol Zdroj Zdrojový port Cíl Dest Port Used (užíván)
Příchozí Všechny VirtualNetwork Všechny VirtualNetwork Všechny Výchozí
Příchozí TCP AzureDatabricks (značka služby)
Pouze v případě, že je SCC zakázaný
Všechny VirtualNetwork 22 Veřejná IP adresa
Příchozí TCP AzureDatabricks (značka služby)
Pouze v případě, že je SCC zakázaný
Všechny VirtualNetwork 5557 Veřejná IP adresa
Odchozí TCP VirtualNetwork Všechny AzureDatabricks (značka služby) 443, 3306, 8443-8451 Výchozí
Odchozí TCP VirtualNetwork Všechny SQL 3306 Výchozí
Odchozí TCP VirtualNetwork Všechny Úložiště 443 Výchozí
Odchozí Všechny VirtualNetwork Všechny VirtualNetwork Všechny Výchozí
Odchozí TCP VirtualNetwork Všechny Centrum událostí 9093 Výchozí

Poznámka:

Pokud omezíte pravidla odchozích přenosů, databricks doporučuje otevřít porty 111 a 2049, aby se povolily určité instalace knihoven.

Důležité

Azure Databricks je služba Microsoft Azure první strany, která je nasazená v infrastruktuře globálního veřejného cloudu Azure. Veškerá komunikace mezi komponentami služby, včetně mezi veřejnými IP adresami v řídicí rovině a výpočetní rovinou zákazníka, zůstávají v páteřní síti Microsoft Azure. Viz také globální síť Microsoftu.

Řešení potíží

Chyby při vytváření pracovního prostoru

Podsíť <subnet-id> vyžaduje, aby odkaz na odkaz na propojení přidružení služeb některé z následujících delegování [Microsoft.Databricks/workspaces]

Možná příčina: Vytváříte pracovní prostor ve virtuální síti, jejíž podsítě hostitele a kontejneru nebyly delegovány do Microsoft.Databricks/workspaces služby. Každá podsíť musí mít připojenou skupinu zabezpečení sítě a musí být správně delegovaná. Další informace najdete v tématu Požadavky na virtuální síť.

Podsíť <subnet-id> se už používá v pracovním prostoru. <workspace-id>

Možná příčina: Vytváříte pracovní prostor ve virtuální síti s podsítěmi hostitelů a kontejnerů, které už používají existující pracovní prostor Azure Databricks. V rámci jedné podsítě nelze sdílet několik pracovních prostorů. Pro každý pracovní prostor, který nasazujete, musíte vytvořit novou dvojici podsítí hostitele a kontejneru.

Řešení problému

Nedostupné instance: Prostředky nebyly dostupné přes SSH.

Možná příčina: provoz z řídicí roviny do pracovních procesů je zablokovaný. Pokud nasazujete do stávající virtuální sítě připojené k vaší místní síti, zkontrolujte nastavení pomocí informací uvedených v části Připojení pracovního prostoru Azure Databricks k vlastní místní síti.

Neočekávané selhání spuštění: Při nastavování clusteru byla zjištěna neočekávaná chyba. Zkuste to znovu, a pokud problém přetrvává, obraťte se na tým Azure Databricks. Vnitřní chybová zpráva: Timeout while placing node.

Možná příčina: Provoz z pracovních procesů do koncových bodů služby Azure Storage je zablokovaný. Pokud používáte vlastní servery DNS, zkontrolujte také stav serverů DNS ve virtuální síti.

Selhání spuštění poskytovatele cloudu: Při nastavování clusteru došlo k chybě poskytovatele cloudu. Další informace najdete v průvodci službou Azure Databricks. Kód chyby Azure: AuthorizationFailed/InvalidResourceReference.

Možná příčina: Virtuální síť nebo podsítě už neexistují. Ujistěte se, že virtuální síť a podsítě existují.

Cluster se ukončil. Důvod: Selhání spuštění Sparku: Spark se nepodařilo spustit včas. Příčinou tohoto problému mohou být nefunkční metastore Hive, neplatné konfigurace Sparku nebo chybné inicializační skripty. Pokud chcete tento problém vyřešit, projděte si protokoly ovladačů Sparku, a pokud problém přetrvává, obraťte se na Databricks. Vnitřní chybová zpráva: Spark failed to start: Driver failed to start in time.

Možná příčina: Kontejner nemůže komunikovat s hostující instancí nebo účtem úložiště DBFS. Řešením je přidat do podsítí pro účet úložiště DBFS vlastní trasu s dalším segmentem směrování nastaveným na internet.