Červenec 2019

Tyto funkce a vylepšení platformy Azure Databricks byly vydány v červenci 2019.

Poznámka:

Verze jsou připraveny. Váš účet Azure Databricks se nemusí aktualizovat až do týdne po počátečním datu vydání.

Připravujeme: Databricks 6.0 nebude podporovat Python 2

Předvídání nadcházejícího konce životnosti Pythonu 2, které bylo oznámeno pro 2020, nebude Python 2 podporován v Databricks Runtime 6.0. Starší verze Databricks Runtime budou dál podporovat Python 2. Očekáváme vydání Databricks Runtime 6.0 později v roce 2019.

Předběžné načtení verze Databricks Runtime u nečinných instancí fondu

30. července – 6. června 2019: Verze 2.103

Spuštění clusteru s podporou fondu teď můžete urychlit tak, že vyberete verzi Databricks Runtime, která se načte v nečinných instancích ve fondu. Pole v uživatelském rozhraní fondu se nazývá Předinstalovaná verze Sparku.

Preloaded Spark version

Lepší souhra vlastních značek clusteru a značek fondů

30. července – 6. června 2019: Verze 2.103

Před tímto měsícem služba Azure Databricks zavedla fondy, což je sada nečinných instancí, které vám pomůžou rychle aktivovat clustery. V původní verzi zdědily clustery s podporou fondu výchozí a vlastní značky z konfigurace fondu a tyto značky na úrovni clusteru nešlo upravit. Teď můžete nakonfigurovat vlastní značky specifické pro cluster s podporou fondu a tento cluster použije všechny vlastní značky, ať už zděděné z fondu, nebo přiřazené konkrétně k ho clusteru. Vlastní značku specifickou pro cluster nelze přidat se stejným názvem klíče jako vlastní značka zděděná z fondu (to znamená, že nemůžete přepsat vlastní značku zděděnou z fondu). Podrobnosti najdete v tématu Značky fondu.

MLflow 1.1 přináší několik vylepšení uživatelského rozhraní a rozhraní API

30. července – 6. června 2019: Verze 2.103

MLflow 1.1 zavádí několik nových funkcí pro zlepšení použitelnosti uživatelského rozhraní a rozhraní API:

  • Uživatelské rozhraní přehledu spuštění teď umožňuje procházet více stránek spuštění, pokud počet spuštění překročí 100. Po 100. spuštění klikněte na tlačítko Načíst další a načtěte dalších 100 spuštění.

    Paged runs

  • Porovnání spouští uživatelské rozhraní nyní poskytuje paralelní souřadnice grafu. Graf umožňuje sledovat vztahy mezi ndimenzionální sadou parametrů a metrik. Vizualizuje všechna spuštění jako čáry, které jsou barevně zakódované na základě hodnoty metriky (například přesnosti) a zobrazuje hodnoty parametrů, které jednotlivé spuštění převzaly.

    Parallel coordinates plot

  • Teď můžete přidávat a upravovat značky z uživatelského rozhraní přehledu spuštění a zobrazovat značky v zobrazení hledání experimentu.

  • Nové rozhraní API MLflowContext umožňuje vytvářet a protokolovat spouštění způsobem, který se podobá rozhraní Python API. Toto rozhraní API kontrastuje se stávajícím rozhraním API nízké úrovně MlflowClient , které jednoduše zabalí rozhraní REST API.

  • Značky z MLflow teď můžete odstranit pomocí rozhraní API DeleteTag.

Podrobnosti najdete v blogovém příspěvku MLflow 1.1. Úplný seznam funkcí a oprav najdete v protokolu změn MLflow.

Datový rámec pandas se vykresluje jako v Jupyteru

30. července – 6. června 2019: Verze 2.103

Když teď zavoláte datový rámec pandas, vykreslí se stejným způsobem jako v Jupyteru.

Display pandas DataFrame

Nové oblasti

30. července 2019

Azure Databricks je teď k dispozici v následujících dalších oblastech:

  • Jižní Korea – střed
  • Jižní Afrika – sever

Databricks Runtime 5.5 se systémem Conda (Beta)

23. července 2019

Důležité

Databricks Runtime s Conda je v beta verzi. Obsah podporovaných prostředí se může v nadcházejících beta verzích změnit. Změny můžou zahrnovat seznam balíčků nebo verzí nainstalovaných balíčků. Databricks Runtime 5.5 s Conda je postaven na Databricks Runtime 5.5 LTS (nepodporované).

Databricks Runtime 5.5 s verzí Conda přidává nové rozhraní API knihovny s oborem poznámkového bloku, které podporuje aktualizaci prostředí Conda poznámkového bloku pomocí specifikace YAML (viz dokumentace k Conda).

Podívejte se na úplné poznámky k verzi v Databricks Runtime 5.5 s Conda (nepodporováno).

Aktualizován limit pro připojení metastoru

16. července – 23. července 2019: Verze 2.102

Nové pracovní prostory Azure Databricks v oblasti eastus, eastus2, centralus, westus2, westus2, westeurope, northeurope budou mít vyšší limit připojení metastoru 250. Stávající pracovní prostory budou nadále používat aktuální metastore bez přerušení a budou mít nadále limit připojení 100.

Nastavení oprávnění ve fondech (Public Preview)

16. července – 23. července 2019: Verze 2.102

Uživatelské rozhraní fondu teď podporuje nastavení oprávnění pro toho, kdo může spravovat fondy a kdo může připojit clustery k fondům.

Podrobnosti najdete v tématu Oprávnění fondu.

Databricks Runtime 5.5 pro strojové učení

15. července 2019

Databricks Runtime 5.5 ML je postaven na Databricks Runtime 5.5 LTS (nepodporované). Obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch, Keras a XGBoost a poskytuje distribuované trénování TensorFlow pomocí Horovodu.

Tato verze obsahuje následující nové funkce a vylepšení:

  • Přidání balíčku Pythonu MLflow 1.0
  • Upgradované knihovny strojového učení
    • TensorFlow upgradoval z verze 1.12.0 na verzi 1.13.1
    • PyTorch upgradoval z verze 0.4.1 na verzi 1.1.0
    • scikit-learn upgradován z verze 0.19.1 na 0.20.3
  • Operace s jedním uzlem pro HorovodRunner

Podrobnosti najdete v tématu Databricks Runtime 5.5 LTS pro ML (nepodporováno).

Databricks Runtime 5.5

15. července 2019

Databricks Runtime 5.5 je teď k dispozici. Databricks Runtime 5.5 zahrnuje Apache Spark 2.4.3, upgradované knihovny Pythonu, R, Javy a Scala a následující nové funkce:

  • Obecná dostupnost Delta Lake v Azure Databricks Auto Optimize
  • Delta Lake v Azure Databricks vylepšil minimální, maximální a počet agregačních dotazů
  • Rychlejší kanály odvozování modelů s vylepšeným zdrojem dat binárního souboru a skalárním iterátorem pandas UDF (Public Preview)
  • Rozhraní API pro tajné kódy v poznámkových blocích R

Podrobnosti najdete v tématu Databricks Runtime 5.5 LTS (nepodporováno).

Udržování fondu instancí v pohotovostním režimu pro rychlé spuštění clusteru (Public Preview)

9. července – 11. července 2019: Verze 2.101

Kvůli zkrácení doby spuštění clusteru teď Azure Databricks podporuje připojení clusteru k předem definovanému fondu nečinných instancí. Když je cluster připojený k fondu, přidělí jeho ovladač a pracovní uzly z fondu. Pokud fond nemá dostatek nečinných prostředků pro přizpůsobení požadavku clusteru, fond se rozšíří přidělením nových instancí od poskytovatele cloudu. Po ukončení připojeného clusteru se instance, které používá, vrátí do fondu a dají se znovu použít jiným clusterem.

Když jsou instance ve fondu nečinné, Azure Databricks neúčtuje jednotky DBU. Platí fakturace poskytovatele instancí. Podívejte se na ceny.

Podrobnosti najdete v referenčních informacích ke konfiguraci fondu.

Metriky Ganglia

9. července – 11. července 2019: Verze 2.101

Ganglia je škálovatelný distribuovaný monitorovací systém, který je teď dostupný v clusterech Azure Databricks. Metriky Ganglia pomáhají monitorovat výkon a stav clusteru. K metrikám Ganglia se dostanete ze stránky podrobností clusteru:

Ganglia Metrics tab

Podrobnosti o používání a konfiguraci metrik najdete v tématu Metriky Ganglia.

Globální barva podle řady

9. července – 11. července 2019: Verze 2.101

Teď můžete určit, že barvy řady by měly být konzistentní ve všech grafech v poznámkovém bloku. Viz konzistence barev napříč grafy.

Global series color