Maj 2020

Dessa funktioner och förbättringar av Azure Databricks-plattformen släpptes i maj 2020.

Kommentar

Versioner mellanlagras. Ditt Azure Databricks-konto kanske inte uppdateras förrän upp till en vecka efter det första lanseringsdatumet.

Virtuella datorer i Easv4-serien (Beta)

Den 29 maj 2020

Azure Databricks tillhandahåller nu betastöd för virtuella datorer i Easv4-serien , som använder en premium-SSD och kan uppnå en ökad maximal frekvens på 3,35 GHz. Dessa instanstyper kan optimera arbetsbelastningens prestanda för minnesintensiva företagsprogram.

Databricks Runtime 6.6 for Genomics GA

Den 26 maj 2020

Databricks Runtime 6.6 för Genomics bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • GFF3-läsare
  • Stöd för anpassat referensgenom
  • Tidsgränser för pipeline per exempel
  • BAM-exportalternativ
  • Manifestblobar

Databricks Runtime 6.6 ML GA

Den 26 maj 2020

Databricks Runtime 6.6 ML bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • Uppgraderat mlflow: 1.7.0 till 1.8.0

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 ML (stöds inte).

Databricks Runtime 6.6 GA

Den 26 maj 2020

Databricks Runtime 6.6 innehåller många biblioteksuppgraderingar och nya funktioner, inklusive följande Delta Lake-funktioner:

  • Nu kan du utveckla schemat för tabellen automatiskt med åtgärden merge . Detta är användbart i scenarier där du vill flytta data till en tabell och schemat för dataändringar över tid. I stället för att identifiera och tillämpa schemaändringar innan du ökar merge , kan du samtidigt utveckla schemat och öka ändringarna. Se Automatisk schemautveckling för Delta Lake-sammanslagning.
  • Prestandan för sammanslagningsåtgärder som bara har matchat satser, det vill: de har bara update och delete åtgärder och ingen insert åtgärd, har förbättrats.
  • Parquet-tabeller som refereras i Hive-metaarkivet kan nu konverteras till Delta Lake via deras tabellidentifierare med hjälp av CONVERT TO DELTA.

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 (stöds inte).

Storleksgräns för DBFS REST API-borttagningsslutpunkt

21-28 maj 2020: Version 3.20

När du tar bort ett stort antal filer rekursivt med hjälp av DBFS-API:et utförs borttagningsåtgärden i steg. Anropet returnerar ett svar efter cirka 45-talet med ett felmeddelande där du uppmanas att åter anropa borttagningsåtgärden tills katalogstrukturen har tagits bort helt. Till exempel:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Visa enkelt ett stort antal MLflow-registrerade modeller

21-28 maj 2020: Version 3.20

MLflow Model Registry stöder nu sökning och sidnumrering på serversidan för registrerade modeller, vilket gör det möjligt för organisationer med ett stort antal modeller att effektivt utföra listning och sökning. Precis som tidigare kan du söka efter modeller efter namn och få resultat ordnade efter namn eller den senaste uppdaterade tiden. Men om du har ett stort antal modeller läses sidorna in mycket snabbare och sökningen hämtar den senaste vyn av modeller.

Bibliotek som har konfigurerats för att installeras på alla kluster installeras inte på kluster som kör Databricks Runtime 7.0 och senare

21-28 maj 2020: Version 3.20

I Databricks Runtime 7.0 och senare använder den underliggande versionen av Apache Spark Scala 2.12. Eftersom bibliotek som kompilerats mot Scala 2.11 kan inaktivera Databricks Runtime 7.0-kluster på oväntade sätt, installerar kluster som kör Databricks Runtime 7.0 och senare inte bibliotek som har konfigurerats för att installeras på alla kluster. Fliken Klusterbibliotek visar status Skipped och ett utfasningsmeddelande som är relaterat till ändringarna i bibliotekshanteringen.

Om du har ett kluster som skapades på en tidigare version av Databricks Runtime innan 3.20 släpptes till arbetsytan och du nu redigerar klustret för att använda Databricks Runtime 7.0, installeras alla bibliotek som har konfigurerats för att installeras på alla kluster i klustret. I det här fallet kan eventuella inkompatibla JAR:er i de installerade biblioteken göra att klustret inaktiveras. Lösningen är antingen att klona klustret eller skapa ett nytt kluster.

Databricks Runtime 7.0 for Genomics (Beta)

Den 21 maj 2020

Databricks Runtime 7.0 för Genomics bygger på Databricks Runtime 7.0 och innehåller följande biblioteksändringar:

  • ADAM-biblioteket har uppdaterats från version 0.30.0 till 0.32.0.
  • Hail-biblioteket ingår inte i Databricks Runtime 7.0 för Genomics eftersom det inte finns någon version baserad på Apache Spark 3.0.

Databricks Runtime 7.0 ML (Beta)

Den 21 maj 2020

Databricks Runtime 7.0 ML bygger på Databricks Runtime 7.0 och innehåller följande nya funktioner:

  • Python-bibliotek med notebook-omfattning och anpassade miljöer som hanteras av kommandona conda och pip.
  • Uppdateringar för större Python-paket som tensorflow, tensorboard, pytorch, xgboost, sparkdl och hyperopt.
  • Nyligen tillagda Python-paket lightgbm, nltk, petastorm och plotly.
  • RStudio Server med öppen källkod v1.2.

Mer information finns i fullständiga viktig information om Databricks Runtime 7.0 ML (stöds inte).

Databricks Runtime 6.6 for Genomics (Beta)

Den 7 maj 2020

Databricks Runtime 6.6 för Genomics bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • GFF3-läsare
  • Stöd för anpassat referensgenom
  • Tidsgränser för pipeline per exempel
  • BAM-exportalternativ
  • Manifestblobar

Databricks Runtime 6.6 ML (Beta)

Den 7 maj 2020

Databricks Runtime 6.6 ML bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • Uppgraderat mlflow: 1.7.0 till 1.8.0

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 ML (stöds inte).

Databricks Runtime 6.6 (Beta)

Den 7 maj 2020

Databricks Runtime 6.6 (Beta) innehåller många biblioteksuppgraderingar och nya funktioner, inklusive följande Delta Lake-funktioner:

  • Nu kan du utveckla schemat för tabellen automatiskt med åtgärden merge . Detta är användbart i scenarier där du vill flytta data till en tabell och schemat för dataändringar över tid. I stället för att identifiera och tillämpa schemaändringar innan du ökar merge , kan du samtidigt utveckla schemat och öka ändringarna. Se Automatisk schemautveckling för Delta Lake-sammanslagning.
  • Prestandan för sammanslagningsåtgärder som bara har matchat satser, det vill: de har bara update och delete åtgärder och ingen insert åtgärd, har förbättrats.
  • Parquet-tabeller som refereras i Hive-metaarkivet kan nu konverteras till Delta Lake via deras tabellidentifierare med hjälp av CONVERT TO DELTA.

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 (stöds inte).

Jobbkluster taggas nu med jobbnamn och ID

5–12 maj 2020: Version 3.19

Jobbkluster märks automatiskt med jobbnamnet och ID:t. Taggarna visas i fakturerbara användningsrapporter så att du enkelt kan tillskriva din DBU-användning efter jobb och identifiera avvikelser. Taggarna är anpassade till specifikationer för klustertaggar, till exempel tillåtna tecken, maximal storlek och maximalt antal taggar. Jobbnamnet finns i taggen RunName och jobb-ID:t finns i taggen JobId .

Återställ borttagna notebook-celler

5–12 maj 2020: Version 3.19

Nu kan du återställa borttagna celler antingen med kortkommandot (Z) eller genom att välja Redigera > Ångra ta bort celler.

Gräns för väntande jobb i kö

5–12 maj 2020: Version 3.19

En arbetsyta är nu begränsad till 1 000 aktiva jobbkörningar (körs och väntar). Eftersom en arbetsyta är begränsad till 150 samtidiga jobbkörningar (körs) kan en arbetsyta ha upp till 850 körningar i den väntande kön.