Maj 2020

Dessa funktioner och Azure Databricks plattformsförbättringar släpptes i maj 2020.

Anteckning

Versioner mellanfasas. Ditt Azure Databricks-konto kanske inte uppdateras förrän upp till en vecka efter det första lanseringsdatumet.

Virtuella datorer i Easv4-serien (Beta)

Den 29 maj 2020

Azure Databricks nu betastöd för virtuella datorer i Easv4-serien, som använder en Premium SSD och kan uppnå en ökad maximal frekvens på 3,35 GHz. Dessa instanstyper kan optimera arbetsbelastningens prestanda för minnesintensiva företagsprogram.

Databricks Runtime 6.6 for Genomics GA

Den 26 maj 2020

Databricks Runtime 6.6 for Genomics bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • GFF3-läsare
  • Anpassat stöd för referensgenom
  • Tidsgränser per exempelpipeline
  • BAM-exportalternativ
  • Manifestblobar

Mer information finns i den fullständiga Databricks Runtime 6.6 för Genomics (stöds inte).

Databricks Runtime 6.6 ML GA

Den 26 maj 2020

Databricks Runtime 6.6 ML bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • Uppgraderat mlflow: 1.7.0 till 1.8.0

Mer information finns i den fullständiga Databricks Runtime 6.6 ML viktig information (stöds inte).

Databricks Runtime 6.6 GA

Den 26 maj 2020

Databricks Runtime 6.6 innehåller många biblioteksuppgraderingar och nya funktioner, inklusive följande Delta Lake-funktioner:

  • Nu kan du utveckla schemat för tabellen automatiskt med merge åtgärden . Detta är användbart i scenarier där du vill ändra data till en tabell och schemat för data ändras över tid. I stället för att identifiera och tillämpa schemaändringar före upserting kan schemat utvecklas samtidigt och ändringarna merge upsert. Se Automatisk schemautveckling.
  • Prestanda för sammanslagningsåtgärder som endast har matchade satser, det vill säga att de endast har åtgärder och updatedelete ingen insert åtgärd, har förbättrats.
  • Parquet-tabeller som refereras till i Hive-metaarkivet omvandlas nu till Delta Lake via sina tabellidentifierare med hjälp av CONVERT TO DELTA .

Mer information finns i den fullständiga Databricks Runtime 6.6 (stöds inte).

Storleksgräns för DBFS REST API-borttagningsslutpunkt

21–28 maj 2020: Version 3.20

När du tar bort ett stort antal filer rekursivt med DBFS API 2.0utförs borttagningsåtgärden i steg. Anropet returnerar ett svar efter cirka 45 sekunder med ett felmeddelande som ber dig att anropa borttagningsåtgärden igen tills katalogstrukturen har tagits bort helt. Exempel:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Visa enkelt ett stort antal MLflow-registrerade modeller

21–28 maj 2020: Version 3.20

MLflow Model Registry stöder nu sökning på serversidan och sidnumrering för registrerade modeller, vilket gör att organisationer med ett stort antal modeller effektivt kan utföra listning och sökning. Precis som tidigare kan du söka efter modeller efter namn och få resultat sorterade efter namn eller tid för senaste uppdatering. Men om du har ett stort antal modeller läses sidorna in mycket snabbare och sökningen hämtar den senaste vyn av modeller.

Bibliotek som har konfigurerats för att installeras på alla kluster installeras inte på kluster som kör Databricks Runtime 7.0 och senare

21–28 maj 2020: Version 3.20

I Databricks Runtime version 7.0 och senare använder den underliggande versionen Apache Spark Scala 2.12. Eftersom bibliotek som kompilerats mot Scala 2.11 kan inaktivera Databricks Runtime 7.0-kluster på oväntade sätt installerar kluster som kör Databricks Runtime 7.0 och högre inte bibliotek som konfigurerats för att installeras på alla kluster. Fliken Klusterbibliotek visar status och ett utfasningsmeddelande som rör ändringar i bibliotekshanteringen.

Om du har ett kluster som skapades på en tidigare version av Databricks Runtime innan 3.20släpptes på arbetsytan och du nu redigerar klustret för att använda Databricks Runtime 7.0, installeras alla bibliotek som har konfigurerats för att installeras på alla kluster i klustret. I det här fallet kan alla inkompatibla JAR i de installerade biblioteken göra att klustret inaktiveras. Lösningen är antingen att klona klustret eller att skapa ett nytt kluster.

Databricks Runtime 7.0 for Genomics (Beta)

Den 21 maj 2020

Databricks Runtime 7.0 for Genomics bygger på Databricks Runtime 7.0 och innehåller följande biblioteksändringar:

  • ADAM-biblioteket har uppdaterats från version 0.30.0 till 0.32.0.
  • Biblioteksbiblioteket För Genomics ingår inte i Databricks Runtime 7.0 eftersom det inte finns någon version baserad på Apache Spark 3.0.

Mer information finns i den fullständiga Databricks Runtime 7.0 for Genomics (stöds inte).

Databricks Runtime 7.0 ML (Beta)

Den 21 maj 2020

Databricks Runtime 7.0 ML bygger på Databricks Runtime 7.0 och innehåller följande nya funktioner:

  • Python-bibliotek med notebook-omfång och anpassade miljöer som hanteras av conda- och pip-kommandon.
  • Uppdateringar för större Python-paket, inklusive tensorflow, tensorboard, pytorch, xgboost, sparkdl och hyperopt.
  • Nyligen tillagda Python-paket lightgbm, nltk, petastorm och plotly.
  • RStudio Server Öppen källkod v1.2.

Mer information finns i den fullständiga Databricks Runtime 7.0 ML viktig information (stöds inte).

Databricks Runtime 6.6 for Genomics (Beta)

Den 7 maj 2020

Databricks Runtime 6.6 for Genomics bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • GFF3-läsare
  • Anpassat stöd för referensgenom
  • Tidsgränser per exempelpipeline
  • BAM-exportalternativ
  • Manifestblobar

Mer information finns i den fullständiga Databricks Runtime 6.6 för Genomics (stöds inte).

Databricks Runtime 6.6 ML (Beta)

Den 7 maj 2020

Databricks Runtime 6.6 ML bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • Uppgraderat mlflow: 1.7.0 till 1.8.0

Mer information finns i den fullständiga Databricks Runtime 6.6 ML viktig information (stöds inte).

Databricks Runtime 6.6 (Beta)

Den 7 maj 2020

Databricks Runtime 6.6 (Beta) innehåller många biblioteksuppgraderingar och nya funktioner, inklusive följande Delta Lake-funktioner:

  • Nu kan du utveckla schemat för tabellen automatiskt med merge åtgärden . Detta är användbart i scenarier där du vill ändra data till en tabell och schemat för data ändras över tid. I stället för att identifiera och tillämpa schemaändringar före upserting kan schemat utvecklas samtidigt och ändringarna merge upsert. Se Automatisk schemautveckling.
  • Prestanda för sammanslagningsåtgärder som endast har matchade satser, det vill säga att de endast har åtgärder och updatedelete ingen insert åtgärd, har förbättrats.
  • Parquet-tabeller som refereras till i Hive-metaarkivet omvandlas nu till Delta Lake via sina tabellidentifierare med hjälp av CONVERT TO DELTA .

Mer information finns i den fullständiga Databricks Runtime 6.6 (stöds inte).

Jobbkluster taggas nu med jobbnamn och ID

5–12 maj 2020: Version 3.19

Jobbkluster taggas automatiskt med jobbnamnet och ID:t. Taggarna visas i fakturerbara användningsrapporter så att du enkelt kan tillskriva din DBU-användning efter jobb och identifiera avvikelser. Taggarna är sanerade efter klustertaggspecifikationer, till exempel tillåtna tecken, maximal storlek och maximalt antal taggar. Jobbnamnet finns i RunName taggen och jobb-ID:t finns i JobId taggen .

Återställ borttagna notebook-celler

5–12 maj 2020: Version 3.19

Du kan nu återställa borttagna celler antingen med hjälp av kortkommandot ( ) eller genom Z att välja Redigera Ångra Ta bort Z

Gräns för väntande jobb i kö

5–12 maj 2020: Version 3.19

En arbetsyta är nu begränsad till 1 000 aktiva jobbkörningar (som körs och väntar). Eftersom en arbetsyta är begränsad till 150 samtidiga jobbkörningar (som körs) kan en arbetsyta ha upp till 850 körningar i den väntande kön.