Maj 2020

De här funktionerna och förbättringarna i Azure Databricks Platform släpptes i maj 2020.

Anteckning

Versioner mellanlagras. Ditt Azure Databricks-konto kanske inte uppdateras förrän efter det första lanserings datumet.

Virtuella datorer i Easv4-serien (Beta)

Den 29 maj, 2020

Azure Databricks har nu beta stöd för virtuella datorer i Easv4-serien , som använder Premium SSD och kan uppnå en högre frekvens på 3.35 GHz. Dessa instans typer kan optimera arbets belastnings prestandan för minnes intensiva företags program.

Databricks Runtime 6.6 for Genomics GA

26 maj, 2020

Databricks Runtime 6,6 för genomik skapas ovanpå Databricks Runtime 6,6 och innehåller följande nya funktioner:

  • GFF3-läsare
  • Stöd för anpassad referens stöd
  • Tids gränser för pipeline per sampel
  • Alternativ för BAM-export
  • Manifest-blobar

Mer information finns i fullständig Databricks Runtime 6,6 för genomik (stöds inte) viktig information.

Databricks Runtime 6.6 ML GA

26 maj, 2020

Databricks Runtime 6,6 ML skapas ovanpå Databricks Runtime 6,6 och innehåller följande nya funktioner:

  • Uppgraderade mlflow: 1.7.0 till 1.8.0

Mer information finns i versions kommentarerna för Complete Databricks Runtime 6,6 ml (stöds inte) .

Databricks Runtime 6.6 GA

26 maj, 2020

Databricks Runtime 6,6 ger många biblioteks uppgraderingar och nya funktioner, inklusive följande delta Lake-funktioner:

  • Nu kan du utveckla tabellens schema automatiskt med merge åtgärden. Detta är användbart i scenarier där du vill upsert ändra data till en tabell och schemat för data ändringar över tid. I stället för att identifiera och tillämpa schema ändringar innan upserting, merge kan samtidigt utveckla schemat och upsert ändringarna. Se Automatisk schema utveckling.
  • Prestanda för sammanslagnings åtgärder som bara har matchade satser, det vill säga de bara har, update och delete ingen insert åtgärd, har förbättrats.
  • Parquet-tabeller som refereras i Hive-metaarkiv omvandlas nu till delta sjö genom sina tabell identifierare med hjälp av CONVERT TO DELTA .

Mer information finns i den fullständiga versionen Databricks Runtime 6,6 (Not Supported) .

Storleksgräns för DBFS REST API-borttagningsslutpunkt

Maj 21-28, 2020: version 3,20

När du tar bort ett stort antal filer rekursivt med DBFS- API: etgörs borttagnings åtgärden i steg. Anropet returnerar ett svar efter cirka 45s med ett fel meddelande där du uppmanas att anropa borttagnings åtgärden igen tills katalog strukturen har tagits bort helt. Till exempel:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Visa enkelt ett stort antal MLflow-registrerade modeller

Maj 21-28, 2020: version 3,20

MLflow Model-registret stöder nu sökning på Server sidan och sid brytning för registrerade modeller, vilket gör det möjligt för organisationer med ett stort antal modeller att effektivt utföra registrering och sökning. Som tidigare kan du söka efter modeller efter namn och få resultat sorterade efter namn eller senast uppdaterad tid. Men om du har ett stort antal modeller kommer sidorna att läsas in mycket snabbare och sökningen hämtar den mest aktuella vyn av modeller.

Bibliotek som har konfigurerats för att installeras på alla kluster installeras inte på kluster som kör Databricks Runtime 7.0 och senare

Maj 21-28, 2020: version 3,20

I Databricks Runtime 7,0 och senare använder den underliggande versionen av Apache Spark Scala 2,12. Eftersom bibliotek som har kompilerats mot Scala 2,11 kan inaktivera Databricks Runtime 7,0-kluster på oväntade sätt, installerar kluster som kör Databricks Runtime 7,0 och senare inte bibliotek som är konfigurerade för att installeras på alla kluster. På fliken kluster bibliotek visas en status Skipped och ett utfasnings meddelande som är relaterat till ändringarna i biblioteks hanteringen.

Om du har ett kluster som skapats på en tidigare version av Databricks Runtime innan 3,20 släpptes till din arbets yta och du nu redigerar klustret för att använda Databricks runtime 7,0, kommer alla bibliotek som har kon figurer ATS för att installeras på alla kluster att installeras i klustret. I det här fallet kan inkompatibla jar v7 i de installerade biblioteken orsaka att klustret inaktive ras. Lösningen är att antingen klona klustret eller skapa ett nytt kluster.

Databricks Runtime 7.0 for Genomics (Beta)

21 maj, 2020

Databricks Runtime 7,0 för genomik skapas ovanpå Databricks Runtime 7,0 och innehåller följande biblioteks ändringar:

  • ADAM-biblioteket har uppdaterats från version 0.30.0 till 0.32.0.
  • Hagel-biblioteket ingår inte i Databricks Runtime 7,0 för genomik eftersom det inte finns någon version utifrån Apache Spark 3,0.

Mer information finns i fullständig Databricks Runtime 7,0 för genomik (stöds inte) viktig information.

Databricks Runtime 7.0 ML (Beta)

21 maj, 2020

Databricks Runtime 7,0 ML skapas ovanpå Databricks Runtime 7,0 och innehåller följande nya funktioner:

  • Bärbara python-bibliotek och anpassade miljöer som hanteras av Conda-och pip-kommandon.
  • Uppdateringar för större python-paket inklusive tensorflow, tensorboard, pytorch, xgboost, sparkdl och hyperopt.
  • Nyligen tillagda python-paket lightgbm, nltk, petastorm och ritas.
  • RStudio-server med öppen källkod v 1.2.

Mer information finns i versions kommentarerna för Complete Databricks Runtime 7,0 ml (stöds inte) .

Databricks Runtime 6.6 for Genomics (Beta)

7 maj 2020

Databricks Runtime 6,6 för genomik skapas ovanpå Databricks Runtime 6,6 och innehåller följande nya funktioner:

  • GFF3-läsare
  • Stöd för anpassad referens stöd
  • Tids gränser för pipeline per sampel
  • Alternativ för BAM-export
  • Manifest-blobar

Mer information finns i fullständig Databricks Runtime 6,6 för genomik (stöds inte) viktig information.

Databricks Runtime 6.6 ML (Beta)

7 maj 2020

Databricks Runtime 6,6 ML skapas ovanpå Databricks Runtime 6,6 och innehåller följande nya funktioner:

  • Uppgraderade mlflow: 1.7.0 till 1.8.0

Mer information finns i versions kommentarerna för Complete Databricks Runtime 6,6 ml (stöds inte) .

Databricks Runtime 6.6 (Beta)

7 maj 2020

Databricks Runtime 6,6 (beta) ger många biblioteks uppgraderingar och nya funktioner, inklusive följande delta Lake-funktioner:

  • Nu kan du utveckla tabellens schema automatiskt med merge åtgärden. Detta är användbart i scenarier där du vill upsert ändra data till en tabell och schemat för data ändringar över tid. I stället för att identifiera och tillämpa schema ändringar innan upserting, merge kan samtidigt utveckla schemat och upsert ändringarna. Se Automatisk schema utveckling.
  • Prestanda för sammanslagnings åtgärder som bara har matchade satser, det vill säga de bara har, update och delete ingen insert åtgärd, har förbättrats.
  • Parquet-tabeller som refereras i Hive-metaarkiv omvandlas nu till delta sjö genom sina tabell identifierare med hjälp av CONVERT TO DELTA .

Mer information finns i den fullständiga versionen Databricks Runtime 6,6 (Not Supported) .

Jobbkluster taggas nu med jobbnamn och ID

Maj 5-12, 2020: version 3,19

Jobb kluster märks automatiskt med jobb namnet och ID: t. Taggarna visas i de fakturerbara användnings rapporterna så att du enkelt kan attributa din DBU-användning efter jobb och identifiera avvikelser. Taggarna är språkbaserade för kluster tag-specifikationerna, till exempel tillåtna tecken, maximal storlek och maximalt antal taggar. Jobb namnet finns i RunName taggen och jobb-ID: t finns i JobId taggen.

Återställ borttagna notebook-celler

Maj 5-12, 2020: version 3,19

Du kan nu återställa borttagna celler antingen med hjälp av kortkommandot ( Z ) eller genom att välja Redigera > ångra ta bort celler.

Gräns för väntande jobb i kö

Maj 5-12, 2020: version 3,19

En arbets yta är nu begränsad till 1000 aktiv (körs och väntar) jobb körningar. Eftersom en arbets yta är begränsad till 150 samtidiga jobb körningar (körs) kan en arbets yta ha upp till 850 körningar i den väntande kön.