Maj 2018

Versioner mellanfasas. Ditt Azure Databricks kanske inte uppdateras förrän en vecka efter det första utgivningsdatumet.

Allmänna dataskyddsförordningen (GDPR)

24 maj 2018: Version 2.72

För att uppfylla kraven i EU allmän dataskyddsförordning (GDPR), som börjar gälla den 25 maj 2018, har vi gjort ett antal ändringar i Azure Databricks-plattformen för att ge dig större kontroll över datalagring på både konto- och användarnivå. Uppdateringar omfattar:

  • Ta bort kluster: Ta bort en klusterkonfiguration permanent med hjälp av användargränssnittet eller kluster-API:et. Se Ta bort ett kluster.
  • Rensning av arbetsyta (släpptes i version 2.71): Ta bort arbetsyteobjekt permanent, till exempel hela notebook-filer, enskilda notebook-celler, enskilda notebook-kommentarer och notebook-revisionshistorik. Se Hantera lagring av arbetsytor.
  • Rensning av notebook-revisionshistorik:
    • Ta bort revisionshistoriken permanent för alla notebook-filer i en arbetsyta under en definierad tidsram. Se Hantera lagring av arbetsytor.
    • Ta bort en enskild notebook-version permanent eller hela revisionshistoriken för en notebook-dator. Se Versionskontroll.

Information om hur du tar Azure Databricks tjänsten eller avbryter ditt Azure-konto finns i Hantera din prenumeration.

Azure Databricks-användare måste höra till en Azure AD-klientorganisation

24 maj 2018: Version 2.72

Användarna kan nu bara logga in Azure Databricks om de tillhör Azure Active Directory-klienten (Azure AD) för Azure Databricks arbetsytan. Om du har användare som inte tillhör Azure AD-klientorganisationen kan du lägga till dem som standard- eller gästanvändare.

HorovodEstimator

29 maj 2018: Version 2.72

Dokumentation och en notebook-dokumentation har lagts till för HorovodEstimator, ett beräknings-API i MLlib-format som använder Ubers Horovod-ramverk. HorovodEstimator underlättar distribuerad, multi-GPU-träning av djupa neurala nätverk på Spark DataFrames, vilket förenklar integreringen av ETL i Spark med modellträning i TensorFlow. Se HorovodEstimator: distribuerad djupinlärning med Horovod och Apache Spark MLlib.

Modellexport för MLeap ML

24 maj 2018: Version 2.72

Dokumentation och notebook-dokument om hur du använder MLeap på Azure Databricks. Med MLeap kan du distribuera pipelines för maskininlärning från Apache Spark scikit-learn till ett portabelt format och en körningsmotor. Se MLeap ML modellexport.

Ännu fler GPU-klustertyper

24 maj 2018: Version 2.72

Förutom de Azure NC-instanstyper (NC12 och NC24) som vi lade till i version 2.71 stöder vi nu NCv3-instanstypserien (NC6s_v3, NC12s_v3och NC24s_v3) i Azure Databricks-kluster. NC- och NCv3-instanser tillhandahåller GPU:er för bearbetning av bilder, textanalys och andra maskininlärnings- och djupinlärningsuppgifter som är beräkningsmässigt utmanande och kräver överlägsen prestanda.

Se GPU-aktiverade kluster.

Notebook-celler: dölj och visa

24 maj 2018: Version 2.72

Nya indikatorer och meddelanden gör det enklare att visa notebook-cellinnehåll när de har dolts. Se Dölj och visa cellinnehåll.

22 maj 2018

Vi har ersatt vår dokumentwebbplatssökning med ett bättre sökverktyg. Du kommer att se ännu fler sökförbättringar under de kommande veckorna.

Anteckning

Sökningen kan se bruten ut om du försöker strax efter att den nya sökningen har distribuerats. Rensa webbläsarens cacheminne för att se den nya sökupplevelsen.

Databricks Runtime 4.1 ML for Machine Learning (Beta)

Den 17 maj 2018

Databricks Runtime ML (Beta) är en färdig miljö för maskininlärning och datavetenskap. Den innehåller flera populära bibliotek, inklusive TensorFlow, Keras och XGBoost.

Databricks Runtime ML kan du starta ett Databricks-kluster med alla bibliotek som krävs för distribuerad TensorFlow-utbildning. Det säkerställer kompatibiliteten för de bibliotek som ingår i klustret (till exempel mellan TensorFlow och CUDA/cuDNN) och minskar avsevärt klustrets starttid jämfört med att använda init-skript.

Anteckning

Databricks Runtime 4.1 ML är endast tillgängligt i Premium SKU.

Se den fullständiga publiceringsanteckningarna för Databricks Runtime 4.1 ML (stöds inte).

Databricks Delta

Den 17 maj 2018

Databricks Delta är nu tillgängligt i privat förhandsversion för Azure Databricks användare. Kontakta din kontoansvariga eller registrera dig på https://databricks.com/product/databricks-delta . Den här versionen representerar en kandidatutgåle som är lämplig för den kommande GA-versionen.

Mer information finns i Databricks Runtime 4.1 (stöds inte) ochDelta Lake och Delta Engine guide.

Display()-stöd för bilddatatyper

Den 17 maj 2018

I Databricks Runtime 4.1 display() återger nu kolumner som innehåller bilddatatyper som rtf HTML.

Se Avbildningar.

GPU-klustertyper

15 maj 2018: Version 2.71

Vi är glada över att kunna meddela stöd för Azure NC-instanstyper (NC12 och NC24) Azure Databricks kluster. NC-instanser tillhandahåller GPU:er för bearbetning av bilder, textanalys och andra maskininlärnings- och djupinlärningsuppgifter som är beräkningsmässigt utmanande och kräver överlägset prestanda.

Azure Databricks innehåller även förinstallerade NVIDIA-drivrutiner och bibliotek som konfigurerats för GPU:er, tillsammans med material för att komma igång med flera populära djupinlärningsbibliotek.

Se även:

Hemlighetshantering GA

15 maj 2018: Version 2.71

Hemlighetshantering, som hade varit i privat förhandsversion, är nu GA. Det innehåller kraftfulla verktyg för att hantera de autentiseringsuppgifter som du behöver för att autentisera till externa datakällor. I stället för att skriva dina autentiseringsuppgifter direkt i en notebook-dator kan du använda databricks-hemlighetshantering för att lagra och referera till dina autentiseringsuppgifter i notebook-datorer och jobb. Om du vill hantera hemligheter kan du använda CLI för hemligheter för att få åtkomst till HEMLIGHETS-API 2.0.

Anteckning

Hemlighetshantering kräver Databricks Runtime 4.0 eller högre och Databricks CLI 0.7.1 eller högre.

Se Hemlighetshantering.

Ändringar för slutpunkterna för API:et för hemligheter och CLI-kommandon

15 maj 2018: Version 2.71

Följande ändringar har gjorts i slutpunkterna för HEMLIGHETS-API:et:

  • För alla slutpunkter har rotsökvägen ändrats från /secret till /secrets .
  • För slutpunkten för hemligheter /secret/secrets komprimerades till /secrets/ .
  • Metoden write har ändrats till put .

Databricks CLI 0.7.1 innehåller uppdateringar av hemlighetskommandon som överensstämmer med dessa uppdaterade API-slutpunkter.

Se Hemlighets-API 2.0 och Hemlighetshantering.

Fäst kluster

15 maj 2018: Version 2.71

Nu kan du fästa ett kluster i listan Kluster. På så sätt kan du behålla konfigurationen av kluster som avslutats över 30 dagar.

Pin cluster

Dessutom visar sidan Kluster nu alla kluster som avslutades inom 30 dagar (ökade från 7 dagar).

Se Fäst ett kluster.

Starta kluster automatiskt

15 maj 2018: Version 2.71

Innan den här versionen misslyckades jobb som Terminated schemalagts för att köras i kluster. För kluster som skapas i Azure Databricks version 2.71 och senare startar kommandon från ett JDBC/ODBC-gränssnitt eller en jobbkörning som tilldelats ett befintligt avslutat kluster automatiskt om klustret. Se JDBC Connect och Skapa ett jobb.

Med autostart kan du konfigurera kluster för att automatiskt fastställa utan manuella åtgärder för att starta om klustren för schemalagda jobb. Dessutom kan du schemalägga kluster initiering genom att schemalägga ett jobb som startar om avslutade kluster vid en angiven tidpunkt.

Åtkomstkontroll för kluster tillämpas och jobbägarens behörigheter kontrolleras som vanligt.

Rensa arbetsyta

15 maj 2018: Version 2.71

Som en del av vårt pågående arbete med att följa EU allmän dataskyddsförordning (GDPR) har vi lagt till möjligheten att rensa arbetsyteobjekt, till exempel hela notebook-datorer, enskilda notebook-celler, enskilda notebook-kommentarer och notebook-revisionshistorik. Vi kommer att släppa fler funktioner och dokumentation för att stödja GDPR-efterlevnad under de kommande veckorna.

Se Hantera lagring av arbetsytor.

Databricks CLI 0.7.1

Den 10 maj 2018

Databricks CLI 0.7.1 innehåller uppdateringar av hemlighetskommandon som överensstämmer med uppdaterade API-slutpunkter.

Se Databricks CLI ochHemlighetshantering.