Februari 2019

Dessa funktioner och Azure Databricks plattformsförbättringar släpptes i februari 2019.

Anteckning

Versioner mellandelade. Ditt Azure Databricks-konto kanske inte uppdateras förrän upp till en vecka efter det första lanseringsdatumet.

Databricks Light är allmänt tillgängligt

26 februari – 5 mars 2019: Version 2.92

Databricks Light (även kallat Data Engineering Light) är nu tillgängligt. Databricks Light är Databricks-paketeringen av Apache Spark öppen källkod. Det ger ett körningsalternativ för jobb som inte behöver de avancerade prestanda-, tillförlitlighets- eller autoskalningsfördelar som tillhandahålls av Databricks Runtime. Du kan bara välja Databricks Light när du skapar ett kluster för att köra ett JAR-, Python- eller spark-submit-jobb. Du kan inte välja den här körningen för kluster där du kör interaktiva arbetsbelastningar eller notebook-jobbarbetsbelastningar. Se Databricks Light.

Allmänt tillgänglig förhandsversion av hanterad MLflow på Azure Databricks

26 februari – 5 mars 2019: Version 2.92

MLflow är en plattform med öppen källkod för hantering av maskininlärningslivscykeln från början till slut. Den tar itu med tre primära funktioner:

  • Spåra experiment för att registrera och jämföra parametrar och resultat.
  • Hantera och distribuera modeller från en mängd olika ML till en mängd olika modellhanterings- och inferensplattformar.
  • Paketering ML kod i en återanvändbar, reproducerbar form för att dela med andra dataforskare eller överföra till produktion.

Azure Databricks har nu en fullständigt hanterad och värdad version av MLflow integrerad med företagssäkerhetsfunktioner, hög tillgänglighet och andra Azure Databricks-arbetsytefunktioner som experimenthantering, körningshantering och avskiljning av notebook-versioner. MLflow i Azure Databricks ger en integrerad upplevelse för att spåra och skydda träningskörningar för maskininlärningsmodellen och körning av maskininlärningsprojekt. Genom att använda hanterat MLflow Azure Databricks får du fördelarna med båda plattformarna, inklusive:

  • Arbetsytor: Samarbeta för att spåra och organisera experiment och resultat Azure Databricks arbetsytor med en värdbaserade MLflow-spårningsserver och integrerat experimentgränssnitt. När du använder MLflow i notebook-Azure Databricks automatiskt notebook-revisioner så att du kan återskapa samma kod och köras senare.
  • Säkerhet: Dra nytta av en gemensam säkerhetsmodell för hela livscykeln ML via ACL:er.
  • Jobb: Kör MLflow-projekt som Azure Databricks jobb via fjärr-och direkt från Azure Databricks notebook-datorer.

Här är en demonstration av ett spårningsarbetsflöde i en Azure Databricks arbetsyta:

Spåra körningar och organisera experimentarbetsflöde

Mer information finns i Experiment och Köra MLflow Projects på Azure Databricks.

Anslutningsappen för Azure Data Lake Storage Gen2 är allmänt tillgänglig

15 februari 2019

Azure Data Lake Storage Gen2 (ADLS Gen2), nästa generations data lake-lösning för stordataanalys, är nu ga, liksom ADLS Gen2-anslutningsappen för Azure Databricks. Vi är också glada över att kunna meddela ADLS Gen2 stöder Databricks Delta när du kör kluster på Databricks Runtime 5.2 och högre.

Python 3 är nu standard när du skapar kluster

12–19 februari 2019: Version 2.91

Python-standardversionen för kluster som skapats med hjälp av användargränssnittet har växlat från Python 2 till Python 3. Standardvärdet för kluster som skapas med REST API är fortfarande Python 2.

Befintliga kluster ändrar inte sina Python-versioner. Men om du har använt Standard för Python 2 när du skapar nya kluster måste du börja vara uppmärksam på valet av Python-version.

Standardversion av Python

Se Python-version.

Delta Lake är allmänt tillgängligt

Den 1 februari 2019

Nu kan alla få fördelarna med Databricks Deltas kraftfulla transaktionslagringslager och supersnabba läsningar: från och med 1 februari är Delta Lake tillgängligt för alla versioner av Databricks Runtime. Information om Delta finns i Delta Lake- och Delta Engine-guiden.