Februari 2019

Deze functies en Azure Databricks platformverbeteringen zijn uitgebracht in februari 2019.

Notitie

Releases worden gefaseerd. Uw Azure Databricks account wordt mogelijk pas bijgewerkt tot een week na de eerste releasedatum.

Databricks Light is algemeen beschikbaar

26 februari - 5 maart 2019: versie 2.92

Databricks Light (ook wel bekend als Data Engineering Light) is nu beschikbaar. Databricks Light is de Databricks-verpakking van de open source Apache Spark runtime. Het biedt een runtimeoptie voor taken die niet de geavanceerde prestaties, betrouwbaarheid of voordelen voor automatisch schalen nodig hebben die door de Databricks Runtime. U kunt Databricks Light alleen selecteren wanneer u een cluster maakt om een JAR-, Python- of Spark-submit-taak uit te voeren; u kunt deze runtime niet selecteren voor clusters waarop u interactieve of notebook-taakworkloads kunt uitvoeren. Zie Databricks Light.

Beheerde MLflow op Azure Databricks (openbare preview)

26 februari - 5 maart 2019: versie 2.92

MLflow is een open source-platform voor het beheer van de end-to-end levenscyclus van machine learning. Er worden drie primaire functies mee aangepakt:

  • Het bijhouden van experimenten voor het registreren en vergelijken van parameters en resultaten.
  • Het beheren en implementeren van modellen van verschillende ML bibliotheken tot verschillende platformen voor het bedienen van modellen en de deferentie.
  • Het verpakken ML code in een herbruikbare, reproduceerbare vorm om te delen met andere gegevenswetenschappers of om ze over te dragen naar productie.

Azure Databricks biedt nu een volledig beheerde en gehoste versie van MLflow die is geïntegreerd met beveiligingsfuncties voor ondernemingen, hoge beschikbaarheid en andere Azure Databricks-werkruimtefuncties, zoals experimentbeheer, uitvoeringsbeheer en het vastleggen van notebookrevisies. MLflow op Azure Databricks biedt een geïntegreerde ervaring voor het volgen en beveiligen van machine learning-modeltrainingen en het uitvoeren van machine learning-projecten. Door beheerde MLflow te gebruiken op Azure Databricks, krijgt u de voordelen van beide platforms, waaronder:

  • Werkruimten: In samenwerkingsverband experimenten en resultaten bijhouden en organiseren in Azure Databricks werkruimten met een gehoste MLflow-traceringsserver en geïntegreerde experiment-UI. Wanneer u MLflow in notebooks gebruikt, Azure Databricks notebookrevisies automatisch vastleggen, zodat u dezelfde code kunt reproduceren en later kunt uitvoeren.
  • Beveiliging: Profiteer van één algemeen beveiligingsmodel voor de hele levenscyclus van ML via ACL's.
  • Taken: MLflow-projecten uitvoeren als Azure Databricks taken op afstand en rechtstreeks vanuit Azure Databricks notebooks.

Hier volgt een demo van een werkstroom voor het bijhouden van een Azure Databricks werkruimte:

Runs bijhouden en experimentwerkstroom organiseren

Zie Experiments and Run MLflow Projects on Azure Databricks (Experimenten en MLflow-projecten uitvoeren op Azure Databricks).

Azure Data Lake Storage Gen2-connector is algemeen beschikbaar

15 februari 2019

Azure Data Lake Storage Gen2 (ADLS Gen2), de data lake-oplossing van de volgende generatie voor big data-analyses, is nu ga-en-gaan, net als de ADLS Gen2-connector voor Azure Databricks. We zijn ook blij te kunnen aankondigen dat ADLS Gen2 Databricks Delta ondersteunt wanneer u clusters op Databricks Runtime 5.2 en hoger gebruikt.

Python 3 is nu de standaard wanneer u clusters maakt

12-19 februari 2019: versie 2.91

De standaardversie van Python voor clusters die zijn gemaakt met behulp van de gebruikersinterface is overgeschakeld van Python 2 naar Python 3. De standaardwaarde voor clusters die zijn gemaakt met REST API is nog steeds Python 2.

Bestaande clusters wijzigen hun Python-versies niet. Maar als u de standaardinstelling python 2 hebt gebruikt bij het maken van nieuwe clusters, moet u aandacht besteden aan de selectie van uw Python-versie.

Standaard python-versie

Zie Python-versie.

Delta Lake algemeen beschikbaar

1 februari 2019

Iedereen kan nu profiteren van de voordelen van de krachtige transactionele opslaglaag van Databricks Delta en supersnelle leesgegevens: vanaf 1 februari is Delta Lake ga en beschikbaar voor alle ondersteunde versies van Databricks Runtime. Zie de Handleiding voor Delta Lake en Delta Engine voor meer informatie over Delta.