Machine Learning-modellen trainen en registreren met Unity Catalog

Met Unity Catalog kunt u verfijnde beveiliging toepassen op tabellen en modellen terwijl u naadloos communiceert met andere machine learning-onderdelen in Azure Databricks. In dit artikel wordt beschreven hoe u Python gebruikt om een machine learning-model te trainen met behulp van gegevens in Unity Catalog en het model te registreren in Unity Catalog.

Vereisten

  • Uw werkruimte moet zijn ingeschakeld voor Unity Catalog.
  • U moet de mogelijkheid hebben om een cluster te maken of toegang te hebben tot een cluster dat wordt uitgevoerd in de modus voor toegang van één gebruiker.

Een Databricks Machine Learning-cluster maken

Volg deze stappen om een Databricks Runtime ML-cluster met één gebruiker te maken dat toegang heeft tot gegevens in Unity Catalog.

  1. Klik op compute iconBerekenen.

  2. Klik op Rekenproces maken.

  3. Selecteer onder De toegangsmodus de optie Eén gebruiker.

    Databricks Runtime ML bevat bibliotheken die het gebruik van clusters met één gebruiker vereisen. Eén gebruikerscluster kan uitsluitend door één gebruiker worden gebruikt (standaard is de individuele gebruiker de eigenaar van het cluster). Andere gebruikers kunnen niet aan het cluster koppelen.

    Zie Access-modi voor meer informatie over de functies die beschikbaar zijn in elke toegangsmodus.

  4. Selecteer ML in het vervolgkeuzemenu van de Databricks Runtime-versie en selecteer 11.3 LTS ML of hoger.

  5. Klik op Cluster maken.

De catalogus maken

Volg deze stappen om een nieuwe catalogus te maken waarin uw machine learning-team hun gegevensassets kan opslaan.

  1. Meld u in een werkruimte aan waaraan de metastore is toegewezen, aan als de metastore-beheerder of als gebruiker met de CREATE CATALOG bevoegdheid.

  2. Maak een notebook of open de Databricks SQL-editor.

  3. Voer de volgende opdracht uit om de ml catalogus te maken:

    CREATE CATALOG ml;
    

    Wanneer u een catalogus maakt, wordt er automatisch een schema met de naam default gemaakt.

  4. Verdeel toegang tot de ml catalogus en het ml.default schema en de mogelijkheid om tabellen en weergaven te maken voor de ml_team groep. Als u alle gebruikers op accountniveau wilt opnemen, kunt u de groep account usersgebruiken.

    GRANT USE CATALOG ON CATALOG ml TO `ml team`;
    GRANT USE SCHEMA, CREATE TABLE ON SCHEMA ml.default TO `ml_team`;
    

Nu kan elke gebruiker in de ml_team groep het volgende voorbeeldnotitieblok uitvoeren.

Het voorbeeldnotitieblok importeren

Importeer het volgende notebook om aan de slag te gaan.

Machine learning met Unity Catalog-notebook

Notebook downloaden

Ga als volgende te werk om het notebook te importeren:

  1. Klik naast het notitieblok op Koppeling kopiëren voor importeren.
  2. Klik in uw werkruimte op Workspace IconWerkruimte.
  3. Klik naast een map en Down Caretklik vervolgens op Importeren
  4. Klik op URL en plak de koppeling die u hebt gekopieerd.
  5. Het geïmporteerde notitieblok wordt weergegeven in de map die u hebt geselecteerd. Dubbelklik op de naam van het notitieblok om het te openen.
  6. Selecteer boven aan het notebook uw Databricks Machine Learning-cluster om het notebook eraan toe te voegen.

Het notebook is onderverdeeld in verschillende secties op hoog niveau:

  1. Setup.
  2. Lees gegevens uit CSV-bestanden en schrijf deze naar Unity Catalog.
  3. Laad de gegevens in Pandas-dataframes en schoon deze op.
  4. Een basisclassificatiemodel trainen.
  5. Hyperparameters afstemmen en het model optimaliseren.
  6. Registreer het model in Unity Catalog.
  7. Schrijf de resultaten naar een nieuwe tabel en deel deze met andere gebruikers.

Als u een cel wilt uitvoeren, klikt u op Run IconUitvoeren. Als u het hele notebook wilt uitvoeren, klikt u op Alles uitvoeren.