Machine Learning-modellen trainen en registreren met Unity Catalog
Met Unity Catalog kunt u verfijnde beveiliging toepassen op tabellen en modellen terwijl u naadloos communiceert met andere machine learning-onderdelen in Azure Databricks. In dit artikel wordt beschreven hoe u Python gebruikt om een machine learning-model te trainen met behulp van gegevens in Unity Catalog en het model te registreren in Unity Catalog.
Vereisten
- Uw werkruimte moet zijn ingeschakeld voor Unity Catalog.
- U moet de mogelijkheid hebben om een cluster te maken of toegang te hebben tot een cluster dat wordt uitgevoerd in de modus voor toegang van één gebruiker.
Een Databricks Machine Learning-cluster maken
Volg deze stappen om een Databricks Runtime ML-cluster met één gebruiker te maken dat toegang heeft tot gegevens in Unity Catalog.
Klik op Berekenen.
Klik op Rekenproces maken.
Selecteer onder De toegangsmodus de optie Eén gebruiker.
Databricks Runtime ML bevat bibliotheken die het gebruik van clusters met één gebruiker vereisen. Eén gebruikerscluster kan uitsluitend door één gebruiker worden gebruikt (standaard is de individuele gebruiker de eigenaar van het cluster). Andere gebruikers kunnen niet aan het cluster koppelen.
Zie Access-modi voor meer informatie over de functies die beschikbaar zijn in elke toegangsmodus.
Selecteer ML in het vervolgkeuzemenu van de Databricks Runtime-versie en selecteer 11.3 LTS ML of hoger.
Klik op Cluster maken.
De catalogus maken
Volg deze stappen om een nieuwe catalogus te maken waarin uw machine learning-team hun gegevensassets kan opslaan.
Meld u in een werkruimte aan waaraan de metastore is toegewezen, aan als de metastore-beheerder of als gebruiker met de
CREATE CATALOG
bevoegdheid.Maak een notebook of open de Databricks SQL-editor.
Voer de volgende opdracht uit om de
ml
catalogus te maken:CREATE CATALOG ml;
Wanneer u een catalogus maakt, wordt er automatisch een schema met de naam
default
gemaakt.Verdeel toegang tot de
ml
catalogus en hetml.default
schema en de mogelijkheid om tabellen en weergaven te maken voor deml_team
groep. Als u alle gebruikers op accountniveau wilt opnemen, kunt u de groepaccount users
gebruiken.GRANT USE CATALOG ON CATALOG ml TO `ml team`; GRANT USE SCHEMA, CREATE TABLE ON SCHEMA ml.default TO `ml_team`;
Nu kan elke gebruiker in de ml_team
groep het volgende voorbeeldnotitieblok uitvoeren.
Het voorbeeldnotitieblok importeren
Importeer het volgende notebook om aan de slag te gaan.
Machine learning met Unity Catalog-notebook
Ga als volgende te werk om het notebook te importeren:
- Klik naast het notitieblok op Koppeling kopiëren voor importeren.
- Klik in uw werkruimte op Werkruimte.
- Klik naast een map en klik vervolgens op Importeren
- Klik op URL en plak de koppeling die u hebt gekopieerd.
- Het geïmporteerde notitieblok wordt weergegeven in de map die u hebt geselecteerd. Dubbelklik op de naam van het notitieblok om het te openen.
- Selecteer boven aan het notebook uw Databricks Machine Learning-cluster om het notebook eraan toe te voegen.
Het notebook is onderverdeeld in verschillende secties op hoog niveau:
- Setup.
- Lees gegevens uit CSV-bestanden en schrijf deze naar Unity Catalog.
- Laad de gegevens in Pandas-dataframes en schoon deze op.
- Een basisclassificatiemodel trainen.
- Hyperparameters afstemmen en het model optimaliseren.
- Registreer het model in Unity Catalog.
- Schrijf de resultaten naar een nieuwe tabel en deel deze met andere gebruikers.
Als u een cel wilt uitvoeren, klikt u op Uitvoeren. Als u het hele notebook wilt uitvoeren, klikt u op Alles uitvoeren.