Inleiding tot werkruimteobjecten

Dit artikel bevat een inleiding op hoog niveau tot Azure Databricks-werkruimteobjecten. U kunt werkruimteobjecten maken, weergeven en organiseren in de werkruimtebrowser tussen persona's.

Clusters

Azure Databricks Datawetenschap & Engineering- en Databricks Machine Learning-clusters bieden een geïntegreerd platform voor verschillende gebruiksvoorbeelden, zoals het uitvoeren van productie-ETL-pijplijnen, streaminganalyses, ad-hocanalyses en machine learning. Een cluster is een type Azure Databricks-rekenresource. Andere typen rekenresources zijn Azure Databricks SQL Warehouses.

Zie Compute voor gedetailleerde informatie over het beheren en gebruiken van clusters.

Notebooks

Een notebook is een webinterface voor documenten met een reeks runnable cellen (opdrachten) die worden uitgevoerd op bestanden en tabellen, visualisaties en verhaaltekst. Opdrachten kunnen op volgorde worden uitgevoerd, wat verwijst naar de uitvoer van een of meer eerder uitgevoerde opdrachten.

Notebooks zijn één mechanisme voor het uitvoeren van code in Azure Databricks. Het andere mechanisme is taken.

Zie Inleiding tot Databricks-notebooks voor gedetailleerde informatie over het beheren en gebruiken van notebooks.

Banen

Taken zijn één mechanisme voor het uitvoeren van code in Azure Databricks. Het andere mechanisme is notebooks.

Zie Azure Databricks-taken maken en uitvoeren voor gedetailleerde informatie over het beheren en gebruiken van taken.

Bibliotheken

Een bibliotheek maakt externe of lokaal gebouwde code beschikbaar voor notebooks en taken die worden uitgevoerd op uw clusters.

Zie Bibliotheken voor gedetailleerde informatie over het beheren en gebruiken van bibliotheken.

Gegevens

U kunt gegevens importeren in een gedistribueerd bestandssysteem dat is gekoppeld aan een Azure Databricks-werkruimte en ermee werken in Azure Databricks-notebooks en -clusters. U kunt ook een groot aantal Apache Spark-gegevensbronnen gebruiken voor toegang tot gegevens.

Zie Gegevens opnemen in een Databricks Lakehouse voor gedetailleerde informatie over het laden van gegevens.

Bestanden

Belangrijk

Deze functie is beschikbaar als openbare preview.

In Databricks Runtime 11.3 LTS en hoger kunt u willekeurige bestanden maken en gebruiken in de Databricks-werkruimte. Bestanden kunnen elk bestandstype zijn. Dit zijn enkele veel voorkomende voorbeelden:

  • .py bestanden die worden gebruikt in aangepaste modules.
  • .md bestanden, zoals README.md.
  • .csv of andere kleine gegevensbestanden.
  • .txt Bestanden.
  • Logboekbestanden.

Zie Werken met bestanden in Azure Databricks voor gedetailleerde informatie over het gebruik van bestanden. Zie Code delen tussen Databricks-notebooks voor informatie over het gebruik van bestanden om uw code te modulariseren tijdens het ontwikkelen met Databricks-notebooks

Git-mappen

Git-mappen zijn Azure Databricks-mappen waarvan de inhoud aan elkaar is gekoppeld door ze te synchroniseren met een externe Git-opslagplaats. Met Behulp van Databricks Git-mappen kunt u notebooks ontwikkelen in Azure Databricks en een externe Git-opslagplaats gebruiken voor samenwerking en versiebeheer.

Zie Git-integratie met Databricks Git-mappen voor gedetailleerde informatie over het gebruik van opslagplaatsen.

Modellen

Het model verwijst naar een model dat is geregistreerd in het MLflow-modelregister. Modelregister is een gecentraliseerd modelarchief waarmee u de volledige levenscyclus van MLflow-modellen kunt beheren. Het biedt chronologische modelherkomst, modelversiebeheer, faseovergangen en aantekeningen en beschrijvingen van model- en modelversies.

Zie Modellevenscyclus beheren in Unity Catalog voor gedetailleerde informatie over het beheren en gebruiken van modellen.

Experimenten

Een MLflow-experiment is de primaire eenheid van de organisatie en toegangsbeheer voor uitvoeringen van MLflow machine learning-modellen; alle MLflow-uitvoeringen behoren tot een experiment. Met elk experiment kunt u uitvoeringen visualiseren, zoeken en vergelijken, evenals uitvoeringartefacten of metagegevens downloaden voor analyse in andere hulpprogramma's.

Zie Trainingsuitvoeringen organiseren met MLflow-experimenten voor gedetailleerde informatie over het beheren en gebruiken van experimenten.

Query's

Query's zijn SQL-instructies waarmee u kunt communiceren met uw gegevens. Zie Access en opgeslagen query's beheren voor meer informatie.

Dashboards

Dashboards zijn presentaties van queryvisualisaties en commentaar. Zie Dashboards of Verouderde dashboards.

Waarschuwingen

Waarschuwingen zijn meldingen dat een veld dat wordt geretourneerd door een query een drempelwaarde heeft bereikt. Zie Wat zijn Databricks SQL-waarschuwingen? voor meer informatie.

Verwijzingen naar werkruimteobjecten

In het verleden moesten gebruikers het /Workspace padvoorvoegsel voor sommige Databricks-API's (%sh) opnemen, maar niet voor andere (%runrest API-invoer).

Gebruikers kunnen werkruimtepaden overal gebruiken met het /Workspace voorvoegsel. Oude verwijzingen naar paden zonder het /Workspace voorvoegsel worden omgeleid en blijven werken. Het is raadzaam dat alle werkruimtepaden het /Workspace voorvoegsel bevatten om deze te onderscheiden van volume- en DBFS-paden.

De vereiste voor consistent /Workspace gedrag voor padvoorvoegsel is dit: er kan geen map zijn /Workspace op het hoofdniveau van de werkruimte. Als u een /Workspace map op het hoofdniveau hebt en deze UX-verbetering wilt inschakelen, verwijdert of wijzigt u de naam van de /Workspace map die u hebt gemaakt en neemt u contact op met uw Azure Databricks-accountteam.

Een BESTANDS-, map- of notebook-URL delen

In uw Azure Databricks-werkruimte hebben URL's naar werkruimtebestanden, notebooks en mappen de volgende indelingen:

URL's voor werkruimtebestanden

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

Notebook-URL's

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

Map-URL's (werkruimte en Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Deze koppelingen kunnen worden verbroken als een map, bestand of notebook in het huidige pad wordt bijgewerkt met een Git-pull-opdracht, of wordt verwijderd en opnieuw gemaakt met dezelfde naam. U kunt echter een koppeling maken op basis van het werkruimtepad om te delen met andere Databricks-gebruikers met de juiste toegangsniveaus door deze te wijzigen in een koppeling in deze indeling:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Koppelingen naar mappen, notitieblokken en bestanden kunnen worden gedeeld door alles in de URL te vervangen door ?o=<16-digit-workspace-ID> het pad naar het bestand, de map of het notitieblok uit de hoofdmap van de werkruimte. Als u een URL naar een map deelt, verwijdert /browse/folders/<16-digit-ID> u deze ook uit de oorspronkelijke URL.

Als u het bestandspad wilt ophalen, opent u het contextmenu door met de rechtermuisknop te klikken op de map, het notitieblok of het bestand in uw werkruimte die u wilt delen en kopieer-URL/pad volledig pad> te selecteren. #workspace Ga vooraf aan het bestandspad dat u zojuist hebt gekopieerd en voeg de resulterende tekenreeks toe nadat deze ?o=<16-digit-workspace-ID> overeenkomt met de bovenstaande URL-indeling.

Selecteer het pad url kopiëren gevolgd door volledig pad in het contextmenu van een werkruimtemap.

Url-formuleringsvoorbeeld #1: Map-URL's

Als u de URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222van de werkruimtemap wilt delen, verwijdert u de browse/folders/1111111111111111 subtekenreeks uit de URL. Voeg #workspace het pad toe gevolgd door het pad naar de map of het werkruimteobject dat u wilt delen.

In dit geval is het pad van de werkruimte naar een map. /Workspace/Users/user@example.com/team-git/notebooks Nadat u het volledige pad uit uw werkruimte hebt gekopieerd, kunt u nu de deelbare koppeling maken:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

URL-formulering voorbeeld 2: Notebook-URL's

Als u de URL van het notitieblok https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333wilt delen, verwijdert u #notebook/2222222222222222/command/3333333333333333. Voeg #workspace het pad toe gevolgd door het pad naar de map of het werkruimteobject.

In dit geval verwijst het werkruimtepad naar een notebook. /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook Nadat u het volledige pad uit uw werkruimte hebt gekopieerd, kunt u nu de deelbare koppeling maken:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

U hebt nu een stabiele URL voor een bestand, map of notitieblokpad dat u wilt delen. Zie Id's ophalen voor werkruimteobjecten voor meer informatie over URL's en id's.