Databricks Data Science & Engineering-concepten
In dit artikel worden de basisconcepten beschreven die u moet begrijpen om uw werkruimte Azure Databricks gebruiken.
Werkruimte
Een werkruimte is een omgeving voor toegang tot al uw Azure Databricks assets. Een werkruimte organiseert objecten (notebooks, bibliotheken, dashboards en experimenten) in mappen en biedt toegang tot gegevensobjecten en rekenbronnen.
In deze sectie worden de objecten in de Azure Databricks werkruimtemappen beschreven.
Een webinterface voor documenten die runnable opdrachten, visualisaties en verhalende tekst bevatten.
Een interface die geordende toegang biedt tot visualisaties.
Een pakket met code dat beschikbaar is voor de notebook of taak die wordt uitgevoerd op uw cluster. Databricks-runtimes bevatten veel bibliotheken en u kunt uw eigen bibliotheken toevoegen.
Een map waarvan de inhoud samen een co-versie heeft door deze te synchroniseren met een externe Git-opslagplaats.
Een verzameling MLflow-uitvoeringen voor het trainen van machine learning model.
Interface
In deze sectie worden de interfaces beschreven die Azure Databricks voor toegang tot uw assets: UI, API en opdrachtregel (CLI).
Gebruikersinterface
De Azure Databricks ui biedt een gebruiksvriendelijke grafische interface voor werkruimtemappen en hun ingesloten objecten, gegevensobjecten en rekenbronnen.

Er zijn drie versies van de REST API: 2.1,2.0en 1.2. De REST API's 2.1 en 2.0 ondersteunen het merendeel van de functionaliteit van REST API 1.2 en aanvullende functionaliteit en hebben de voorkeur.
Een open source-project dat wordt gehost op GitHub. De CLI is gebaseerd op de REST API (meest recente versie).
Gegevensbeheer
In deze sectie worden de objecten beschreven die de gegevens bevatten waarop u analyses en invoert in machine learning algoritmen.
Databricks-bestandssysteem (DBFS)
Een abstractielaag van het bestandssysteem over een blob-archief. Het bevat mappen, die bestanden (gegevensbestanden, bibliotheken en afbeeldingen) en andere mappen kunnen bevatten. DBFS wordt automatisch gevuld met enkele gegevenssets die u kunt gebruiken om meer te Azure Databricks.
Een verzameling informatie die is geordend zodat deze eenvoudig kan worden gebruikt, beheerd en bijgewerkt.
Een weergave van gestructureerde gegevens. U kunt query's uitvoeren Apache Spark SQL en Apache Spark API's.
Het onderdeel waarin alle structuurgegevens van de verschillende tabellen en partities in het datawarehouse worden opgeslagen, inclusief kolom- en kolomtypegegevens, de serialisaties en deserializers die nodig zijn om gegevens te lezen en schrijven, en de bijbehorende bestanden waarin de gegevens worden opgeslagen. Elke Azure Databricks-implementatie heeft een centrale Hive-metastore die toegankelijk is voor alle clusters om metagegevens van de tabel persistent te maken. U hebt ook de mogelijkheid om een bestaande externe Hive-metastore te gebruiken.
Rekenbeheer
In deze sectie worden concepten beschreven die u moet kennen om berekeningen uit te voeren in Azure Databricks.
Een set rekenbronnen en configuraties waarop u notebooks en taken kunt uitvoeren. Er zijn twee typen clusters: voor alle doeleinden en voor een taak.
- U maakt een cluster voor alle doeleinden met behulp van de gebruikersinterface, CLI of REST API. Een cluster voor alle doeleinden kunt u handmatig beëindigen en opnieuw starten. Meerdere gebruikers kunnen dergelijke clusters delen om gezamenlijke interactieve analyses uit te voeren.
- De Azure Databricks jobplander maakt een taakcluster wanneer u een taak op een nieuw taakcluster hebt uitgevoerd en beëindigt het cluster wanneer de taak is voltooid. U kunt een taakcluster niet opnieuw starten.
Een set niet-actieve, gebruiksklaar instanties die het starten en automatisch schalen van clusters verminderen. Wanneer een cluster is gekoppeld aan een pool, worden de stuurprogramma- en werkknooppunten uit de pool toegewezen. Als de pool onvoldoende niet-actieve resources heeft om aan de aanvraag van het cluster te voldoen, wordt de pool uitgebreid door nieuwe exemplaren van de instantieprovider toe te passen. Wanneer een gekoppeld cluster wordt beëindigd, worden de gebruikte exemplaren geretourneerd naar de pool en kunnen ze opnieuw worden gebruikt door een ander cluster.
De set kernonderdelen die worden uitgevoerd op de clusters die worden beheerd door Azure Databricks. Azure Databricks biedt verschillende typen runtimes:
- Databricks Runtime omvat Apache Spark maar voegt ook een aantal onderdelen en updates toe die de bruikbaarheid, prestaties en beveiliging van big data verbeteren.
- Databricks Runtime for Machine Learning is gebouwd op Databricks Runtime en biedt een kant-en-klaar-omgeving voor machine learning en gegevenswetenschap. Het bevat meerdere populaire bibliotheken, waaronder TensorFlow, Keras, PyTorch en XGBoost.
- Databricks Runtime genomics is een versie van Databricks Runtime geoptimaliseerd voor het werken met genomic- en biomedische gegevens.
- Databricks Light is de Azure Databricks van de open source Apache Spark runtime. Het biedt een runtimeoptie voor taken die niet de geavanceerde voordelen van prestaties, betrouwbaarheid of automatisch schalen nodig hebben die door de Databricks Runtime. U kunt Databricks Light alleen selecteren wanneer u een cluster maakt om een JAR-, Python- of Spark-submit-taak uit te voeren; u kunt deze runtime niet selecteren voor clusters waarop u interactieve of notebook-taakworkloads kunt uitvoeren.
Een niet-interactief mechanisme voor het uitvoeren van een notebook of bibliotheek, onmiddellijk of gepland.
Workload
Azure Databricks identificeert twee typen workloads die onderhevig zijn aan verschillende prijsschema's: data engineering (taak) en gegevensanalyse (voor alle doeleinden).
- Data engineering Een (geautomatiseerde) workload wordt uitgevoerd op een taakcluster dat door de Azure Databricks taakplanster voor elke workload wordt gemaakt.
- Gegevensanalyse Een (interactieve) workload wordt uitgevoerd op een cluster voor alle doeleinden. Interactieve workloads voeren doorgaans opdrachten uit binnen een Azure Databricks notebook. Het uitvoeren van een taak op een bestaand cluster voor alle doeleinden wordt echter ook behandeld als een interactieve workload.
Context voor uitvoering
De status voor een REPL-omgeving voor elke ondersteunde programmeertaal. De ondersteunde talen zijn Python, R, Scala en SQL.
Machine learning
In deze sectie worden concepten beschreven die betrekking hebben op machine learning in Azure Databricks.
De belangrijkste organisatie-eenheid voor het bijhouden machine learning ontwikkeling van modellen. Experimenten organiseren, weergeven en controleren de toegang tot afzonderlijke vastgelegde uitvoeringen van modeltrainingscode.
Een gecentraliseerde opslagplaats met functies. Databricks Feature Store maakt het delen en ontdekken van functies in uw organisatie mogelijk en zorgt er ook voor dat dezelfde berekeningscode voor functies wordt gebruikt voor modeltraining en de deferie.
Een getraind machine learning of deep learning-model dat is geregistreerd in modelregister.
Verificatie en autorisatie
In deze sectie worden de concepten beschreven die u moet kennen wanneer u uw gebruikers Azure Databricks en hun toegang tot Azure Databricks assets.
Een unieke persoon die toegang heeft tot het systeem.
Een verzameling gebruikers.
Een lijst met machtigingen die zijn gekoppeld aan de werkruimte, het cluster, de taak, de tabel of het experiment. Een ACL geeft aan welke gebruikers of systeemprocessen toegang krijgen tot de objecten en welke bewerkingen zijn toegestaan op de assets. Elk item in een typische ACL geeft een onderwerp en een bewerking aan.