Wat is Databricks Data Science & Engineering?

Databricks Data Science & Engineering (ook wel werkruimte genoemd) is een analyseplatform op basis van Apache Spark. Het is geïntegreerd met Azure om installatie met één klik, gestroomlijnde werkstromen en een interactieve werkruimte te bieden die samenwerking mogelijk maakt tussen data engineers, gegevenswetenschappers en machine learning engineers.

Wat is Azure Databricks?

Voor een big data-pijplijn worden de gegevens (onbewerkt of gestructureerd) in Azure opgenomen via Azure Data Factory in batches of bijna in realtime gestreamd met behulp van Apache Kafka, Event Hub of IoT Hub. Deze gegevens komen terecht in een data lake voor langdurige permanente opslag, in Azure Blob Storage of Azure Data Lake Storage. Gebruik Azure Databricks als onderdeel van uw analysewerkstroom gebruik om gegevens te lezen uit meerdere gegevensbronnen zoals Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB of Azure SQL Data Warehouse en deze om te zetten in baanbrekende inzichten met behulp van Apache Spark.

Databricks-pijplijn

<a name="apache-spark-analytics-platform">Apache Spark analytics-platform

Databricks Data Science & Engineering bestaat uit de volledige open-source Apache Spark clustertechnologieën en -mogelijkheden. Spark in Databricks Data Science & Engineering bevat de volgende onderdelen:

![Apache Spark in Azure Databricks](./media/what-is-azure-databricks/apache-spark-ecosystem-databricks.png "Apache Spark in Azure Databricks")

  • Spark SQL en DataFrames: Spark SQL is de Spark-module voor het werken met gestructureerde gegevens. Een DataFrame is een gedistribueerde verzameling van gegevens die zijn ingedeeld in kolommen met een naam. Er ligt hetzelfde concept aan ten grondslag als aan een tabel in een relationele database of aan een gegevensframe in R/Python.

  • Streaming: realtime gegevensverwerking en -analyse voor analytische en interactieve toepassingen. Kan worden geïntegreerd met HDFS, Flume en Kafka.

  • MLlib: Machine Learning bibliotheek die bestaat uit veelgebruikte leeralgoritmen en hulpprogramma's, waaronder classificatie, regressie, clustering, gezamenlijke filtering, dimensionaliteitsvermindering en onderliggende optimalisatieprim primitieven.

  • GraphX: grafieken en grafiekberekeningen voor een grote diversiteit aan scenario’s, van cognitieve analyses tot gegevensverkenning.

  • Spark Core API: biedt ondersteuning voor onder andere R, SQL, Python, Scala en Java.

Apache Spark in Azure Databricks

Azure Databricks bouwt voort op de mogelijkheden van Spark door een cloudplatform dat niet hoeft te worden beheerd, en omvat:

  • Volledig beheerde Spark-clusters
  • Een interactieve werkruimte voor verkenning en visualisatie
  • Een platform om uw favoriete Spark-toepassingen aan te zetten

Volledig beheerde Apache Spark-clusters in de cloud

Azure Databricks beschikt over een veilige en betrouwbare productieomgeving in de cloud, die wordt beheerd en ondersteund door Spark-experts. U kunt:

  • Clusters maken in enkele seconden.
  • Clusters dynamisch omhoog en omlaag schalen en deze delen tussen teams.
  • Gebruik clusters programmatisch door REST API's aan teroepen.
  • Beveiligde gegevensintegratiefuncties gebruiken die boven op Spark zijn gebouwd, en waarmee u uw gegevens kunt samenbrengen zonder dat er sprake is van centralisering.
  • Directe toegang krijgen tot de nieuwste functies van Apache Spark die elke versie heeft.

Databricks Runtime

Databricks Runtime is gebouwd boven op Apache Spark en is standaard gebouwd voor de Azure-cloud.

Azure Databricks maakt de complexiteit van de infrastructuur volledig abstract en de noodzaak van gespecialiseerde expertise om uw gegevensinfrastructuur in te stellen en te configureren.

Voor gegevenstechnici die zijn geïnteresseerd in de prestaties van productietaken, biedt Azure Databricks een Spark-engine die sneller is en prestaties levert via diverse optimalisaties op de I/O- en verwerkingslaag (Databricks I/O).

Werkruimte voor samenwerking

Via een samenwerkings- en geïntegreerde omgeving stroomlijnt Databricks Data Science & Engineering het proces van het verkennen van gegevens, het maken van prototypen en het uitvoeren van gegevensgestuurde toepassingen in Spark.

  • Bepaal zelf hoe u gegevens kunt gebruiken met eenvoudige gegevensverkenning.
  • Documenteer uw voortgang in notitieblokken in R, Python, Scala of SQL.
  • Visualiseer gegevens met een paar muisklikken, en gebruik vertrouwde hulpprogramma's zoals Matplotlib, ggplot of d3.
  • Gebruik interactieve dashboards om dynamische rapporten te maken.
  • Gebruik Spark en werk tegelijkertijd met de gegevens.

Beveiliging voor bedrijven

Azure Databricks biedt Azure-beveiliging op bedrijfsniveau, waaronder een integratie met Azure Active Directory, besturingselementen op basis van rollen en SLA's die uw gegevens en uw bedrijf beschermen.

  • Door de integratie met Azure Active Directory kunt u volledige Azure-oplossingen uitvoeren met behulp van Azure Databricks.
  • De op rollen gebaseerde toegang van Azure Databricks maakt het mogelijk om uiterst gedetailleerde gebruikersmachtigingen voor notitieblokken, clusters, taken en gegevens te gebruiken.
  • Hoogwaardige SLA's.

Belangrijk

Azure Databricks is een Microsoft Azure-eigen service die is geïmplementeerd in de globale openbare Azure-cloudinfrastructuur. Alle communicatie tussen onderdelen van de service, inclusief tussen de openbare IP's in het besturingsvlak en het gegevensvlak van de klant, blijft binnen de Microsoft Azure netwerk-backbone. Zie ook Microsoft Global Network.

Integratie met Azure-services

Databricks Data Science & Engineering integreert diep met Azure-databases en -winkels: Synapse Analytics, Cosmos DB, Data Lake Store en Blob Storage.

Integratie met Power BI

Dankzij uitgebreide integratie met Power BI kunt u met Databricks Data Science & Engineering uw belangrijke inzichten snel en eenvoudig ontdekken en delen. U kunt ook andere BI-hulpprogramma's gebruiken, zoals Tableau Software.

Volgende stappen