Azure Synapse Analytics-terminologie

Dit document behandelt de basisconcepten van Azure Synapse Analytics.

Synapse-werkruimte

Een Synapse-werkruimte is een beveiligbare samenwerkingsgrens voor het uitvoeren van zakelijke cloudanalyses in Azure. Een werkruimte wordt geïmplementeerd in een specifieke regio en heeft een gekoppeld ADLS Gen2-account en -bestandssysteem (voor het opslaan van tijdelijke gegevens). Een werkruimte bevindt zich onder een resourcegroep.

Met een werkruimte kunt u analyses uitvoeren met SQL en Apache Spark. Resources die beschikbaar zijn voor SQL en Spark Analytics, zijn georganiseerd in SQL- en Spark-pools.

Gekoppelde services

Een werkruimte kan verschillende Gekoppelde services bevatten. Dit zijn in principe verbindingsreeksen waarmee de verbindingsgegevens worden gedefinieerd die nodig zijn om de werkruimte aan externe resources te koppelen.

Synapse SQL

Synapse SQL is de mogelijkheid om op T-SQL gebaseerde analyses uit te voeren in een Synapse-werkruimte. Synapse SQL heeft twee verbruiksmodellen: toegewezen en serverloos. Gebruik toegewezen SQL-pools voor het toegewezen model. Een werkruimte kan elk gewenst aantal pools bevatten. Gebruik de serverloze SQL-pools als u het serverloze model wilt gebruiken. Elke werkruimte heeft een van deze pools.

Binnen Synapse Studio kunt u met SQL-pools werken door SQL-scripts uit te voeren.

Notitie

Toegewezen SQL-pools in Azure Synapse verschilt van de toegewezen SQL-pool (voorheen SQL DW). Niet alle functies van de toegewezen SQL-pool in Azure Synapse werkruimten zijn van toepassing op een toegewezen SQL-pool (voorheen SQL DW) en omgekeerd. Zie Een werkruimte inschakelen voor uw toegewezen SQL-pool (voorheen SQL DW) als u werkruimtefuncties wilt inschakelen voor een bestaande toegewezen SQL-pool (voorheen SQL DW).

Apache Spark for Synapse

Maak en gebruik serverloze Apache Spark-pools in uw Synapse-werkruimte als u Spark-analyses wilt gebruiken. Wanneer u een Spark-pool gaat gebruiken, maakt de werkruimte een Spark-sessie om de resources te verwerken die aan die sessie zijn gekoppeld.

Binnen Synapse zijn er twee manieren om Spark te gebruiken:

  • Spark-notebooks voor data science en engineering gebruiken Scala, PySpark, C# en SparkSQL
  • Spark-taakdefinities voor het uitvoeren van Spark-batchtaken met behulp van JAR-bestanden.

SynapseML

SynapseML (voorheen bekend als MMLSpark) is een opensource-bibliotheek die het maken van zeer schaalbare ML-pijplijnen (Machine Learning) vereenvoudigt. Het is een ecosysteem van hulpprogramma's die worden gebruikt om het Apache Spark-framework in verschillende nieuwe richtingen uit te breiden. SynapseML combineert verschillende bestaande machine learning-frameworks en nieuwe Microsoft-algoritmen in één schaalbare API die kan worden gebruikt in Python, R, Scala, .NET en Java. Zie de belangrijkste functies van SynapseML voor meer informatie.

Pipelines

Azure Synapse maakt gebruik van pijplijnen om gegevensintegratie te bieden. U kunt hiermee gegevens verplaatsen tussen services en activiteiten organiseren.

  • Een pijplijn is een logische groep activiteiten die samen een taak uitvoeren.
  • Activiteiten zijn acties binnen een pijplijn die moeten worden uitgevoerd op gegevens, zoals het kopiëren van gegevens of het uitvoeren van een notebook of een SQL-script.
  • Gegevensstromen zijn een specifiek soort activiteit die een ervaring zonder code bieden voor het uitvoeren van gegevenstransformaties die gebruikmaken van Synapse Spark.
  • Trigger : hiermee wordt een pijplijn uitgevoerd. Deze kan handmatig of automatisch worden uitgevoerd (planning, tumblingvenster of op gebeurtenis gebaseerd)
  • Integratiegegevensset : benoemde weergave van gegevens die alleen verwijst naar of verwijst naar de gegevens die in een activiteit moeten worden gebruikt als invoer en uitvoer. Deze hoort bij een gekoppelde service.

Data Explorer (preview)

Azure Synapse Data Explorer biedt klanten een interactieve query-ervaring om inzichten te ontgrendelen op basis van logboek- en telemetriegegevens.

  • Data Explorer pools zijn toegewezen clusters met twee of meer rekenknooppunten met lokale SSD-opslag (hot cache) voor geoptimaliseerde queryprestaties en meerdere blob-opslag (koude cache) voor persistentie.
  • Data Explorer databases worden gehost op Data Explorer pools en zijn logische entiteiten die bestaan uit verzamelingen tabellen en andere databaseobjecten. U kunt meer dan één database per pool hebben.
  • Tabellen zijn databaseobjecten die gegevens bevatten die zijn georganiseerd met behulp van een traditioneel relationeel gegevensmodel. Gegevens worden opgeslagen in records die voldoen aan het goed gedefinieerde tabelschema van Data Explorer waarin een geordende lijst met kolommen wordt gedefinieerd, waarbij elke kolom een naam en een scalair gegevenstype heeft. Scalaire gegevenstypen kunnen gestructureerd zijn (int, echt, datum/tijd of periode), semi-gestructureerd (dynamisch) of vrije tekst (tekenreeks). Het dynamische type is vergelijkbaar met JSON omdat het één scalaire waarde, een matrix of een woordenlijst met dergelijke waarden kan bevatten.
  • Externe tabellen zijn tabellen die verwijzen naar een opslag- of SQL-gegevensbron buiten de Data Explorer database. Net als bij tabellen heeft een externe tabel een goed gedefinieerd schema (een geordende lijst met kolomnaam- en gegevenstypeparen). In tegenstelling tot Data Explorer tabellen waarin gegevens worden opgenomen in Data Explorer pools, worden externe tabellen uitgevoerd op gegevens die zijn opgeslagen en beheerd buiten pools. Externe tabellen behouden geen gegevens en worden gebruikt om gegevens op te vragen of te exporteren naar een extern gegevensarchief.

Volgende stappen