Azure Synapse Analytics terminologi
Det här dokumentet vägleder dig genom de grundläggande begreppen i Azure Synapse Analytics.
Grundläggande inställningar
En Synapse-arbetsyta är en bindningsbar samarbetsgräns för molnbaserade företagsanalyser i Azure. En arbetsyta distribueras i en viss region och har ett ADLS Gen2-konto och filsystem (för lagring av tillfälliga data). En arbetsyta finns under en resursgrupp.
Med en arbetsyta kan du utföra analyser med SQL apache spark. Resurser som är tillgängliga för SQL- och Spark-analys organiseras i SQL och Spark-pooler.
Länkade tjänster
En arbetsyta kan innehålla val annat antal länkade tjänster, i princip anslutningssträngar som definierar den anslutningsinformation som behövs för att arbetsytan ska kunna ansluta till externa resurser.
Synapse SQL
Synapse SQL är möjligheten att utföra T-SQL analys i Synapse-arbetsytan. Synapse SQL har två förbrukningsmodeller: dedikerad och serverlös. För den dedikerade modellen använder du dedikerade SQL pooler. En arbetsyta kan ha val annat antal av dessa pooler. Om du vill använda den serverlösa modellen använder du de serverlösa SQL poolerna. Varje arbetsyta har en av dessa pooler.
I Synapse Studio kan du arbeta med SQL genom att köra SQL skript.
Apache Spark för Synapse
Om du vill använda Spark-analys skapar och använder du serverlösa Apache Spark i Synapse-arbetsytan. När du börjar använda en Spark-pool skapar arbetsytorna en Spark-session för att hantera de resurser som är associerade med den sessionen.
Det finns två sätt i Synapse att använda Spark:
- Spark Notebooks för datavetenskap och datateknik använder Scala, PySpark, C# och SparkSQL
- Spark-jobbdefinitioner för att köra Spark-batchjobb med jar-filer.
Pipelines
Pipelines är hur Azure Synapse tillhandahåller dataintegrering , så att du kan flytta data mellan tjänster och orkestreringsaktiviteter.
- Pipeline är logisk gruppering av aktiviteter som utför en uppgift tillsammans.
- Aktiviteter definierar åtgärder i en pipeline som ska utföras på data, till exempel att kopiera data, köra en notebook-SQL ett skript.
- Dataflöden är en specifik typ av aktivitet som ger en upplevelse utan kod för att göra datatransformering som använder Synapse Spark under-the-covers.
- Utlösare – kör en pipeline. Den kan köras manuellt eller automatiskt (schema, rullande fönster eller händelsebaserad)
- Integrationsdatauppsättning – Namngiven vy över data som helt enkelt pekar eller refererar till de data som ska användas i en aktivitet som indata och utdata. Den tillhör en länkad tjänst.
Datautforskaren (förhandsversion)
Azure Synapse Datautforskaren ger kunderna en interaktiv frågeupplevelse för att få insikter från logg- och telemetridata.
- Datautforskaren är dedikerade kluster som innehåller två eller flera beräkningsnoder med lokal SSD-lagring (het cache) för optimerad frågeprestanda och flera bloblagring (kall cache) för beständighet.
- Datautforskaren databaser finns i Datautforskaren och är logiska entiteter som består av samlingar av tabeller och andra databasobjekt. Du kan ha mer än en databas per pool.
- Tabeller är databasobjekt som innehåller data som är ordnade med hjälp av en traditionell relationsdatamodell. Data lagras i poster som följer Datautforskaren väldefinierade tabellschema som definierar en ordnad lista med kolumner, där varje kolumn har ett namn och en skalbar datatyp. Skalära datatyper kan struktureras (int, real, datetime eller timespan), halvstrukturerad (dynamisk) eller fritext (sträng). Den dynamiska typen liknar JSON på så sätt att den kan innehålla ett enda skalära värde, en matris eller en ordlista med sådana värden.
- Externa tabeller är tabeller som refererar till en lagrings- SQL en datakälla utanför Datautforskaren databasen. Precis som tabeller har en extern tabell ett väldefinierat schema (en ordnad lista över kolumnnamn och datatyppar). Till Datautforskaren tabeller där data matas in i Datautforskaren pooler fungerar externa tabeller på data som lagras och hanteras utanför pooler. Externa tabeller bevarar inte några data och används för att fråga eller exportera data till ett externt datalager.