Serverlös SQL-pool i Azure Synapse Analytics

Artikel
10/18/2023

Varje Azure Synapse Analytics-arbetsyta levereras med serverlösa SQL-poolslutpunkter som du kan använda för att fråga efter data i Azure Data Lake (Parquet, Delta Lake, avgränsade textformat ), Azure Cosmos DB eller Dataverse.

Serverlös SQL-pool är en frågetjänst för data i din datasjö. Den gör att du kan komma åt dina data via följande funktioner:

En välbekant T-SQL-syntax för att köra frågor mot data på plats utan att du behöver kopiera eller läsa in data i ett särskilt arkiv. Mer information finns i avsnittet Stöd för T-SQL.
Integrerad anslutning via T-SQL-gränssnittet som erbjuder ett brett utbud av business intelligence- och ad hoc-frågeverktyg, inklusive de mest populära drivrutinerna. Mer information finns i avsnittet Klientverktyg. Du kan lära dig mer i den här videon som ger en introduktion till Synapse serverlösa SQL-pooler.

Serverlös SQL-pool är ett distribuerat databehandlingssystem som skapats för storskaliga data- och beräkningsfunktioner. Med en serverlös SQL-pool kan du analysera dina stordata på några sekunder till minuter, beroende på arbetsbelastningen. Tack vare den inbyggda feltoleransen för frågekörning ger systemet hög tillförlitlighet och framgång även för långvariga frågor som involverar stora datamängder.

Serverlös SQL-pool är serverlös, därför finns det ingen infrastruktur att konfigurera eller kluster att underhålla. En standardslutpunkt för den här tjänsten tillhandahålls i varje Azure Synapse-arbetsyta, så att du kan börja köra frågor mot data så snart arbetsytan har skapats.

Det debiteras ingen avgift för reserverade resurser, du debiteras bara för de data som bearbetas av frågor som du kör, därför är den här modellen en verklig modell för betala per användning.

Om du använder Apache Spark för Azure Synapse i din datapipeline kan du för förberedelse, rensning eller berikning av data köra frågor mot externa Spark-tabeller som du har skapat i processen, direkt från en serverlös SQL-pool. Använd Private Link för att ta din serverlösa SQL-poolslutpunkt till ditt virtuella nätverk för den hanterade arbetsytan.

Fördelar med serverlös SQL-pool

Om du behöver utforska data i datasjön, få insikter från den eller optimera din befintliga datatransformeringspipeline kan du dra nytta av att använda en serverlös SQL-pool. Den är lämplig för följande scenarier:

Grundläggande identifiering och utforskning – Snabbt resonera om data i olika format (Parquet, CSV, JSON) i din datasjö, så att du kan planera hur du extraherar insikter från den.
Informationslager för logiska data – Tillhandahålla en relationsabstraktion ovanpå rådata eller olika data utan att flytta och transformera data, vilket ger en alltid uppdaterad vy över dina data. Läs mer om att skapa ett logiskt informationslager.
Datatransformering – Enkelt, skalbart och högpresterande sätt att transformera data i sjön med hjälp av T-SQL, så att de kan matas till BI och andra verktyg eller läsas in i ett relationsdatalager (Synapse SQL-databaser, Azure SQL Database osv.).

Olika yrkesroller kan dra nytta av serverlös SQL-pool:

Dataingenjör kan utforska sjön, transformera och förbereda data med hjälp av den här tjänsten och förenkla deras pipelines för datatransformering. Mer information finns i den här självstudien.
Dataforskare kan snabbt resonera om innehållet och strukturen för data i sjön, tack vare funktioner som OPENROWSET och automatisk schemainferens.
Dataanalytiker kan utforska data och externa Spark-tabeller som skapats av Dataforskare eller Dataingenjör med hjälp av välbekanta T-SQL-språk eller deras favoritverktyg, som kan ansluta till en serverlös SQL-pool.
BI-proffs kan snabbt skapa Power BI-rapporter ovanpå data i tabellerna Lake och Spark.

Så här börjar du använda en serverlös SQL-pool

Serverlös SQL-poolslutpunkt tillhandahålls på varje Azure Synapse-arbetsyta. Du kan skapa en arbetsyta och börja köra frågor mot data direkt med hjälp av verktyg som du är bekant med.

Se till att du tillämpar metodtipsen för att få bästa möjliga prestanda.

Klientverktyg

Med en serverlös SQL-pool kan befintliga SQL-ad hoc-frågeverktyg och business intelligence-verktyg utnyttja datasjön. Eftersom det ger välbekant T-SQL-syntax kan alla verktyg som kan upprätta TDS-anslutning till SQL-erbjudanden ansluta till och fråga Synapse SQL. Du kan ansluta till Azure Data Studio och köra ad hoc-frågor eller ansluta till Power BI för att få insikter på några minuter.

Stöd för T-SQL

Serverlös SQL-pool erbjuder T-SQL-frågeytan, som är något förbättrad/utökad i vissa aspekter för att hantera upplevelser kring frågor mot halvstrukturerade och ostrukturerade data. Dessutom stöds inte vissa aspekter av T-SQL-språket på grund av utformningen av en serverlös SQL-pool, till exempel stöds inte DML-funktioner för närvarande.

Arbetsbelastningen kan organiseras med välbekanta begrepp:
Databaser – serverlös SQL-poolslutpunkt kan ha flera databaser.
Scheman – I en databas kan det finnas en eller flera objektägargrupper som kallas scheman.
Vyer, lagrade procedurer, infogade tabellvärdefunktioner
Externa resurser – datakällor, filformat och tabeller

Säkerhet kan tillämpas med hjälp av:

Inloggningar och användare
Autentiseringsuppgifter för att styra åtkomsten till lagringskonton
Bevilja, neka och återkalla behörigheter per objektnivå
Microsoft Entra-integrering

T-SQL som stöds:

Fullständig SELECT-yta stöds, inklusive en majoritet av SQL-funktioner
CETAS – SKAPA EXTERN TABELL SOM SELECT
DDL-instruktioner som endast gäller vyer och säkerhet

Serverlös SQL-pool har ingen lokal lagring, endast metadataobjekt lagras i databaser. Därför stöds inte T-SQL som är relaterade till följande begrepp:

Tabeller
Utlösare
Materialiserade vyer
Andra DDL-instruktioner än de som rör vyer och säkerhet
DML-uttryck

Kommentar

Serverlösa SQL-poolfrågor har en tidsgräns. Mer information om tidsgränser för frågor som kan påverka din arbetsbelastning finns i begränsningar för serverlösa SQL-poolsystem. För närvarande kan du inte ändra tidsgränsen.

Tillägg

För att ge en smidig upplevelse för att köra frågor mot data som finns i filer i datasjön utökar den serverlösa SQL-poolen den befintliga funktionen OPENROWSET genom att lägga till följande funktioner:

Fråga flera filer eller mappar

Fråga PARQUET-filformat

Fråga DELTA-format

Olika avgränsade textformat (med anpassad fältavgränsare, radavgränsare, escape char)

Azure Cosmos DB-analysarkiv

Läsa en vald delmängd av kolumner

Schemainferens

filnamnsfunktion

filepath-funktion

Arbeta med komplexa typer och kapslade eller upprepade datastrukturer

Säkerhet

Serverlös SQL-pool erbjuder mekanismer för att skydda åtkomsten till dina data.

Microsoft Entra-integrering och multifaktorautentisering

Med en serverlös SQL-pool kan du centralt hantera identiteter för databasanvändare och andra Microsoft-tjänster med Microsoft Entra-integrering. Den här funktionen förenklar hanteringen av behörighet och ger ökad säkerhet. Microsoft Entra ID stöder multifaktorautentisering (MFA) för att öka data- och programsäkerheten samtidigt som en process för enkel inloggning stöds.

Autentisering

Serverlös SQL-poolautentisering refererar till hur användare bevisar sin identitet när de ansluter till slutpunkten. Två typer av autentisering stöds:

SQL-autentisering

Den här autentiseringsmetoden använder ett användarnamn och lösenord.
Microsoft Entra-autentisering:

Den här autentiseringsmetoden använder identiteter som hanteras av Microsoft Entra-ID. För Microsoft Entra-användare kan multifaktorautentisering aktiveras. Använd Active Directory-autentisering (integrerad säkerhet) närhelst det går.

Auktorisering

Auktorisering refererar till vad en användare kan göra i en serverlös SQL-pooldatabas och styrs av användarkontots databasrollmedlemskap och behörigheter på objektnivå.

Om SQL-autentisering används finns SQL-användaren endast i en serverlös SQL-pool och behörigheter begränsas till objekten i en serverlös SQL-pool. Åtkomst till skyddsbara objekt i andra tjänster (till exempel Azure Storage) kan inte beviljas sql-användare direkt eftersom den bara finns i omfånget för en serverlös SQL-pool. SQL-användaren måste använda någon av de auktoriseringstyper som stöds för att få åtkomst till filerna.

Om Microsoft Entra-autentisering används kan en användare logga in på en serverlös SQL-pool och andra tjänster, till exempel Azure Storage, och kan bevilja behörigheter till Microsoft Entra-användaren.

Åtkomst till lagringskonton

En användare som är inloggad i den serverlösa SQL-pooltjänsten måste ha behörighet att komma åt och köra frågor mot filerna i Azure Storage. serverlös SQL-pool stöder följande auktoriseringstyper:

Signatur för delad åtkomst (SAS) ger delegerad åtkomst till resurser i lagringskontot. Med en SAS kan du ge klienter åtkomst till resurser i lagringskontot utan att dela kontonycklar. En SAS ger dig detaljerad kontroll över vilken typ av åtkomst du beviljar till klienter som har SAS: giltighetsintervall, beviljade behörigheter, acceptabelt IP-adressintervall, acceptabelt protokoll (https/http).
Användaridentitet (kallas även "genomströmning") är en auktoriseringstyp där identiteten för Den Microsoft Entra-användare som loggade in i en serverlös SQL-pool används för att auktorisera åtkomst till data. Innan du kommer åt data måste Azure Storage-administratören bevilja behörigheter till Microsoft Entra-användare för åtkomst till data. Den här auktoriseringstypen använder Microsoft Entra-användaren som loggade in i en serverlös SQL-pool. Därför stöds den inte för SQL-användartyper.
Arbetsyteidentitet är en auktoriseringstyp där identiteten för Synapse-arbetsytan används för att auktorisera åtkomst till data. Innan du kommer åt data måste Azure Storage-administratören bevilja behörighet till arbetsyteidentiteten för åtkomst till data.

Åtkomst till Azure Cosmos DB

Du måste skapa autentiseringsuppgifter på servernivå eller databasomfattning med azure Cosmos DB-kontots skrivskyddade nyckel för att få åtkomst till Azure Cosmos DB-analysarkivet.

Nästa steg

Ytterligare information om slutpunktsanslutning och frågefiler finns i följande artiklar: