SQL-databaser med Apache Spark-anslutningsprogrammet

Apache Spark-anslutningsappen för Azure SQL Database och SQL Server gör att dessa databaser kan fungera som indatakällor och utdatamottagare för Apache Spark-jobb. Det gör att du kan använda transaktionsdata i realtid i stordataanalys och spara resultat för ad hoc-frågor eller rapportering.

Jämfört med den inbyggda JDBC-anslutningsappen ger den här anslutningsappen möjlighet att massinfoga data i SQL-databaser. Den kan överträffa infogning rad för rad med 10x till 20 x snabbare prestanda. Spark-anslutningsappen för SQL Server och Azure SQL Database stöder även Microsoft Entra ID-autentisering (tidigare Azure Active Directory) så att du kan ansluta säkert till dina Azure SQL-databaser från Azure Databricks med ditt Microsoft Entra-ID-konto. Den innehåller gränssnitt som liknar den inbyggda JDBC-anslutningsappen. Det är enkelt att migrera dina befintliga Spark-jobb för att använda den här anslutningsappen.

Behov

Det finns två versioner av Spark-anslutningsappen för SQL Server: en för Spark 2.4 och en för Spark 3.x. Spark 3.x-anslutningsappen kräver Databricks Runtime 7.x eller senare. Anslutningsappen stöds av communityn och innehåller inte Microsoft SLA-stöd. Skicka eventuella problem på GitHub för att kontakta communityn för att få hjälp.

Komponent Versioner som stöds
Apache Spark 3.0.x och 2.4x
Databricks Runtime Apache Spark 3.0-anslutningsprogram: Databricks Runtime 7.x och senare
Scala Apache Spark 3.0-anslutningsprogram: 2.12

Apache Spark 2.4-anslutningsprogram: 2.11
Microsoft JDBC-drivrutin för SQL Server 8.2
Microsoft SQL Server SQL Server 2008 och senare
Azure SQL Database Stöds

Använda Spark-anslutningsappen

Anvisningar om hur du använder Spark-anslutningsappen finns i Apache Spark-anslutningsappen: SQL Server och Azure SQL.