SQL-databaser med Apache Spark-anslutningsprogrammet
Apache Spark-anslutningsappen för Azure SQL Database och SQL Server gör att dessa databaser kan fungera som indatakällor och utdatamottagare för Apache Spark-jobb. Det gör att du kan använda transaktionsdata i realtid i stordataanalys och spara resultat för ad hoc-frågor eller rapportering.
Jämfört med den inbyggda JDBC-anslutningsappen ger den här anslutningsappen möjlighet att massinfoga data i SQL-databaser. Den kan överträffa infogning rad för rad med 10x till 20 x snabbare prestanda. Spark-anslutningsappen för SQL Server och Azure SQL Database stöder även Microsoft Entra ID-autentisering (tidigare Azure Active Directory) så att du kan ansluta säkert till dina Azure SQL-databaser från Azure Databricks med ditt Microsoft Entra-ID-konto. Den innehåller gränssnitt som liknar den inbyggda JDBC-anslutningsappen. Det är enkelt att migrera dina befintliga Spark-jobb för att använda den här anslutningsappen.
Behov
Det finns två versioner av Spark-anslutningsappen för SQL Server: en för Spark 2.4 och en för Spark 3.x. Spark 3.x-anslutningsappen kräver Databricks Runtime 7.x eller senare. Anslutningsappen stöds av communityn och innehåller inte Microsoft SLA-stöd. Skicka eventuella problem på GitHub för att kontakta communityn för att få hjälp.
Komponent | Versioner som stöds |
---|---|
Apache Spark | 3.0.x och 2.4x |
Databricks Runtime | Apache Spark 3.0-anslutningsprogram: Databricks Runtime 7.x och senare |
Scala | Apache Spark 3.0-anslutningsprogram: 2.12 Apache Spark 2.4-anslutningsprogram: 2.11 |
Microsoft JDBC-drivrutin för SQL Server | 8.2 |
Microsoft SQL Server | SQL Server 2008 och senare |
Azure SQL Database | Stöds |
Använda Spark-anslutningsappen
Anvisningar om hur du använder Spark-anslutningsappen finns i Apache Spark-anslutningsappen: SQL Server och Azure SQL.