Terminologie Azure synapse Analytics
Tento dokument vás provede základními koncepty analýzy Azure synapse.
Základy
Pracovní prostor synapse je zabezpečená hranice spolupráce pro cloudové podnikové analýzy v Azure. Pracovní prostor je nasazený v konkrétní oblasti a má přidružený ADLS Gen2 účet a systém souborů (pro ukládání dočasných dat). Pracovní prostor je pod skupinou prostředků.
pracovní prostor umožňuje provádět analýzy pomocí SQL a Apache sparku. prostředky dostupné pro SQL a spark analytics jsou uspořádány do fondů SQL a spark.
Propojené služby
Pracovní prostor může obsahovat libovolný počet propojených služeb, v podstatě připojovací řetězce, které definují informace o připojení potřebné k tomu, aby se pracovní prostor připojoval k externím prostředkům.
Synapse SQL
Synapse SQL je možnost provádět analýzy založené na T SQL v pracovním prostoru Synapse. Synapse SQL má dva modely spotřeby: vyhrazené a bez serveru. pro vyhrazený model použijte vyhrazené fondy SQL. Pracovní prostor může obsahovat libovolný počet těchto fondů. pokud chcete používat model bez serveru, používejte fondy SQL serverů bez serveru. Každý pracovní prostor má jeden z těchto fondů.
v Synapse studiu můžete pracovat s fondy SQL spuštěním SQL skriptů.
Apache Spark pro synapse
Pokud chcete používat Spark Analytics, vytvořte a používejte fondy Apache Spark bez serveru v pracovním prostoru synapse. Když začnete používat fond Spark, pracovní prostory vytvoří relaci Sparku pro zpracování prostředků přidružených k této relaci.
Existují dva způsoby, jak v rámci synapse použít Spark:
- Poznámkové bloky Spark pro práci s datovými vědy a inženýry, které používají Scala, PySpark, C# a SparkSQL
- Definice úloh Sparku pro spouštění úloh služby Batch Spark pomocí souborů JAR
Pipelines
Pipelines je způsob, jakým Azure Synapse zajišťuje integraci dat – umožňuje přesouvat data mezi službami a orchestrovat aktivity.
- Kanál je logické seskupení aktivit, které provádějí úkoly společně.
- aktivity definují akce v rámci kanálu, které se mají provádět na datech, jako je kopírování dat, spuštění poznámkového bloku nebo SQL skriptu.
- Toky dat představují konkrétní druh aktivity, která poskytuje prostředí bez kódu pro transformaci dat, která používá synapse Spark v rámci – pokrývá.
- Trigger – spustí kanál. Dá se spustit ručně nebo automaticky (naplánování, zabubné okno nebo události).
- Datová sada Integration – pojmenovaná zobrazení dat, která jednoduše odkazují na data, která se mají použít v aktivitě jako vstup a výstup. Patří do propojené služby.
Průzkumník dat (Preview)
Azure synapse Průzkumník dat poskytuje zákazníkům interaktivní možnosti dotazování pro odemknutí přehledů z dat protokolů a telemetrie.
- Fondy Průzkumník dat jsou vyhrazené clustery, které zahrnují dva nebo více výpočetních uzlů s místním úložištěm SSD (Hot cache) pro optimalizovaný výkon dotazů a vícenásobné úložiště objektů BLOB (studená mezipaměť) pro trvalost.
- Databáze Průzkumník dat jsou hostovány v Průzkumník dat fondech a jedná se o logické entity tvořené kolekcemi tabulek a dalších databázových objektů. Pro každý fond můžete mít více než jednu databázi.
- Tabulky jsou databázové objekty, které obsahují data uspořádaná pomocí tradičního relačního datového modelu. Data jsou uložena v záznamech, které odpovídají schématu schématu definovaného v Průzkumník dat, které definuje uspořádaný seznam sloupců, každý sloupec má název a skalární datový typ. Skalární datové typy mohou být strukturované (int, Real, DateTime nebo TimeSpan), částečně strukturované (dynamické) nebo volného textu (String). Dynamický typ je podobný formátu JSON v tom, že může obsahovat jednu skalární hodnotu, pole nebo slovník těchto hodnot.
- externí tabulky jsou tabulky, které odkazují na úložiště nebo SQL zdroj dat mimo databázi Průzkumník dat. Podobně jako u tabulek má externí tabulka dobře definované schéma (uspořádaný seznam názvů sloupců a dvojic datových typů). Na rozdíl od Průzkumník dat tabulek, ve kterých se data ingestují do fondů Průzkumník dat, externí tabulky pracují s daty uloženými a spravovanými mimo fondy. Externí tabulky neukládají žádná data a slouží k dotazování nebo exportu dat do externího úložiště dat.