Datové sklady

Datový sklad je centralizované úložiště integrovaných dat z jednoho nebo více různorodých zdrojů. Datové sklady ukládají aktuální i historická data a slouží pro vytváření sestav a analýzu dat.

Datové sklady v Azure

Pokud chcete přesunout data do datového skladu, data se pravidelně extrahuje z různých zdrojů, které obsahují důležité obchodní informace. Při přesunu dat je možné je formátovat, vyčistit, ověřit, sumarizovat a přeuspořádat. Případně je možné data uložit na nejnižší úrovni podrobností s agregovanou zobrazení, která jsou k dispozici ve skladu pro vytváření sestav. V obou případech se datový sklad stane trvalým úložištěm dat pro vytváření sestav, analýzu a business intelligence (BI).

Architektury datového skladu

Následující referenční architektury ukazují architektury koncového datového skladu v Azure:

Kdy použít toto řešení

Zvolte datový sklad, když potřebujete přeměnit obrovské objemy dat z operačních systémů do formátu, který je snadno pochopitelné. Datové sklady nemusí dodržovat stejnou datovou strukturu, kterou možná používáte ve svých databázích OLTP. Můžete použít názvy sloupců, které mají smysl pro firemní uživatele a analytiky, změnit strukturu schématu pro zjednodušení relací a konsolidovat několik tabulek do jedné. Tyto kroky pomáhají vést uživatele, kteří potřebují vytvářet sestavy a analyzovat data v systémech BI bez pomoci správce databáze (DBA) nebo vývojáře dat.

Použití datového skladu zvažte, pokud z důvodů výkonu potřebujete zachovat historická data odděleně od systémů zdrojových transakcí. Datové sklady poskytují centralizované umístění pomocí běžných formátů, klíčů a datových modelů a usnadňuje přístup k historickým datům z více umístění.

Vzhledem k tomu, že datové sklady jsou optimalizované pro přístup pro čtení, generování sestav je rychlejší než generování sestav pomocí zdrojového transakčního systému.

Mezi další výhody patří:

  • Datový sklad může ukládat historická data z více zdrojů, což představuje jediný zdroj pravdivých informací.
  • Kvalitu dat můžete vylepšit vyčištěním dat při jejich importu do datového skladu.
  • Nástroje pro vytváření sestav nekurkurují transakčním systémům o cykly zpracování dotazů. Datový sklad umožňuje transakčního systému zaměřit se na zpracování zápisů, zatímco datový sklad splňuje většinu požadavků na čtení.
  • Datový sklad může konsolidovat data z jiného softwaru.
  • Nástroje pro dolování dat mohou najít skryté vzory v datech pomocí automatických metodologií.
  • Datové sklady usnadňují poskytování zabezpečeného přístupu autorizovaným uživatelům a zároveň omezují přístup na ostatní. Podniková uživatelé nepo potřebují přístup ke zdrojovým datům, takže se odebírá potenciální vektor útoku.
  • Datové sklady usnadňují vytváření business intelligence, jako jsou datové krychle OLAP.

Výzvy

Správná konfigurace datového skladu tak, aby vyhovoval potřebám vaší firmy, může přinést některé z následujících problémů:

  • Potvrzení času potřebného ke správnému modelování obchodních konceptů Datové sklady jsou řízené informacemi. Musíte standardizovat obchodní termíny a běžné formáty, jako je měna a kalendářní data. Potřebujete také přeorganizovat schéma způsobem, který dává smysl firemním uživatelům, ale přesto zajišťuje přesnost datových agregačních a relací.

  • Plánování a nastavení orchestrace dat Zvažte, jak kopírovat data ze zdrojového transakčního systému do datového skladu a kdy přesunout historická data z provozních úložišť dat do skladu.

  • Zachování nebo zlepšení kvality dat vyčištěním dat při jejich importu do skladu.

Datové sklady v Azure

Můžete mít jeden nebo více zdrojů dat, ať už z transakcí zákazníků nebo obchodních aplikací. Tato data se tradičně ukládají v jedné nebo více databázích OLTP. Data mohou být uložená v jiných úložných médiích, jako jsou sdílené síťové složky, Azure Storage blob nebo datové jezero. Data může také ukládat samotný datový sklad nebo relační databáze, jako je Azure SQL Database. Účelem vrstvy analytického úložiště dat je vyhovět dotazům vydaným analytickými nástroji a nástroji pro vytváření sestav pro datový sklad. V Azure je možné tuto funkci analytického úložiště splnit Azure Synapse nebo pomocí Azure HDInsight Hive nebo Interactive Query. Kromě toho budete potřebovat nějakou úroveň orchestrace pro přesun nebo kopírování dat z úložiště dat do datového skladu, což je možné provést pomocí Azure Data Factory nebo Oozie na Azure HDInsight.

Pro implementaci datového skladu v Azure existuje několik možností v závislosti na vašich potřebách. Následující seznamy jsou rozdělené do dvou kategorií: symetrický multiprocesing (SMP) a MPP (Massively Parallel Processing).

Smp:

MPP:

Obecně platí, že sklady založené na SMP jsou vhodné pro malé až střední datové sady (až 4 až 100 TB), zatímco MPP se často používá pro velké množství dat. Delineace mezi malými a středními a velkými daty částečně soucítá s definicí a podpůrnou infrastrukturou vaší organizace. (Viz Volba úložiště dat OLTP.)

Nad rámec velikostí dat bude pravděpodobně více určujícím faktorem typ vzoru úloh. Například složité dotazy mohou být pro řešení SMP příliš pomalé a místo toho vyžadovat řešení MPP. Systémy založené na MPP mají obvykle u malých datových velikostí snížení výkonu, protože úlohy se distribuují a konsolidují napříč uzly. Pokud velikost dat již překračuje 1 TB a očekává se, že se budou neustále zvětšovat, zvažte výběr řešení MPP. Pokud jsou ale vaše velikosti dat menší, ale vaše úlohy překračují dostupné prostředky vašeho řešení SMP, může být nejlepší volbou také MPP.

Data, ke kterým váš datový sklad přistupuje nebo je ukládá, mohou pochovat z řady zdrojů dat, včetně úložiště Data Lake,jako je například Azure Data Lake Storage . Videoreplikování, které porovnává různé silné stránky služeb MPP, které mohou používat Azure Data Lake, najdete v tématu Azure Data Lake a Azure Data Warehouse: Použitímoderních postupů pro vaši aplikaci.

Systémy SMP jsou charakterizované jedinou instancí systému pro správu relačních databází, který sdílí všechny prostředky (procesor, paměť nebo disk). Můžete škálovat systém SMP. Pokud SQL Server virtuální počítač spuštěný, můžete velikost virtuálního počítače škálovat nahoru. U Azure SQL Database můžete škálovat nahoru výběrem jiné úrovně služby.

Systémy MPP je možné škálovat na více systémů přidáním dalších výpočetních uzlů (které mají vlastní procesor, paměť a V/V subsystémy). Pro škálování serveru existují fyzická omezení, v závislosti na zatížení je pak žádoucí škálování na více systémů. Rozdíly v dotazování, modelování a dělení dat ale znamenají, že řešení MPP vyžadují jinou sadu dovedností.

Při rozhodování o tom, které řešení SMP použít, si prohlédněte Azure SQL Database a SQL Server na virtuálních počítači Azure.

Azure Synapse (dříve Azure SQL Data Warehouse) lze použít také pro malé a střední datové sady, kde je úloha náročná na výpočetní prostředky a paměť. Další informace o Azure Synapse a běžných scénářích:

Klíčová kritéria výběru

Pokud chcete tyto volby zúžit, začněte zodpovězením těchto otázek:

  • Chcete místo správy vlastních serverů spravovat spravovanou službu?

  • Pracujete s extrémně velkými datovými sadami nebo s vysoce složitými dlouho běžící dotazy? Pokud ano, zvažte možnost MPP.

  • Je zdroj dat pro velkou datovou sadu strukturovaný nebo nestrukturovaný? Nestrukturovaná data může být potřeba zpracovat v prostředí pro velké datové služby, jako je Spark ve službě HDInsight, Azure Databricks, Hive LLAP v HDInsight nebo Azure Data Lake Analytics. Všechny tyto moduly mohou sloužit jako moduly ELT (extrakce, načítání, transformace) a ETL (extrakce, transformace, načítání). Zpracují data jako výstup do strukturovaných dat, což usnadňuje načtení do Azure Synapse nebo jedné z ostatních možností. U strukturovaných dat Azure Synapse úroveň výkonu optimalizovanou pro výpočty pro úlohy náročné na výpočetní výkon, která vyžaduje velmi vysoký výkon.

  • Chcete oddělit historická data od aktuálních provozních dat? Pokud ano, vyberte jednu z možností, kde se vyžaduje orchestrace. Jedná se o samostatné sklady optimalizované pro přístup pro náročné čtení a jsou vhodné jako samostatné historické úložiště dat.

  • Potřebujete integrovat data z několika zdrojů mimo úložiště dat OLTP? Pokud ano, zvažte možnosti, které snadno integrují více zdrojů dat.

  • Máte požadavek na víceklientské procesy? Pokud ano, není Azure synapse ideální pro tento požadavek. Další informace najdete v tématu vzory a anti-vzory Azure synapse.

  • Dáváte přednost relačnímu úložišti dat? Pokud ano, vyberte možnost s relačním datovým úložištěm, ale Všimněte si také, že pokud je to potřeba, můžete v případě potřeby použít k dotazování nerelačních úložišť dat nástroj. Pokud se rozhodnete použít základnu, ale spustíte testy výkonu u nestrukturovaných datových sad pro vaše zatížení.

  • Máte požadavky na generování sestav v reálném čase? Pokud pro velké objemy vkládaných vkládání vyžadujete rychlé odezvy na dotazy, vyberte možnost, která podporuje vytváření sestav v reálném čase.

  • Potřebujete podporovat velký počet souběžných uživatelů a připojení? Možnost podpory několika souběžných uživatelů/připojení závisí na několika faktorech.

    • Azure SQL Database najdete v dokumentovaných omezeních prostředků na základě vaší úrovně služeb.

    • SQL Server umožňuje maximálně 32 767 uživatelských připojení. Při spuštění na virtuálním počítači bude výkon záviset na velikosti virtuálního počítače a dalších faktorech.

    • Azure synapse má omezení souběžných dotazů a souběžných připojení. Další informace najdete v tématu souběžnost a správa úloh v Azure synapse. Zvažte použití doplňkových služeb, jako je například Azure Analysis Services, k překonání omezení v Azure synapse.

  • Jaký je způsob řazení zatížení? Obecně platí, že řešení skladu založená na MPP jsou nejvhodnější pro analytické úlohy orientované na dávku. Pokud jsou vaše úlohy transakční podle povahy, s mnoha malými operacemi čtení/zápisu nebo několika operací po řádcích, zvažte použití jedné z možností SMP. Jedinou výjimkou z tohoto pravidla je při zpracování streamování v clusteru HDInsight, jako je třeba streamování Sparku, a uložení dat v rámci tabulky podregistru.

Matice schopností

V následujících tabulkách jsou shrnuté klíčové rozdíly ve funkcích.

Obecné možnosti

Schopnost Azure SQL Database SQL Server (virtuální počítač) Azure Synapse Apache Hive ve službě HDInsight LLAP podregistru v HDInsight
Je spravovaná služba Yes No Yes Ano 1 Ano 1
Vyžaduje orchestraci dat (uchovává kopii dat/historických dat). No No Yes Yes Yes
Snadná integrace více zdrojů dat No No Yes Yes Yes
Podporuje pozastavení výpočetních prostředků. No No Yes Ne 2 Ne 2
Relační úložiště dat Yes Yes Yes No No
Generování sestav v reálném čase Yes Yes No No Yes
Flexibilní body obnovení zálohy Yes Yes Žádné 3 Ano 4 Ano 4
SMP/MPP ODSTŘEDĚN ODSTŘEDĚN MPP MPP MPP

[1] ruční konfigurace a škálování.

[2] clustery HDInsight je možné odstranit, pokud je nepotřebujete, a pak je znovu vytvoříte. Připojte k vašemu clusteru externí úložiště dat, aby se vaše data zachovala při odstranění clusteru. K automatizaci životního cyklu clusteru můžete použít Azure Data Factory, a to tak, že vytvoříte cluster HDInsight na vyžádání pro zpracování úloh a po dokončení zpracování ho odstraníte.

[3] s Azure synapse můžete obnovit databázi do libovolného dostupného bodu obnovení během posledních sedmi dnů. Snímky začínají každých čtyři až osm hodin a jsou dostupné po dobu sedmi dnů. Pokud je snímek starší než sedm dní, vyprší jeho platnost a bod obnovení již nebude k dispozici.

[4] zvažte použití externích metastore Hive , které je možné zálohovat a obnovovat podle potřeby. možnosti zálohování a obnovení, které platí pro Blob Storage nebo Data Lake Storage, se dají použít pro Data nebo řešení zálohování a obnovení v HDInsight třetích stran, například Imanis Data , která se dají využít k větší flexibilitě a snadnému použití.

Možnosti škálovatelnosti

Schopnost Azure SQL Database SQL Server (virtuální počítač) Azure Synapse Apache Hive ve službě HDInsight LLAP podregistru v HDInsight
Redundantní regionální servery pro vysokou dostupnost Yes Yes Yes No No
Podporuje horizontální navýšení kapacity dotazů (distribuované dotazy). No No Yes Yes Yes
Dynamická škálovatelnost Yes No Ano 1 No No
Podporuje ukládání dat do mezipaměti v paměti. Yes Yes Yes Yes Yes

[1] Azure Synapse umožňuje škálovat nahoru nebo dolů úpravou počtu jednotek datového skladu (DWU). Viz Správa výpočetního výkonu v Azure Synapse.

Možnosti zabezpečení

Schopnost Azure SQL Database SQL Server ve virtuálním počítači Azure Synapse Apache Hive v HDInsightu Hive LLAP ve službě HDInsight
Authentication SQL / Azure Active Directory (Azure AD) SQL / Azure AD / Active Directory SQL / Azure AD local / Azure AD 1 local / Azure AD 1
Autorizace Yes Yes Yes Yes Ano 1
Auditování Yes Yes Yes Yes Ano 1
Šifrování v klidovém stavu Ano 2 Ano 2 Ano 2 Ano 2 Ano 1
Zabezpečení na úrovni řádků Yes Yes Yes No Ano 1
Podporuje brány firewall. Yes Yes Yes Yes Ano 3
Dynamické maskování dat Yes Yes Yes No Ano 1

[1] Vyžaduje použití clusteru HDInsight připojeného k doméně.

[2] K šifrování a dešifrování transparentní šifrování dat dat vyžaduje použití transparentní šifrování dat TDE (TDE).

[3] Podporováno při použití v rámci azure Virtual Network.

Přečtěte si další informace o zabezpečení datového skladu: