Volba technologie úložiště velkých dat v Azure

Toto téma porovnává možnosti úložiště dat pro řešení pro velké objemy dat, konkrétně úložiště dat pro hromadný příjem dat a dávkové zpracování, na rozdíl od analytických úložišť dat nebo příjmu streamování v reálném — čase.

Jaké máte možnosti při výběru úložiště dat v Azure?

V závislosti na vašich potřebách existuje několik možností pro ingestování dat do Azure.

File Storage:

Databáze NoSQL:

Analytické databáze:

Azure Data Explorer

Azure Storage objekty blob

Azure Storage je spravovaná služba úložiště, která je vysoce dostupná, zabezpečená, odolná, škálovatelná a redundantní. Microsoft se stará o údržbu a řeší za vás kritické problémy. Azure Storage je všudypřítomnější řešení úložiště, které Azure poskytuje, a to kvůli počtu služeb a nástrojů, které je možné s ním používat.

Existují různé Azure Storage služby, které můžete použít k ukládání dat. Nej flexibilnější možností pro ukládání objektů blob z řady zdrojů dat je Úložiště objektů blob. Objekty blob jsou v podstatě soubory. Ukládají obrázky, dokumenty, soubory HTML, virtuální pevné disky (VHD), velké datové soubory, jako jsou protokoly, zálohy — databází prakticky cokoli. Objekty blob se ukládají v kontejnerech, které jsou obdobou složek. Kontejner poskytuje seskupení sady objektů blob. Účet úložiště může obsahovat neomezený počet kontejnerů a v každém kontejneru může být neomezený počet objektů blob.

Azure Storage je dobrou volbou pro řešení pro velké datové a analytické možnosti, a to kvůli flexibilitě, vysoké dostupnosti a nízkým nákladům. Poskytuje horkou, studenou a archivní úroveň úložiště pro různé případy použití. Další informace najdete v tématu Azure Blob Storage: Horká, studená a archivní úroveň úložiště.

Služba Azure Blob Storage je přístupná ze systému Hadoop (k dispozici prostřednictvím služby HDInsight). HDInsight může jako výchozí systém souborů pro cluster používat kontejner objektů blob ve službě Azure Storage. Prostřednictvím rozhraní systému souborů HDFS (Hadoop Distributed File System) poskytovaného ovladačem WASB může celá sada komponent v HDInsight pracovat přímo se strukturovanými nebo nestrukturovanými daty uloženými jako objekty blob. Ke službě Azure Blob Storage je také možné Azure Synapse Analytics pomocí funkce PolyBase.

Další funkce, které Azure Storage dobrou volbou, jsou:

Azure Data Lake Store

Azure Data Lake Store je podnikové úložiště hyperškálování pro úlohy analýzy velkých objemů dat. Data Lake umožňuje zachytávání dat libovolné velikosti, typu a rychlosti příjmu v jednom zabezpečeném umístění pro provozní a průzkumnou analýzu.

Data Lake Store neukládá žádná omezení velikosti účtů, velikostí souborů ani množství dat, která je možné uložit v datovém jezeře. Data se ukládají trvale vytvořením více kopií a neexistuje žádné omezení doby, po kterou mohou být data uložena ve službě Data Lake. Kromě vytvoření několika kopií souborů, které chrání před neočekávanými selháními, data lake rozprostíří části souboru na několik jednotlivých serverů úložiště. Tím se zvyšuje propustnost čtení při paralelním čtení souboru pro provádění analýz dat.

Data Lake Store přístup z Hadoopu (k dispozici prostřednictvím HDInsight) pomocí rozhraní REST API kompatibilních s WebHDFS. Můžete zvážit použití této možnosti jako alternativy k Azure Storage, když velikost jednotlivých nebo kombinovaných souborů překročí velikost, kterou podporuje Azure Storage. Existují však pokyny pro ladění výkonu, které byste měli dodržovat při použití Data Lake Store jako primárního úložiště pro cluster HDInsight, s konkrétními pokyny pro Spark, Hive, MapReducea Storm. Nezapomeňte také zkontrolovat regionální dostupnost Data Lake Store ,protože není dostupná v tolika oblastech jako Azure Storage a musí být umístěná ve stejné oblasti jako váš cluster HDInsight.

Spolu s Azure Data Lake Analytics je Data Lake Store speciálně navržená tak, aby umožnila analýzu uložených dat a vyladěná pro scénáře analýzy dat. Data Lake Store je také možné přistupovat prostřednictvím Azure Synapse pomocí funkce PolyBase.

Azure Cosmos DB

Azure Cosmos DB je globálně distribuovaná databáze Microsoftu pro více modelů. Cosmos DB zaručuje latence v řádu milisekund na 99. percentilu kdekoli na světě, nabízí několik dobře definovaných modelů konzistence pro vyladění výkonu a zaručuje vysokou dostupnost s funkcemi vícenásobného navladění.

Azure Cosmos DB není na schématu. Automaticky indexuje všechna data, aniž byste vyžadovat správu schémat a indexů. Je to také vícemodelový datový model, který nativně podporuje datové modely dokumentů, klíčových hodnot, grafů a rodin sloupců.

Funkce azure Cosmos DB:

HBase v HDInsightu

Apache HBase je open source databáze NoSQL postavená na Hadoopu a modelovaná podle Google BigTable. HBase poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat v databázi bez schématu uspořádané podle rodin sloupců.

Data se ukládají na řádky tabulky a data v řádku jsou seskupena podle rodin sloupců. HBase nemá schéma v tom smyslu, že sloupce ani typ dat, která jsou v nich uložená, není nutné definovat před jejich použitím. Kód open-source se škáluje lineárně pro manipulaci s petabajty dat na tisících uzlech. Může se spoléhat na redundanci dat, zpracování dávkou a další funkce, které jsou poskytovány pomocí distribuovaných aplikací v ekosystému Hadoop.

Implementace HDInsight využívá architekturu horizontálního navýšení velikosti HBase k zajištění automatického horizontálního dělení tabulek, silné konzistence pro čtení a zápisy a automatického převzetí služeb při selhání. Výkon je zvýšen ukládáním do mezipaměti pro čtení a vysokou propustností datových proudů pro zápis. Ve většině případů budete chtít vytvořit cluster HBase ve virtuální síti, aby k tabulkám přistupovaly přímo jiné clustery a aplikace HDInsight.

Průzkumník dat Azure

Azure Data Explorer je rychlá a vysoce škálovatelná služba pro zkoumání dat protokolů a telemetrie. Pomáhá zpracovávat mnoho datových proudů vygenerované moderním softwarem, takže můžete shromažďovat, ukládat a analyzovat data. Azure Data Explorer je ideální pro analýzu velkých objemů různých dat z libovolného zdroje dat, jako jsou weby, aplikace, zařízení IoT a další. Tato data se používají pro diagnostiku, monitorování, vytváření sestav, strojové učení a další možnosti analýzy. Azure Data Explorer tato data snadno ingestovat a umožňuje na data za pár sekund složitě dotazovat ad hoc.

Azure Data Explorer škálovat lineárně, aby se zvýšila propustnost příjmu dat a zpracování dotazů. Cluster Azure Data Explorer je možné nasadit do clusteru Virtual Network povolení privátních sítí.

Klíčová kritéria výběru

Pokud chcete tyto volby zúžit, začněte zodpovězením těchto otázek:

  • Potřebujete spravované vysokorychlostní cloudové úložiště pro jakýkoli typ textových nebo binárních dat? Pokud ano, vyberte jednu z možností úložiště souborů nebo analýzy.

  • Potřebujete úložiště souborů, které je optimalizované pro úlohy paralelní analýzy a vysokou propustnost nebo IOPS? Pokud ano, zvolte možnost, která je vyladěná na výkon analytických úloh.

  • Potřebujete ukládat nestrukturovaná nebo částečně strukturovaná data do databáze bez schématu? Pokud ano, vyberte jednu z nerelačních nebo analytických možností. Porovnejte možnosti indexování a databázových modelů. V závislosti na typu dat, která potřebujete uložit, mohou být největší faktor modely primární databáze.

  • Můžete tuto službu použít ve vaší oblasti? Zkontrolujte regionální dostupnost jednotlivých služeb Azure. Další informace najdete v tématu Dostupné produkty v oblasti.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Možnosti úložiště File

Schopnost Azure Data Lake Store Kontejnery azure blob Storage kontejnery
Účel Optimalizované úložiště pro úlohy analýzy velkých objemů dat Úložiště objektů pro obecné účely pro širokou škálu scénářů úložiště
Případy použití Batch, Stream Analytics a data strojového učení, jako jsou soubory protokolů, data IoT, klikněte na streamy, velké datové sady Jakýkoli typ textu nebo binárních dat, jako je back-end aplikace, data záloh, úložiště médií pro streamování a data pro obecné účely
Struktura Hierarchický systém souborů Úložiště objektů s plochým oborem názvů
Authentication na základě Azure Active Directory identit Na základě přístupových klíčů účtu sdílených tajných kódů a klíčů sdíleného přístupového podpisua řízení přístupu na základě role Azure (RBAC)
Protokol ověřování OAuth 2,0. Volání musí obsahovat platný token JWT (Web JSON) vydaný Azure Active Directory Algoritmus HMAC (hash-based Message Authentication Code). V rámci požadavku HTTP musí volání obsahovat hash SHA-256 s kódováním base64.
Autorizace Seznamy řízení přístupu (ACL) POSIX. seznamy řízení přístupu (acl) na základě identit Azure Active Directory lze nastavit na úrovni souborů a složek. Pro ověřování na úrovni účtu použijte přístupové klíče účtu. Pro účet, kontejner nebo autorizaci objektu BLOB použijte klíče sdíleného přístupového podpisu.
Auditování K dispozici. K dispozici.
Šifrování neaktivních uložených dat Transparentní, strana serveru Transparentní, strana serveru; Šifrování na straně klienta
Sady SDK pro vývojáře .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Výkon úloh analýzy Optimalizovaný výkon pro úlohy s paralelní analýzou, vysoká propustnost a IOPS Neoptimalizováno pro analytické úlohy
Omezení velikosti Bez omezení velikosti účtů, velikostí souborů nebo počtu souborů Konkrétní omezení popsané tady
Geografická redundance Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní pro čtení (RA-GRS), zóna – redundantní (ZRS). Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní pro čtení (RA-GRS), zóna – redundantní (ZRS). Další informace najdete tady.

Možnosti databáze NoSQL

Schopnost Azure Cosmos DB HBase v HDInsightu
Primární databázový model Úložiště dokumentů, grafy, úložiště hodnot klíčů, úložiště s velkým sloupcem Úložiště pro nejrůznější sloupce
Sekundární indexy Ano Ne
podpora jazyka SQL Ano Ano (s použitím ovladače JDBC pro Phoenix )
Konzistence Silná, ohraničená, neaktuálnost, relace, konzistentní předpona, případný Silná
Integrace nativního Azure Functions Ano Ne
Automatická globální distribuce Ano V rámci oblastí s konečnou konzistencí se nedají konfigurovat žádné replikace do clusteru HBA .
Cenový model Elasticky škálovatelné jednotky žádostí (ru), které se účtují za sekundu podle potřeby, elasticky škálovatelné úložiště Ceny za minutu pro cluster HDInsight (horizontální škálování uzlů), úložiště

Možnosti analytické databáze

Schopnost Průzkumník dat Azure
Primární databázový model Relační úložiště (úložiště sloupců), telemetrie a časové řady
podpora jazyka SQL Ano
Cenový model Elastické škálovatelné instance clusteru
Authentication na základě Azure Active Directory identit
Šifrování neaktivních uložených dat Podporované, spravované klíče zákazníka
Výkon úloh analýzy Optimalizovaný výkon pro úlohy paralelní analýzy
Omezení velikosti Lineárně škálovatelné