Volba technologie úložiště velkých dat v Azure
Toto téma porovnává možnosti úložiště dat pro řešení pro velké objemy dat, konkrétně úložiště dat pro hromadný příjem dat a dávkové zpracování, na rozdíl od analytických úložišť dat nebo příjmu streamování v reálném — čase.
Jaké máte možnosti při výběru úložiště dat v Azure?
V závislosti na vašich potřebách existuje několik možností pro ingestování dat do Azure.
File Storage:
Databáze NoSQL:
Analytické databáze:
Azure Storage objekty blob
Azure Storage je spravovaná služba úložiště, která je vysoce dostupná, zabezpečená, odolná, škálovatelná a redundantní. Microsoft se stará o údržbu a řeší za vás kritické problémy. Azure Storage je všudypřítomnější řešení úložiště, které Azure poskytuje, a to kvůli počtu služeb a nástrojů, které je možné s ním používat.
Existují různé Azure Storage služby, které můžete použít k ukládání dat. Nej flexibilnější možností pro ukládání objektů blob z řady zdrojů dat je Úložiště objektů blob. Objekty blob jsou v podstatě soubory. Ukládají obrázky, dokumenty, soubory HTML, virtuální pevné disky (VHD), velké datové soubory, jako jsou protokoly, zálohy — databází prakticky cokoli. Objekty blob se ukládají v kontejnerech, které jsou obdobou složek. Kontejner poskytuje seskupení sady objektů blob. Účet úložiště může obsahovat neomezený počet kontejnerů a v každém kontejneru může být neomezený počet objektů blob.
Azure Storage je dobrou volbou pro řešení pro velké datové a analytické možnosti, a to kvůli flexibilitě, vysoké dostupnosti a nízkým nákladům. Poskytuje horkou, studenou a archivní úroveň úložiště pro různé případy použití. Další informace najdete v tématu Azure Blob Storage: Horká, studená a archivní úroveň úložiště.
Služba Azure Blob Storage je přístupná ze systému Hadoop (k dispozici prostřednictvím služby HDInsight). HDInsight může jako výchozí systém souborů pro cluster používat kontejner objektů blob ve službě Azure Storage. Prostřednictvím rozhraní systému souborů HDFS (Hadoop Distributed File System) poskytovaného ovladačem WASB může celá sada komponent v HDInsight pracovat přímo se strukturovanými nebo nestrukturovanými daty uloženými jako objekty blob. Ke službě Azure Blob Storage je také možné Azure Synapse Analytics pomocí funkce PolyBase.
Další funkce, které Azure Storage dobrou volbou, jsou:
- Několik strategií souběžnosti.
- Možnosti zotavení po havárii a vysoké dostupnosti.
- Šifrování v klidové době.
- Řízení přístupu na základě role v Azure (Azure RBAC) k řízení přístupu pomocí Azure Active Directory uživatelů a skupin.
Azure Data Lake Store
Azure Data Lake Store je podnikové úložiště hyperškálování pro úlohy analýzy velkých objemů dat. Data Lake umožňuje zachytávání dat libovolné velikosti, typu a rychlosti příjmu v jednom zabezpečeném umístění pro provozní a průzkumnou analýzu.
Data Lake Store neukládá žádná omezení velikosti účtů, velikostí souborů ani množství dat, která je možné uložit v datovém jezeře. Data se ukládají trvale vytvořením více kopií a neexistuje žádné omezení doby, po kterou mohou být data uložena ve službě Data Lake. Kromě vytvoření několika kopií souborů, které chrání před neočekávanými selháními, data lake rozprostíří části souboru na několik jednotlivých serverů úložiště. Tím se zvyšuje propustnost čtení při paralelním čtení souboru pro provádění analýz dat.
Data Lake Store přístup z Hadoopu (k dispozici prostřednictvím HDInsight) pomocí rozhraní REST API kompatibilních s WebHDFS. Můžete zvážit použití této možnosti jako alternativy k Azure Storage, když velikost jednotlivých nebo kombinovaných souborů překročí velikost, kterou podporuje Azure Storage. Existují však pokyny pro ladění výkonu, které byste měli dodržovat při použití Data Lake Store jako primárního úložiště pro cluster HDInsight, s konkrétními pokyny pro Spark, Hive, MapReducea Storm. Nezapomeňte také zkontrolovat regionální dostupnost Data Lake Store ,protože není dostupná v tolika oblastech jako Azure Storage a musí být umístěná ve stejné oblasti jako váš cluster HDInsight.
Spolu s Azure Data Lake Analytics je Data Lake Store speciálně navržená tak, aby umožnila analýzu uložených dat a vyladěná pro scénáře analýzy dat. Data Lake Store je také možné přistupovat prostřednictvím Azure Synapse pomocí funkce PolyBase.
Azure Cosmos DB
Azure Cosmos DB je globálně distribuovaná databáze Microsoftu pro více modelů. Cosmos DB zaručuje latence v řádu milisekund na 99. percentilu kdekoli na světě, nabízí několik dobře definovaných modelů konzistence pro vyladění výkonu a zaručuje vysokou dostupnost s funkcemi vícenásobného navladění.
Azure Cosmos DB není na schématu. Automaticky indexuje všechna data, aniž byste vyžadovat správu schémat a indexů. Je to také vícemodelový datový model, který nativně podporuje datové modely dokumentů, klíčových hodnot, grafů a rodin sloupců.
Funkce azure Cosmos DB:
- Geografická replikace
- Elastické škálování propustnosti a úložiště po celém světě
- Pět jasně definovaných voleb konzistence
HBase v HDInsightu
Apache HBase je open source databáze NoSQL postavená na Hadoopu a modelovaná podle Google BigTable. HBase poskytuje náhodný přístup a silnou konzistenci pro velké objemy nestrukturovaných a částečně strukturovaných dat v databázi bez schématu uspořádané podle rodin sloupců.
Data se ukládají na řádky tabulky a data v řádku jsou seskupena podle rodin sloupců. HBase nemá schéma v tom smyslu, že sloupce ani typ dat, která jsou v nich uložená, není nutné definovat před jejich použitím. Kód open-source se škáluje lineárně pro manipulaci s petabajty dat na tisících uzlech. Může se spoléhat na redundanci dat, zpracování dávkou a další funkce, které jsou poskytovány pomocí distribuovaných aplikací v ekosystému Hadoop.
Implementace HDInsight využívá architekturu horizontálního navýšení velikosti HBase k zajištění automatického horizontálního dělení tabulek, silné konzistence pro čtení a zápisy a automatického převzetí služeb při selhání. Výkon je zvýšen ukládáním do mezipaměti pro čtení a vysokou propustností datových proudů pro zápis. Ve většině případů budete chtít vytvořit cluster HBase ve virtuální síti, aby k tabulkám přistupovaly přímo jiné clustery a aplikace HDInsight.
Průzkumník dat Azure
Azure Data Explorer je rychlá a vysoce škálovatelná služba pro zkoumání dat protokolů a telemetrie. Pomáhá zpracovávat mnoho datových proudů vygenerované moderním softwarem, takže můžete shromažďovat, ukládat a analyzovat data. Azure Data Explorer je ideální pro analýzu velkých objemů různých dat z libovolného zdroje dat, jako jsou weby, aplikace, zařízení IoT a další. Tato data se používají pro diagnostiku, monitorování, vytváření sestav, strojové učení a další možnosti analýzy. Azure Data Explorer tato data snadno ingestovat a umožňuje na data za pár sekund složitě dotazovat ad hoc.
Azure Data Explorer škálovat lineárně, aby se zvýšila propustnost příjmu dat a zpracování dotazů. Cluster Azure Data Explorer je možné nasadit do clusteru Virtual Network povolení privátních sítí.
Klíčová kritéria výběru
Pokud chcete tyto volby zúžit, začněte zodpovězením těchto otázek:
Potřebujete spravované vysokorychlostní cloudové úložiště pro jakýkoli typ textových nebo binárních dat? Pokud ano, vyberte jednu z možností úložiště souborů nebo analýzy.
Potřebujete úložiště souborů, které je optimalizované pro úlohy paralelní analýzy a vysokou propustnost nebo IOPS? Pokud ano, zvolte možnost, která je vyladěná na výkon analytických úloh.
Potřebujete ukládat nestrukturovaná nebo částečně strukturovaná data do databáze bez schématu? Pokud ano, vyberte jednu z nerelačních nebo analytických možností. Porovnejte možnosti indexování a databázových modelů. V závislosti na typu dat, která potřebujete uložit, mohou být největší faktor modely primární databáze.
Můžete tuto službu použít ve vaší oblasti? Zkontrolujte regionální dostupnost jednotlivých služeb Azure. Další informace najdete v tématu Dostupné produkty v oblasti.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Možnosti úložiště File
| Schopnost | Azure Data Lake Store | Kontejnery azure blob Storage kontejnery |
|---|---|---|
| Účel | Optimalizované úložiště pro úlohy analýzy velkých objemů dat | Úložiště objektů pro obecné účely pro širokou škálu scénářů úložiště |
| Případy použití | Batch, Stream Analytics a data strojového učení, jako jsou soubory protokolů, data IoT, klikněte na streamy, velké datové sady | Jakýkoli typ textu nebo binárních dat, jako je back-end aplikace, data záloh, úložiště médií pro streamování a data pro obecné účely |
| Struktura | Hierarchický systém souborů | Úložiště objektů s plochým oborem názvů |
| Authentication | na základě Azure Active Directory identit | Na základě přístupových klíčů účtu sdílených tajných kódů a klíčů sdíleného přístupového podpisua řízení přístupu na základě role Azure (RBAC) |
| Protokol ověřování | OAuth 2,0. Volání musí obsahovat platný token JWT (Web JSON) vydaný Azure Active Directory | Algoritmus HMAC (hash-based Message Authentication Code). V rámci požadavku HTTP musí volání obsahovat hash SHA-256 s kódováním base64. |
| Autorizace | Seznamy řízení přístupu (ACL) POSIX. seznamy řízení přístupu (acl) na základě identit Azure Active Directory lze nastavit na úrovni souborů a složek. | Pro ověřování na úrovni účtu použijte přístupové klíče účtu. Pro účet, kontejner nebo autorizaci objektu BLOB použijte klíče sdíleného přístupového podpisu. |
| Auditování | K dispozici. | K dispozici. |
| Šifrování neaktivních uložených dat | Transparentní, strana serveru | Transparentní, strana serveru; Šifrování na straně klienta |
| Sady SDK pro vývojáře | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
| Výkon úloh analýzy | Optimalizovaný výkon pro úlohy s paralelní analýzou, vysoká propustnost a IOPS | Neoptimalizováno pro analytické úlohy |
| Omezení velikosti | Bez omezení velikosti účtů, velikostí souborů nebo počtu souborů | Konkrétní omezení popsané tady |
| Geografická redundance | Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní pro čtení (RA-GRS), zóna – redundantní (ZRS). | Místně redundantní (LRS), globálně redundantní (GRS), globálně redundantní pro čtení (RA-GRS), zóna – redundantní (ZRS). Další informace najdete tady. |
Možnosti databáze NoSQL
| Schopnost | Azure Cosmos DB | HBase v HDInsightu |
|---|---|---|
| Primární databázový model | Úložiště dokumentů, grafy, úložiště hodnot klíčů, úložiště s velkým sloupcem | Úložiště pro nejrůznější sloupce |
| Sekundární indexy | Ano | Ne |
| podpora jazyka SQL | Ano | Ano (s použitím ovladače JDBC pro Phoenix ) |
| Konzistence | Silná, ohraničená, neaktuálnost, relace, konzistentní předpona, případný | Silná |
| Integrace nativního Azure Functions | Ano | Ne |
| Automatická globální distribuce | Ano | V rámci oblastí s konečnou konzistencí se nedají konfigurovat žádné replikace do clusteru HBA . |
| Cenový model | Elasticky škálovatelné jednotky žádostí (ru), které se účtují za sekundu podle potřeby, elasticky škálovatelné úložiště | Ceny za minutu pro cluster HDInsight (horizontální škálování uzlů), úložiště |
Možnosti analytické databáze
| Schopnost | Průzkumník dat Azure | |
|---|---|---|
| Primární databázový model | Relační úložiště (úložiště sloupců), telemetrie a časové řady | |
| podpora jazyka SQL | Ano | |
| Cenový model | Elastické škálovatelné instance clusteru | |
| Authentication | na základě Azure Active Directory identit | |
| Šifrování neaktivních uložených dat | Podporované, spravované klíče zákazníka | |
| Výkon úloh analýzy | Optimalizovaný výkon pro úlohy paralelní analýzy | |
| Omezení velikosti | Lineárně škálovatelné |