Co je Apache HBA ve službě Azure HDInsight
Apache HBA je open source databáze NoSQL, která je postavená na Apache Hadoop a modelována po Google BigTable. HBA poskytují náhodný přístup a silnou konzistenci pro velké objemy dat v databázi bez schématu. Databáze je uspořádána podle rodin sloupců.
V perspektivě uživatele je adaptér HBA podobný databázi. Data jsou uložená v řádcích a sloupcích tabulky a data v rámci řádku se seskupují podle řady sloupců. HBA je databáze bez schématu. Sloupce a datové typy lze před použitím nedefinovat. Kód open-source se škáluje lineárně pro manipulaci s petabajty dat na tisících uzlech. Může spoléhat na redundanci dat, dávkové zpracování a další funkce, které jsou poskytovány distribuovanými aplikacemi v prostředí Hadoop.
Jak se ve službě Azure HDInsight implementuje Apache HBA?
HDInsight HBase je nabízena jako spravovaný cluster, který je integrován do prostředí Azure. Clustery jsou nakonfigurovány k přímému ukládání dat v Azure Storage, což zajišťuje nízkou latenci a zvýšení pružnosti ve volbách výkonu a nákladů. Tato vlastnost umožňuje zákazníkům vytvářet interaktivní weby, které pracují s velkými datovými sadami. Pro vytváření služeb, které ukládají data ze senzorů a telemetrie z milionů koncových bodů. A k analýze těchto dat pomocí úloh Hadoop. HBA a Hadoop jsou dobrým počátečním bodem pro projekty s velkými objemy dat v Azure. Služby umožňují aplikacím v reálném čase pracovat s velkými datovými sadami.
Implementace HDInsight využívá architekturu pro škálování na více instancí HBA k poskytování automatických horizontálního dělení tabulek. A silná konzistence pro čtení a zápisy a automatické převzetí služeb při selhání. Výkon je zvýšen ukládáním do mezipaměti pro čtení a vysokou propustností datových proudů pro zápis. Cluster HBase můžete vytvořit uvnitř virtuální sítě. Podrobnosti najdete v tématu Vytváření clusterů HDInsight v síti Azure Virtual Network.
Jakým způsobem jsou data spravována v HDInsight HBase?
Data mohou být spravována v HBase pomocí příkazů create, get, put, a scan z prostředí HBase. Data se zapisují do databáze pomocí put a čtou se pomocí get. Příkaz scan se používá k načítání dat z více řádků v tabulce. Data lze také spravovat pomocí rozhraní API HBase C#, které poskytuje knihovna klienta nad HBase REST API. K databázi HBA je také možné zadat dotaz pomocí Apache Hive. Úvod do těchto programovacích modelů najdete v tématu Začínáme používat Apache HBA s Apache Hadoop ve službě HDInsight. Jsou k dispozici i spoluprocesory, které umožňují zpracování dat v uzlech, které jsou hostiteli databáze.
Poznámka
Thrift není podporovaný HBase v HDInsight.
Případy použití pro Apache HBA
Kanonický případ použití, pro který se vytvořilo BigTable (a podle rozšíření, adaptérů HBA) z hledání na webu. Vyhledávací stroje sestavují indexy, které mapují termíny na webové stránky, které je obsahují. Ale existuje mnoho dalších případů použití, pro které je HBase vhodné – několik z nich je uvedeno v této části.
| Scénář | Popis |
|---|---|
| Ukládání hodnot klíče | HBA lze použít jako úložiště hodnot klíčů a je vhodné pro správu systémů zpráv. Facebook používá pro svůj systém zasílání zpráv HBA a je ideální pro ukládání a správu internetové komunikace. WebTable využívá HBase k hledání a správě tabulek, které jsou extrahovány z webových stránek. |
| Data snímače | HBase je užitečné pro zaznamenání dat shromážděných přírůstkově z různých zdrojů. Tato data zahrnují sociální analýzy a časové řady. A udržování interaktivních řídicích panelů v aktuálním stavu díky trendům a čítačům a správě systémů protokolů auditu. Mezi příklady patří terminál Bloomberg účastník a databáze Open Time Series (OpenTSDB). OpenTSDB ukládá a poskytuje přístup ke metrikám shromážděným o stavu serverových systémů. |
| Dotaz v reálném čase | Apache Phoenix je DOTAZOVACÍ modul SQL pro Apache HBA. Je k němu přistupované jako ovladač JDBC a umožňuje dotazování a správu v tabulkách HBA pomocí SQL. |
| HBase jako platforma | Aplikace lze nad HBase spouštět v případě použití jako datového úložiště. Mezi příklady patří Phoenix, OpenTSDB, Kiji a Titan. Aplikace lze také integrovat s HBase. Mezi příklady patří: Apache Hive, Apache prasete, Solr, Apache Storm, Apache Flume, Apache Impala, Apache Spark, Ganglia a Apache. |