Versnelde schrijfbewerkingen van Azure HDInsight voor Apache HBase

In dit artikel vindt u achtergrondinformatie over de functie Versnelde schrijf schrijfprestaties voor Apache HBase in Azure HDInsight en wordt beschreven hoe u deze functie effectief kunt gebruiken om de schrijfprestaties te verbeteren. Versneld schrijven maakt gebruik van beheerde Azure Premium SSD-schijven om de prestaties van het Apache HBase Write Ahead Log (WAL) te verbeteren. Zie Wat is Apache HBase in HDInsight?voor meer informatie over Apache HBase.

Overzicht van HBase-architectuur

In HBase bestaat een rij uit een of meer kolommen en wordt deze geïdentificeerd met een rijsleutel. Meerdere rijen maken een tabel uit. Kolommen bevatten cellen. Dit zijn tijdstempelversies van de waarde in die kolom. Kolommen worden gegroepeerd in kolomfamilies en alle kolommen in een kolomfamilie worden samen opgeslagen in opslagbestanden met de naam HFiles.

Regio's in HBase worden gebruikt om de belasting van de gegevensverwerking te balanceren. HBase slaat eerst de rijen van een tabel op in één regio. De rijen worden verdeeld over meerdere regio's naarmate de hoeveelheid gegevens in de tabel toeneemt. Regioservers kunnen aanvragen voor meerdere regio's verwerken.

Write Ahead Log voor Apache HBase

HBase schrijft eerst gegevensupdates naar een type commit-logboek dat een Write Ahead Log (WAL) wordt genoemd. Nadat de update is opgeslagen in de WAL, wordt deze naar de MemStore in het geheugen geschreven. Wanneer de gegevens in het geheugen de maximale capaciteit bereiken, worden ze als een HFile naar de schijf geschreven.

Als een RegionServer vast loopt of niet meer beschikbaar is voordat de MemStore wordt leeggepokt, kan het Write Ahead-logboek worden gebruikt om updates opnieuw af te spelen. Als zonder de WAL een RegionServer vast loopt voordat updates naar een HFile worden leeggeveerd, gaan al deze updates verloren.

De functie Versnelde schrijf schrijf Azure HDInsight apache HBase

Met de functie Versnelde schrijfingen wordt het probleem opgelost van hogere schrijflatentie die wordt veroorzaakt door het gebruik van Write Ahead-logboeken in cloudopslag. Met de functie Versnelde schrijfgegevens voor HDInsight Apache HBase-clusters worden premium ssd-beheerde schijven gekoppeld aan elke RegionServer (worker-knooppunt). Write Ahead Logs worden vervolgens geschreven naar het Hadoop-bestandssysteem (HDFS) dat is bevestigd op deze premium beheerde schijven in plaats van cloudopslag. Premium beheerde schijven gebruiken Solid-State Disks (SSD's) en bieden uitstekende I/O-prestaties met fouttolerantie. In tegenstelling tot onmanagede schijven geldt dat als één opslageenheid uitgaat, dit geen invloed heeft op andere opslageenheden in dezelfde beschikbaarheidsset. Als gevolg hiervan bieden beheerde schijven lage schrijflatentie en betere tolerantie voor uw toepassingen. Zie Inleiding tot beheerde Azure-schijven voor meer informatie over door Azure beheerde schijven.

Versnelde schrijf schrijfinschakelen voor HBase in HDInsight

Volg de stappen in Clusters instellen in HDInsight om een nieuw HBase-cluster te maken met de functie Versnelde schrijfstappen. Selecteer op het tabblad Basis het clustertype als HBase, geef een onderdeelversie op en klik vervolgens op het selectievakje naast Versnelde HBase-schrijffuncties inschakelen. Ga vervolgens verder met de resterende stappen voor het maken van het cluster.

Optie voor versneld schrijven inschakelen voor HDInsight Apache HBase

Andere overwegingen

Als u de duurzaamheid van gegevens wilt behouden, maakt u een cluster met minimaal drie werkknooppunten. Nadat het cluster is gemaakt, kunt u het cluster niet omlaag schalen naar minder dan drie werkknooppunten.

Maak uw HBase-tabellen leeg of schakel ze uit voordat u het cluster kunt verwijderen, zodat u geen Write Ahead Log-gegevens kwijt bent.

flush 'mytable'
disable 'mytable'

Volg vergelijkbare stappen bij het omlaag schalen van uw cluster: uw tabellen leeg maken en uw tabellen uitschakelen om binnenkomende gegevens te stoppen. U kunt uw cluster niet omlaag schalen naar minder dan drie knooppunten.

Als u deze stappen volgt, zorgt u voor een geslaagde omlaag schalen en voorkomt u dat een namenode in de veilige modus wordt gezet als gevolg van te kleine of tijdelijke bestanden.

Als uw namenode na omlaag schalen wel in de veilige modus komt, gebruikt u hdfs-opdrachten om de onder-gerepliceerde blokken opnieuw te repliceren en hdfs uit de veilige modus te halen. Met deze herreplicatie kunt u HBase opnieuw opstarten.

Volgende stappen

  • Officiële Apache HBase-documentatie over de functie Write Ahead Log
  • Zie Een Apache HBase-clustermigreren naar een nieuwe versie als u uw HDInsight Apache HBase-cluster wilt upgraden voor het gebruik van versnelde schrijfstappen.