Az Azure Storage és az Azure HDInsight-fürtök együttes használata

Az adatokat az Azure Blob Storage-ban, Azure Data Lake Storage Gen1-ben vagy Azure Data Lake Storage Gen2 tárolhatja. Vagy ezek kombinációja. Ezek a tárolási lehetőségek lehetővé teszik a számításhoz használt HDInsight-fürtök biztonságos törlését a felhasználói adatok elvesztése nélkül.

Az Apache Hadoop támogatja az alapértelmezett fájlrendszer fogalmát. Az alapértelmezett fájlrendszer egy alapértelmezett sémát és szolgáltatót is jelent. A relatív elérési utak feloldásához is használható. A HDInsight-fürtlétrehozási folyamat során megadhat egy blobtárolót az Azure Storage-ban alapértelmezett fájlrendszerként. Vagy a HDInsight 3.6-os verziójával kiválaszthatja az Azure Blob Storage vagy Azure Data Lake Storage Gen1/ Azure Data Lake Storage Gen2 alapértelmezett fájlrendszerként néhány kivétellel. A Data Lake Storage Gen1 alapértelmezett és csatolt tárolóként való használatának támogatásáról a HDInsight-fürt rendelkezésre állása című témakörben olvashat.

Ebből a cikkből megtudhatja, hogyan használható az Azure Storage a HDInsight-fürtökkel.

Fontos

A BlobStorage típusú tárfiók csak a HDInsight-fürtök másodlagos tárolójaként használható.

Tárfiók típusa Támogatott szolgáltatások Támogatott teljesítményszintek Nem támogatott teljesítményszintek Támogatott hozzáférési szintek
StorageV2 (általános célú v2) Blob Standard Prémium Gyakori elérésű, ritka elérésű, archív*
Tároló (általános célú v1) Blob Standard Prémium N/A
BlobStorage Blob Standard Prémium Gyakori elérésű, ritka elérésű, archív*

Nem javasoljuk, hogy az alapértelmezett blobtárolót használja az üzleti adatok tárolásához. Az alapértelmezett blobtárolót ajánlatos törölni minden egyes használat után. Az alapértelmezett tároló alkalmazás- és rendszernaplókat tartalmaz. A tároló törlése előtt gondoskodjon a naplók begyűjtéséről.

Egy blobtároló megosztása több fürt alapértelmezett fájlrendszereként nem támogatott.

Megjegyzés

Az archív hozzáférési szint egy offline szint, amely több órás lekérési késéssel rendelkezik, és nem ajánlott a HDInsighttal való használathoz. További információ: Archív hozzáférési szint.

Fájlok elérése fürtön belülről

A HDInsight-fürtökről többféleképpen is elérheti Data Lake Storage fájljait. Az URI-séma titkosítatlan hozzáférést ( wasb: előtaggal) és TLS titkosított hozzáférést biztosít ( wasbs-ekkel). Ajánlott a wasbs előtagot használnia, amikor lehetséges, még akkor is, amikor az Azure-ban ugyanabban a régióban lévő adatokat éri el.

  • A teljes név használatával. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.

    wasb://<containername>@<accountname>.blob.core.windows.net/<file.path>/
    wasbs://<containername>@<accountname>.blob.core.windows.net/<file.path>/
    
  • A rövidített elérésiút-formátum használatával. Ezzel a módszerrel a fürtgyökér elérési útját a következőre cseréli:

    wasb:///<file.path>/
    wasbs:///<file.path>/
    
  • A relatív elérési út használatával. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.

    /<file.path>/
    

Adathozzáférési példák

A példák a fürt átjárócsomópontjának SSH-kapcsolatán alapulnak. A példák mindhárom URI-sémát használják. Cserélje le CONTAINERNAME a és STORAGEACCOUNT a értéket a megfelelő értékekre

Néhány hdfs-parancs

  1. Hozzon létre egy fájlt a helyi tárolóban.

    touch testFile.txt
    
  2. Címtárakat hozhat létre a fürttárolóban.

    hdfs dfs -mkdir wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -mkdir wasbs:///sampledata2/
    hdfs dfs -mkdir /sampledata3/
    
  3. Adatok másolása helyi tárolóból fürttárolóba.

    hdfs dfs -copyFromLocal testFile.txt  wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -copyFromLocal testFile.txt  wasbs:///sampledata2/
    hdfs dfs -copyFromLocal testFile.txt  /sampledata3/
    
  4. A fürttároló címtártartalmának listázása.

    hdfs dfs -ls wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -ls wasbs:///sampledata2/
    hdfs dfs -ls /sampledata3/
    

Megjegyzés

Amikor a HDInsight eszközön kívüli blobokkal dolgozik, a legtöbb segédprogram nem ismeri fel a WASB formátumot, és ehelyett alapvető elérési út formátumot vár, például a következőt: example/jars/hadoop-mapreduce-examples.jar.

Hive-tábla létrehozása

Három fájlhely látható szemléltetés céljából. A tényleges végrehajtáshoz csak az LOCATION egyik bejegyzést használja.

DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/example/data/';
LOCATION 'wasbs:///example/data/';
LOCATION '/example/data/';

Fájlok elérése külső fürtből

A Microsoft a következő eszközöket biztosítja az Azure Storage használatához:

Eszköz Linux OS X Windows
Azure Portal
Azure CLI
Azure PowerShell
AzCopy

Tárelérési út azonosítása az Ambariból

  • A konfigurált alapértelmezett tároló teljes elérési útjának azonosításához lépjen a következőre:

    HDFS>Konfigurálja és írja be fs.defaultFS a szűrő beviteli mezőjébe.

  • Annak ellenőrzéséhez, hogy a wasb store másodlagos tárolóként van-e konfigurálva, lépjen a következőre:

    HDFS>Konfigurálja és írja be blob.core.windows.net a szűrő beviteli mezőjébe.

Az elérési út az Ambari REST API-val való beszerzéséhez lásd : Az alapértelmezett tároló beszerzése.

Blobtárolók

A blobok használatához először hozzon létre egy Azure Storage-fiókot. Ennek a lépésnek a részeként meg kell adnia egy Azure-régiót, ahol a tárfiók létrejön. A fürtnek és a tárfióknak ugyanabban a régióban kell lennie. A Hive-metaadattárnak SQL Server adatbázisnak és az Apache Oozie-metaadattárnak SQL Server adatbázisnak ugyanabban a régióban kell lennie.

Akárhol él, mindegyik létrehozott blob az Azure Storage-fiókban lévő tárolóhoz tartozik. Ez a tároló a HDInsighton kívül létrehozott meglévő blob lehet. Vagy egy HDInsight-fürthöz létrehozott tároló.

Az alapértelmezett Blob-tároló a fürtre jellemző információkat, például a feladatelőzményeket és a naplókat tárolja. Ne osszon meg alapértelmezett Blob tárolókat több HDInsight-fürttel. Ez a művelet sérült lehet a feladatelőzmények között. Javasoljuk, hogy minden fürthöz használjon másik tárolót. Helyezze a megosztott adatokat egy társított tárfiókra, amely az összes releváns fürthöz van megadva az alapértelmezett tárfiók helyett. A kapcsolt tárfiókok konfigurálásáról további információért lásd: HDInsight-fürtök létrehozása. De újból felhasználhatja az alapértelmezett tárolókat az eredeti HDInsight fürt törlése után. A HBase-fürtök esetében a HBase-táblaséma és -adatok megőrzéséhez hozzon létre egy új HBase-fürtöt a törölt HBase-fürt által használt alapértelmezett blobtárolóval.

Megjegyzés

A biztonságos átvitelt igénylő szolgáltatás biztonságos kapcsolaton keresztül kényszeríti ki a fiókra irányuló összes kérést. Ezt a funkciót csak a HDInsight-fürt 3.6-os vagy újabb verziója támogatja. További információ: Apache Hadoop-fürt létrehozása biztonságos átviteli tárfiókokkal az Azure HDInsightban.

További tárfiókok használata

HDInsight-fürt létrehozásakor meg kell adnia azt az Azure Storage-fiókot, amelyet a fürthöz társítani kívánja. Emellett hozzáadhat további tárfiókokat ugyanabból az Azure-előfizetésből vagy különböző Azure-előfizetésekből a létrehozási folyamat során vagy egy fürt létrehozása után. Útmutatás további tárfiókok hozzáadásához: HDInsight-fürtök létrehozása.

Figyelmeztetés

A rendszer nem támogatja további tárfiókok használatát a HDInsight-fürtön kívül eső helyeken.

Következő lépések

Ebből a cikkből megtanulta, hogyan használhat HDFS-kompatibilis Azure-tárolót a HDInsighttal. Ezzel a tárolóval adaptálható, hosszú távú archiválási adatgyűjtő megoldásokat hozhat létre, és a HDInsight használatával feloldhatja a tárolt strukturált és strukturálatlan adatokon belüli információkat.

További információkért lásd: