Az Azure Storage és az Azure HDInsight-fürtök együttes használata

Az adatokat tárolhatja az Azure Blob Storage-ban,az Azure Data Lake Storage Gen1-benvagy az Azure Data Lake Storage Gen2-ben. Vagy ezeknek a lehetőségeknek a kombinációját. Ezek a tárolási lehetőségek lehetővé teszik a számításhoz használt HDInsight-fürtök biztonságos törlését a felhasználói adatok elvesztése nélkül.

Az Apache Hadoop támogatja az alapértelmezett fájlrendszert. Az alapértelmezett fájlrendszer egy alapértelmezett sémát és szolgáltatót is jelent. A relatív elérési utak feloldásához is használható. A HDInsight-fürt létrehozása során megadhat egy blobtárolót az Azure Storage alapértelmezett fájlrendszerként. A HDInsight 3.6-os vagy az Azure Blob Storage vagy az Azure Data Lake Storage Gen1/Azure Data Lake Storage Gen2 alapértelmezett fájlrendszert választhatja néhány kivétellel. A Data Lake Storage Gen1 alapértelmezettként és csatolt tárolóként való használatának támogatásához lásd: Availability for HDInsight cluster (A HDInsight-fürtök rendelkezésre állása).

Ebből a cikkből megtudhatja, hogyan használható az Azure Storage a HDInsight-fürtökkel.

  • Ha meg szeretne ismerkedni a Data Lake Storage Gen1 és a HDInsight-fürtök használatával, tekintse meg az Azure Data Lake Storage Gen1 használatát Azure HDInsight fürtökön.
  • Ha meg szeretne ismerkedni a Data Lake Storage Gen2 és a HDInsight-fürtök használatával, tekintse meg az Azure Data Lake Storage Gen2 használatát Azure HDInsight fürtökön.
  • További információ a HDInsight-fürtök létrehozásáról: Apache Hadoop-fürtök létrehozása a HDInsightban.

Fontos

Storage fiók típusú BlobStorage csak másodlagos tárolóként használható a HDInsight-fürtök számára.

Storage fiók fajtája Támogatott szolgáltatások Támogatott teljesítményszintek Nem támogatott teljesítményszintek Támogatott hozzáférési szintek
StorageV2 (általános célú v2) Blob Standard Prémium Hot, Cool, Archive*
Tároló (általános célú v1) Blob Standard Prémium N/A
BlobStorage Blob Standard Prémium Hot, Cool, Archive*

Nem javasoljuk, hogy az alapértelmezett blobtárolót használja az üzleti adatok tárolásához. Az alapértelmezett blobtárolót ajánlatos törölni minden egyes használat után. Az alapértelmezett tároló alkalmazás- és rendszernaplókat tartalmaz. A tároló törlése előtt gondoskodjon a naplók begyűjtéséről.

Egy blobtároló megosztása több fürt alapértelmezett fájlrendszereként nem támogatott.

Megjegyzés

Az archív hozzáférési szint egy offline szint, amely több órás lekérési késéssel rendelkezik, és nem ajánlott a HDInsighthoz használni. További információ: Archív hozzáférési szint.

Fájlok elérése fürtön belülről

A Data Lake-fürtökben található fájlokat többféleképpen is Storage HDInsight-fürtről. Az URI séma titkosítatlan hozzáférést biztosít (a wasb: előtaggal) és a TLS titkosított hozzáférést (wasbs-sel). Ajánlott a wasbs előtagot használnia, amikor lehetséges, még akkor is, amikor az Azure-ban ugyanabban a régióban lévő adatokat éri el.

  • A teljes név használatával. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.

    wasb://<containername>@<accountname>.blob.core.windows.net/<file.path>/
    wasbs://<containername>@<accountname>.blob.core.windows.net/<file.path>/
    
  • A rövidített elérésiút-formátum használatával. Ezzel a megközelítéssel lecseréli a fürtgyökér elérési útját a következőre:

    wasb:///<file.path>/
    wasbs:///<file.path>/
    
  • A relatív elérési út használatával. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.

    /<file.path>/
    

Adatelérési példák

A példák a fürt főcsomópontjára vonatkozó SSH-kapcsolaton alapulnak. A példák mindhárom URI sémát használják. Cserélje le CONTAINERNAME a és STORAGEACCOUNT a értékeket a megfelelő értékekre

Néhány hdfs-parancs

  1. Hozzon létre egy fájlt a helyi tárolón.

    touch testFile.txt
    
  2. Hozzon létre könyvtárakat a fürttárolón.

    hdfs dfs -mkdir wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -mkdir wasbs:///sampledata2/
    hdfs dfs -mkdir /sampledata3/
    
  3. Adatok másolása a helyi tárolóból a fürttárolóba.

    hdfs dfs -copyFromLocal testFile.txt  wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -copyFromLocal testFile.txt  wasbs:///sampledata2/
    hdfs dfs -copyFromLocal testFile.txt  /sampledata3/
    
  4. List directory contents on cluster storage .list directory contents on cluster storage.

    hdfs dfs -ls wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -ls wasbs:///sampledata2/
    hdfs dfs -ls /sampledata3/
    

Megjegyzés

Amikor a HDInsight eszközön kívüli blobokkal dolgozik, a legtöbb segédprogram nem ismeri fel a WASB formátumot, és ehelyett alapvető elérési út formátumot vár, például a következőt: example/jars/hadoop-mapreduce-examples.jar.

Hive-tábla létrehozása

Három fájlhelyet mutatunk be szemléltető célokra. A tényleges végrehajtáshoz csak az egyik LOCATION bejegyzést használja.

DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/example/data/';
LOCATION 'wasbs:///example/data/';
LOCATION '/example/data/';

Fájlok elérése külső fürtről

A Microsoft az alábbi eszközöket biztosítja az Azure Storage:

Eszköz Linux OS X Windows
Azure Portal
Azure CLI
Azure PowerShell
AzCopy

Az Ambari tárolási útvonalának azonosítása

  • A konfigurált alapértelmezett tároló teljes elérési útjának azonosításához lépjen a következőre:

    HDFS > Adja meg a konfigurációt, fs.defaultFS és írja be a következőt a szűrő beviteli mezőjéhez: .

  • Annak ellenőrzéshez, hogy a wasb-tároló másodlagos tárolóként van-e konfigurálva, lépjen a következőre:

    HDFS > Adja meg a konfigurációt, blob.core.windows.net és írja be a következőt a szűrő beviteli mezőjéhez: .

Az elérési út Ambari-REST API az Alapértelmezett tároló beszerzése.

Blobtárolók

A blobok használatához először hozzon létre egy Azure Storage-fiókot. Ennek a lépésnek a részeként meg kell adnia egy Azure-régiót, ahol a tárfiók létrejön. A fürtnek és a tárfióknak ugyanabban a régióban kell lennie. A Hive-SQL Server adatbázisnak és az Apache Oozie-metaadattárnak SQL Server adatbázisnak ugyanabban a régióban kell lennie.

Akárhol él, mindegyik létrehozott blob az Azure Storage-fiókban lévő tárolóhoz tartozik. Ez a tároló lehet egy meglévő blob, amely a HDInsighton kívül jött létre. Vagy lehet egy HDInsight-fürthöz létrehozott tároló is.

Az alapértelmezett Blob-tároló a fürtre jellemző információkat, például a feladatelőzményeket és a naplókat tárolja. Ne osszon meg alapértelmezett Blob tárolókat több HDInsight-fürttel. Ez a művelet sérülhet a feladatelőzmények között. Javasoljuk, hogy minden fürthöz használjon egy másik tárolót. A megosztott adatokat az összes kapcsolódó fürthöz megadott kapcsolt tárfiókba helyezze az alapértelmezett tárfiók helyett. A kapcsolt tárfiókok konfigurálásáról további információért lásd: HDInsight-fürtök létrehozása. De újból felhasználhatja az alapértelmezett tárolókat az eredeti HDInsight fürt törlése után. HBase-fürtök esetén megtarthatja a HBase táblasémát és adatokat, ha létrehoz egy új HBase-fürtöt a törölt HBase-fürt által használt alapértelmezett blobtároló használatával.

Megjegyzés

A biztonságos átvitelt igénylő funkció egy biztonságos kapcsolaton keresztül kényszeríti ki a fiókra vonatkozó összes kérést. Ezt a funkciót csak a HDInsight-fürt 3.6-os vagy újabb verziója támogatja. További információ: Apache Hadoop-fürtlétrehozása biztonságos átviteli tárfiókokkal a Azure HDInsight.

További tárfiókok használata

HDInsight-fürt létrehozásakor meg kell adnia azt az Azure Storage-fiókot, amelyet a fürthöz társítani kívánja. Emellett további tárfiókokat is hozzáadhat ugyanattól az Azure-előfizetéstől vagy különböző Azure-előfizetéstől a létrehozási folyamat során vagy a fürt létrehozása után. Útmutatás további tárfiókok hozzáadásához: HDInsight-fürtök létrehozása.

Figyelmeztetés

A rendszer nem támogatja további tárfiókok használatát a HDInsight-fürtön kívül eső helyeken.

Következő lépések

Ebből a cikkből megtanulta, hogyan használhat HDFS-kompatibilis Azure-tárolót a HDInsighttal. Ez a tároló lehetővé teszi, hogy adaptálható, hosszú távú, archiválható adatgyűjtési megoldásokat építsen ki, és a HDInsight használatával oldja fel a tárolt strukturált és strukturálatlan adatokban lévő információkat.

További információkért lásd: