Az Azure Storage és az Azure HDInsight-fürtök együttes használata
Az adatokat az Azure Blob Storage-ban, Azure Data Lake Storage Gen1-ben vagy Azure Data Lake Storage Gen2 tárolhatja. Vagy ezek kombinációja. Ezek a tárolási lehetőségek lehetővé teszik a számításhoz használt HDInsight-fürtök biztonságos törlését a felhasználói adatok elvesztése nélkül.
Az Apache Hadoop támogatja az alapértelmezett fájlrendszer fogalmát. Az alapértelmezett fájlrendszer egy alapértelmezett sémát és szolgáltatót is jelent. A relatív elérési utak feloldásához is használható. A HDInsight-fürtlétrehozási folyamat során megadhat egy blobtárolót az Azure Storage-ban alapértelmezett fájlrendszerként. Vagy a HDInsight 3.6-os verziójával kiválaszthatja az Azure Blob Storage vagy Azure Data Lake Storage Gen1/ Azure Data Lake Storage Gen2 alapértelmezett fájlrendszerként néhány kivétellel. A Data Lake Storage Gen1 alapértelmezett és csatolt tárolóként való használatának támogatásáról a HDInsight-fürt rendelkezésre állása című témakörben olvashat.
Ebből a cikkből megtudhatja, hogyan használható az Azure Storage a HDInsight-fürtökkel.
- A Data Lake Storage Gen1 HDInsight-fürtökkel való használatáról a Azure Data Lake Storage Gen1 használata Azure HDInsight-fürtökkel című témakörben olvashat.
- A Data Lake Storage Gen2 HDInsight-fürtökkel való használatáról lásd: Azure Data Lake Storage Gen2 használata Azure HDInsight-fürtökkel.
- További információ a HDInsight-fürtök létrehozásáról: Apache Hadoop-fürtök létrehozása a HDInsightban.
Fontos
A BlobStorage típusú tárfiók csak a HDInsight-fürtök másodlagos tárolójaként használható.
Tárfiók típusa | Támogatott szolgáltatások | Támogatott teljesítményszintek | Nem támogatott teljesítményszintek | Támogatott hozzáférési szintek |
---|---|---|---|---|
StorageV2 (általános célú v2) | Blob | Standard | Prémium | Gyakori elérésű, ritka elérésű, archív* |
Tároló (általános célú v1) | Blob | Standard | Prémium | N/A |
BlobStorage | Blob | Standard | Prémium | Gyakori elérésű, ritka elérésű, archív* |
Nem javasoljuk, hogy az alapértelmezett blobtárolót használja az üzleti adatok tárolásához. Az alapértelmezett blobtárolót ajánlatos törölni minden egyes használat után. Az alapértelmezett tároló alkalmazás- és rendszernaplókat tartalmaz. A tároló törlése előtt gondoskodjon a naplók begyűjtéséről.
Egy blobtároló megosztása több fürt alapértelmezett fájlrendszereként nem támogatott.
Megjegyzés
Az archív hozzáférési szint egy offline szint, amely több órás lekérési késéssel rendelkezik, és nem ajánlott a HDInsighttal való használathoz. További információ: Archív hozzáférési szint.
Fájlok elérése fürtön belülről
A HDInsight-fürtökről többféleképpen is elérheti Data Lake Storage fájljait. Az URI-séma titkosítatlan hozzáférést ( wasb: előtaggal) és TLS titkosított hozzáférést biztosít ( wasbs-ekkel). Ajánlott a wasbs előtagot használnia, amikor lehetséges, még akkor is, amikor az Azure-ban ugyanabban a régióban lévő adatokat éri el.
A teljes név használatával. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.
wasb://<containername>@<accountname>.blob.core.windows.net/<file.path>/ wasbs://<containername>@<accountname>.blob.core.windows.net/<file.path>/
A rövidített elérésiút-formátum használatával. Ezzel a módszerrel a fürtgyökér elérési útját a következőre cseréli:
wasb:///<file.path>/ wasbs:///<file.path>/
A relatív elérési út használatával. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.
/<file.path>/
Adathozzáférési példák
A példák a fürt átjárócsomópontjának SSH-kapcsolatán alapulnak. A példák mindhárom URI-sémát használják. Cserélje le CONTAINERNAME
a és STORAGEACCOUNT
a értéket a megfelelő értékekre
Néhány hdfs-parancs
Hozzon létre egy fájlt a helyi tárolóban.
touch testFile.txt
Címtárakat hozhat létre a fürttárolóban.
hdfs dfs -mkdir wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/ hdfs dfs -mkdir wasbs:///sampledata2/ hdfs dfs -mkdir /sampledata3/
Adatok másolása helyi tárolóból fürttárolóba.
hdfs dfs -copyFromLocal testFile.txt wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/ hdfs dfs -copyFromLocal testFile.txt wasbs:///sampledata2/ hdfs dfs -copyFromLocal testFile.txt /sampledata3/
A fürttároló címtártartalmának listázása.
hdfs dfs -ls wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/ hdfs dfs -ls wasbs:///sampledata2/ hdfs dfs -ls /sampledata3/
Megjegyzés
Amikor a HDInsight eszközön kívüli blobokkal dolgozik, a legtöbb segédprogram nem ismeri fel a WASB formátumot, és ehelyett alapvető elérési út formátumot vár, például a következőt: example/jars/hadoop-mapreduce-examples.jar
.
Hive-tábla létrehozása
Három fájlhely látható szemléltetés céljából. A tényleges végrehajtáshoz csak az LOCATION
egyik bejegyzést használja.
DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
t1 string,
t2 string,
t3 string,
t4 string,
t5 string,
t6 string,
t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/example/data/';
LOCATION 'wasbs:///example/data/';
LOCATION '/example/data/';
Fájlok elérése külső fürtből
A Microsoft a következő eszközöket biztosítja az Azure Storage használatához:
Eszköz | Linux | OS X | Windows |
---|---|---|---|
Azure Portal | ✔ | ✔ | ✔ |
Azure CLI | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ |
Tárelérési út azonosítása az Ambariból
A konfigurált alapértelmezett tároló teljes elérési útjának azonosításához lépjen a következőre:
HDFS>Konfigurálja és írja be
fs.defaultFS
a szűrő beviteli mezőjébe.Annak ellenőrzéséhez, hogy a wasb store másodlagos tárolóként van-e konfigurálva, lépjen a következőre:
HDFS>Konfigurálja és írja be
blob.core.windows.net
a szűrő beviteli mezőjébe.
Az elérési út az Ambari REST API-val való beszerzéséhez lásd : Az alapértelmezett tároló beszerzése.
Blobtárolók
A blobok használatához először hozzon létre egy Azure Storage-fiókot. Ennek a lépésnek a részeként meg kell adnia egy Azure-régiót, ahol a tárfiók létrejön. A fürtnek és a tárfióknak ugyanabban a régióban kell lennie. A Hive-metaadattárnak SQL Server adatbázisnak és az Apache Oozie-metaadattárnak SQL Server adatbázisnak ugyanabban a régióban kell lennie.
Akárhol él, mindegyik létrehozott blob az Azure Storage-fiókban lévő tárolóhoz tartozik. Ez a tároló a HDInsighton kívül létrehozott meglévő blob lehet. Vagy egy HDInsight-fürthöz létrehozott tároló.
Az alapértelmezett Blob-tároló a fürtre jellemző információkat, például a feladatelőzményeket és a naplókat tárolja. Ne osszon meg alapértelmezett Blob tárolókat több HDInsight-fürttel. Ez a művelet sérült lehet a feladatelőzmények között. Javasoljuk, hogy minden fürthöz használjon másik tárolót. Helyezze a megosztott adatokat egy társított tárfiókra, amely az összes releváns fürthöz van megadva az alapértelmezett tárfiók helyett. A kapcsolt tárfiókok konfigurálásáról további információért lásd: HDInsight-fürtök létrehozása. De újból felhasználhatja az alapértelmezett tárolókat az eredeti HDInsight fürt törlése után. A HBase-fürtök esetében a HBase-táblaséma és -adatok megőrzéséhez hozzon létre egy új HBase-fürtöt a törölt HBase-fürt által használt alapértelmezett blobtárolóval.
Megjegyzés
A biztonságos átvitelt igénylő szolgáltatás biztonságos kapcsolaton keresztül kényszeríti ki a fiókra irányuló összes kérést. Ezt a funkciót csak a HDInsight-fürt 3.6-os vagy újabb verziója támogatja. További információ: Apache Hadoop-fürt létrehozása biztonságos átviteli tárfiókokkal az Azure HDInsightban.
További tárfiókok használata
HDInsight-fürt létrehozásakor meg kell adnia azt az Azure Storage-fiókot, amelyet a fürthöz társítani kívánja. Emellett hozzáadhat további tárfiókokat ugyanabból az Azure-előfizetésből vagy különböző Azure-előfizetésekből a létrehozási folyamat során vagy egy fürt létrehozása után. Útmutatás további tárfiókok hozzáadásához: HDInsight-fürtök létrehozása.
Figyelmeztetés
A rendszer nem támogatja további tárfiókok használatát a HDInsight-fürtön kívül eső helyeken.
Következő lépések
Ebből a cikkből megtanulta, hogyan használhat HDFS-kompatibilis Azure-tárolót a HDInsighttal. Ezzel a tárolóval adaptálható, hosszú távú archiválási adatgyűjtő megoldásokat hozhat létre, és a HDInsight használatával feloldhatja a tárolt strukturált és strukturálatlan adatokon belüli információkat.
További információkért lásd:
- Rövid útmutató: Apache Hadoop-fürt létrehozása
- Oktatóanyag: HDInsight-fürtök létrehozása
- Az Azure Data Lake Storage Gen2 használata Azure HDInsight-fürtökkel
- Adatok feltöltése a HDInsightba
- Oktatóanyag: Adatok kinyerése, átalakítása és betöltése Interactive Query használatával az Azure HDInsightban
- Az Azure Storage közös hozzáférésű jogosultságkódok használata az adathozzáférés korlátozásához a HDInsightban