Az Azure Storage és az Azure HDInsight-fürtök együttes használataUse Azure storage with Azure HDInsight clusters

A HDInsight-fürtben lévő adatelemzéshez az Azure Storage-ban, Azure Data Lake Storage 1 . generációs/Azure Data Lake Storage Gen 2vagy egy kombinációban tárolhatók az adathalmazok.To analyze data in HDInsight cluster, you can store the data either in Azure Storage, Azure Data Lake Storage Gen 1/Azure Data Lake Storage Gen 2, or a combination. Ezek a tárolási beállítások lehetővé teszik a számításhoz használt HDInsight-fürtök biztonságos törlését felhasználói adatvesztés nélkül.These storage options enable you to safely delete HDInsight clusters that are used for computation without losing user data.

Apache Hadoop támogatja az alapértelmezett fájlrendszer fogalmát.Apache Hadoop supports a notion of the default file system. Az alapértelmezett fájlrendszer egy alapértelmezett sémát és szolgáltatót is jelent.The default file system implies a default scheme and authority. A relatív elérési utak feloldásához is használható.It can also be used to resolve relative paths. A HDInsight-fürt létrehozási folyamata során megadhat egy BLOB-tárolót az Azure Storage-ban alapértelmezett fájlrendszerként, illetve a HDInsight 3,6-as verzióban, kiválaszthatja az Azure Storage-t vagy a Azure Data Lake Storage Gen 1/Azure Data Lake Storage Gen 2 értéket alapértelmezett fájlként a rendszer néhány kivétellel.During the HDInsight cluster creation process, you can specify a blob container in Azure Storage as the default file system, or with HDInsight 3.6, you can select either Azure Storage or Azure Data Lake Storage Gen 1/ Azure Data Lake Storage Gen 2 as the default files system with a few exceptions. Az 1. generációs Data Lake Storage az alapértelmezett és a csatolt tárolóként való használatának támogatásához tekintse meg a HDInsight-fürt rendelkezésre állásátismertető témakört.For the supportability of using Data Lake Storage Gen 1 as both the default and linked storage, see Availability for HDInsight cluster.

Ebből a cikkből megtudhatja, hogyan használható az Azure Storage a HDInsight-fürtökkel.In this article, you learn how Azure Storage works with HDInsight clusters. Ha szeretné megtudni, hogyan működik Data Lake Storage Gen 1 HDInsight-fürtökkel, tekintse meg a Azure Data Lake Storage használata az Azure HDInsight-fürtökkelcímű témakört.To learn how Data Lake Storage Gen 1 works with HDInsight clusters, see Use Azure Data Lake Storage with Azure HDInsight clusters. További információ a HDInsight-fürtök létrehozásáról: Apache Hadoop-fürtök létrehozása a HDInsight-ben.For more information about creating an HDInsight cluster, see Create Apache Hadoop clusters in HDInsight.

Fontos

A Storage-fiók típusa BlobStorage csak másodlagos tárolóként használhatók a HDInsight-fürtökhöz.Storage account kind BlobStorage can only be used as secondary storage for HDInsight clusters.

Storage-fiók típusaStorage account kind Támogatott szolgáltatásokSupported services Támogatott teljesítményszintSupported performance tiers Támogatott hozzáférési szintekSupported access tiers
StorageV2 (általános célú v2)StorageV2 (general-purpose v2) BlobBlob StandardStandard Gyakori, ritka elérésű, archív*Hot, Cool, Archive*
Storage (általános célú v1)Storage (general-purpose v1) BlobBlob StandardStandard N/A
BlobStorageBlobStorage BlobBlob StandardStandard Gyakori, ritka elérésű, archív*Hot, Cool, Archive*

Nem javasoljuk, hogy az üzleti adattároláshoz használja az alapértelmezett BLOB-tárolót.We don't recommend that you use the default blob container for storing business data. Az alapértelmezett blobtárolót ajánlatos törölni minden egyes használat után.Deleting the default blob container after each use to reduce storage cost is a good practice. Az alapértelmezett tároló alkalmazás-és rendszernaplókat tartalmaz.The default container contains application and system logs. A tároló törlése előtt gondoskodjon a naplók begyűjtéséről.Make sure to retrieve the logs before deleting the container.

Egy blob-tároló megosztása, mivel a több fürt alapértelmezett fájlrendszere nem támogatott.Sharing one blob container as the default file system for multiple clusters isn't supported.

Megjegyzés

Az archív hozzáférési szint egy olyan offline szint, amely több órás lekérési késéssel rendelkezik, és nem ajánlott a HDInsight-mel való használatra.The Archive access tier is an offline tier that has a several hour retrieval latency and isn't recommended for use with HDInsight. További információ: az archív hozzáférési szint.For more information, see Archive access tier.

Fájlok elérése a fürtbőlAccess files from the cluster

Több módon is hozzáférhet a Data Lake Storage lévő fájlokhoz egy HDInsight-fürtről.There are several ways you can access the files in Data Lake Storage from an HDInsight cluster. Az URI séma titkosítatlan hozzáférést (a wasb: előtaggal) és SSL titkosított hozzáférést (a wasbs előtaggal) biztosít.The URI scheme provides unencrypted access (with the wasb: prefix) and SSL encrypted access (with wasbs). Ajánlott a wasbs előtagot használnia, amikor lehetséges, még akkor is, amikor az Azure-ban ugyanabban a régióban lévő adatokat éri el.We recommend using wasbs wherever possible, even when accessing data that lives inside the same region in Azure.

  • A teljes név használatával.Using the fully qualified name. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.With this approach, you provide the full path to the file that you want to access.

    wasb://<containername>@<accountname>.blob.core.windows.net/<file.path>/
    wasbs://<containername>@<accountname>.blob.core.windows.net/<file.path>/
    
  • A rövidített elérésiút-formátum használatával.Using the shortened path format. Ezzel a módszerrel az elérési utat a fürt gyökerére cseréli le a következővel:With this approach, you replace the path up to the cluster root with:

    wasb:///<file.path>/
    wasbs:///<file.path>/
    
  • A relatív elérési út használatával.Using the relative path. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.With this approach, you only provide the relative path to the file that you want to access.

    /<file.path>/
    

Adatelérési példákData access examples

A példák a fürt fő csomópontjának SSH-kapcsolatain alapulnak.Examples are based on an ssh connection to the head node of the cluster. A példák mindhárom URI-sémát használják.The examples use all three URI schemes. CONTAINERNAME és STORAGEACCOUNT cseréje a megfelelő értékekreReplace CONTAINERNAME and STORAGEACCOUNT with the relevant values

Néhány hdfs parancsA few hdfs commands

  1. Hozzon létre egy egyszerű fájlt a helyi tárolóban.Create a simple file on local storage.

    touch testFile.txt
    
  2. Könyvtárak létrehozása a fürt tárterületén.Create directories on cluster storage.

    hdfs dfs -mkdir wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -mkdir wasbs:///sampledata2/
    hdfs dfs -mkdir /sampledata3/
    
  3. Adatok másolása a helyi tárolóból a fürt tárolójába.Copy data from local storage to cluster storage.

    hdfs dfs -copyFromLocal testFile.txt  wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -copyFromLocal testFile.txt  wasbs:///sampledata2/
    hdfs dfs -copyFromLocal testFile.txt  /sampledata3/
    
  4. A fürt tárterületén lévő könyvtár tartalmának listázása.List directory contents on cluster storage.

    hdfs dfs -ls wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -ls wasbs:///sampledata2/
    hdfs dfs -ls /sampledata3/
    

Megjegyzés

Amikor a HDInsight eszközön kívüli blobokkal dolgozik, a legtöbb segédprogram nem ismeri fel a WASB formátumot, és ehelyett alapvető elérési út formátumot vár, például a következőt: example/jars/hadoop-mapreduce-examples.jar.When working with blobs outside of HDInsight, most utilities do not recognize the WASB format and instead expect a basic path format, such as example/jars/hadoop-mapreduce-examples.jar.

Struktúra-tábla létrehozásaCreating a Hive table

A szemléltető célokra három fájl helye látható.Three file locations are shown for illustrative purposes. A tényleges végrehajtáshoz használja a LOCATION bejegyzések egyikét.For actual execution, use only one of the LOCATION entries.

DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/example/data/';
LOCATION 'wasbs:///example/data/';
LOCATION '/example/data/';

Tároló elérési útjának azonosítása a AbmariIdentify storage path from Abmari

  • A konfigurált alapértelmezett tároló teljes elérési útjának azonosításához keresse meg a következőt:To identify the complete path to the configured default store, navigate to:

    HDFS > konfigurációkat , és a szűrő beviteli mezőjében adja meg fs.defaultFS.HDFS > Configs and enter fs.defaultFS in the filter input box.

  • Annak vizsgálatához, hogy a wasb-tároló másodlagos tárolóként van-e konfigurálva, keresse meg a következőt:To check if wasb store is configured as secondary storage, navigate to:

    HDFS > konfigurációkat , és a szűrő beviteli mezőjében adja meg blob.core.windows.net.HDFS > Configs and enter blob.core.windows.net in the filter input box.

BLOB-tárolókBlob containers

A Blobok használatához először létre kell hoznia egy Azure Storage-fiókot.To use blobs, you first create an Azure Storage account. Ennek részeként meg kell adnia egy Azure-régiót, amelyben a tárfiók létrejön.As part of this, you specify an Azure region where the storage account is created. A fürtnek és a tárfióknak ugyanabban a régióban kell lennie.The cluster and the storage account must be hosted in the same region. Az Hive-metaadattár SQL Server adatbázisnak és az Apache Oozie metaadattár SQL Server adatbázisnak ugyanabban a régióban kell lennie.The Hive metastore SQL Server database and Apache Oozie metastore SQL Server database must also be located in the same region.

Akárhol él, mindegyik létrehozott blob az Azure Storage-fiókban lévő tárolóhoz tartozik.Wherever it lives, each blob you create belongs to a container in your Azure Storage account. Ez a tároló egy már létező, a HDInsight eszközön kívül létrejövő blob vagy egy HDInsight-fürthöz létrehozott tároló lehet.This container may be an existing blob that was created outside of HDInsight, or it may be a container that is created for an HDInsight cluster.

Az alapértelmezett Blob-tároló a fürtre jellemző információkat, például a feladatelőzményeket és a naplókat tárolja.The default Blob container stores cluster-specific information such as job history and logs. Ne osszon meg alapértelmezett Blob tárolókat több HDInsight-fürttel.Don't share a default Blob container with multiple HDInsight clusters. Ez károsíthatja a feladatelőzményeket.This might corrupt job history. Javasoljuk, hogy használjon egy másik tárolót az egyes fürtökhöz, és helyezzen el megosztott adatokat egy társított Storage-fiókban, amely az alapértelmezett Storage-fiók helyett az összes releváns fürt központi telepítésében van megadva.It's recommended to use a different container for each cluster and put shared data on a linked storage account specified in deployment of all relevant clusters rather than the default storage account. A társított Storage-fiókok konfigurálásával kapcsolatos további információkért lásd: HDInsight-fürtök létrehozása.For more information on configuring linked storage accounts, see Create HDInsight clusters. De újból felhasználhatja az alapértelmezett tárolókat az eredeti HDInsight fürt törlése után.However you can reuse a default storage container after the original HDInsight cluster has been deleted. A HBase-fürtök esetében ténylegesen megtarthatja a HBase tábla sémáját és az adattárolást úgy, hogy létrehoz egy új HBase-fürtöt a törölt HBase-fürt által használt alapértelmezett blob-tároló használatával.For HBase clusters, you can actually keep the HBase table schema and data by creating a new HBase cluster using the default blob container that is used by an HBase cluster that has been deleted.

Megjegyzés

A biztonságos átvitelt igénylő funkció a biztonságos kapcsolaton keresztül kényszeríti az összes kérést a fiókba.The feature that requires secure transfer enforces all requests to your account through a secure connection. Csak a 3,6-es vagy újabb verziójú HDInsight-fürtök támogatják ezt a funkciót.Only HDInsight cluster version 3.6 or newer supports this feature. További információ: Apache Hadoop-fürt létrehozása biztonságos átvitelű Storage-fiókokkal az Azure HDInsight-ben.For more information, see Create Apache Hadoop cluster with secure transfer storage accounts in Azure HDInsight.

Interakció az Azure Storage szolgáltatássalInteracting with Azure storage

A Microsoft az alábbi eszközöket biztosítja az Azure Storage-hoz való együttműködéshez:Microsoft provides the following tools to work with Azure Storage:

EszközTool LinuxLinux OS XOS X WindowsWindows
Azure PortalAzure portal
Azure CLIAzure CLI
Azure PowerShellAzure PowerShell
AzCopyAzCopy

További tárfiókok használataUse additional storage accounts

HDInsight-fürt létrehozásakor meg kell adnia azt az Azure Storage-fiókot, amelyet a fürthöz társítani kívánja.While creating an HDInsight cluster, you specify the Azure Storage account you want to associate with it. Ezen a tárfiókon kívül további tárfiókokat vehet fel ugyanabból az Azure-előfizetésből vagy más Azure-előfizetésekből a létrehozási folyamat során vagy a fürt létrehozása után.In addition to this storage account, you can add additional storage accounts from the same Azure subscription or different Azure subscriptions during the creation process or after a cluster has been created. Útmutatás további tárfiókok hozzáadásához: HDInsight-fürtök létrehozása.For instructions about adding additional storage accounts, see Create HDInsight clusters.

Figyelmeztetés

A rendszer nem támogatja további tárfiókok használatát a HDInsight-fürtön kívül eső helyeken.Using an additional storage account in a different location than the HDInsight cluster is not supported.

További lépésekNext steps

Ebből a cikkből megtanulta, hogyan használhat HDFS-kompatibilis Azure-tárolót a HDInsighttal.In this article, you learned how to use HDFS-compatible Azure storage with HDInsight. Ez lehetővé teszi a skálázható, hosszú távú adatarchiváló beszerzési megoldások kiépítését, valamint hogy a HDInsighttal kinyerje a strukturált és strukturálatlan tárolt adatokban lévő információkat.This allows you to build scalable, long-term, archiving data acquisition solutions and use HDInsight to unlock the information inside the stored structured and unstructured data.

További információ eléréséhez lásd:For more information, see: