Azure Data Box を使用してオンプレミスの HDFS ストアから Azure Storage に移行するMigrate from on-prem HDFS store to Azure Storage with Azure Data Box

Data Box デバイスを使用することにより、Hadoop クラスターのオンプレミス HDFS ストアから Azure Storage (Blob ストレージまたは Data Lake Storage Gen2) にデータを移行できます。You can migrate data from an on-premises HDFS store of your Hadoop cluster into Azure Storage (blob storage or Data Lake Storage Gen2) by using a Data Box device. 80 TB の Data Box または 770 TB の Data Box Heavy から選択できます。You can choose from an 80-TB Data Box or a 770-TB Data Box Heavy.

この記事は、次のタスクを完了する上で役立ちます。This article helps you complete these tasks:

  • データの移行を準備します。Prepare to migrate your data.
  • データを Data Box または Data Box Heavy デバイスにコピーします。Copy your data to a Data Box or a Data Box Heavy device.
  • Microsoft にデバイスを返送します。Ship the device back to Microsoft.
  • データを Data Lake Storage Gen2 に移動します。Move the data onto Data Lake Storage Gen2.

前提条件Prerequisites

移行を完了するには、以下が必要です。You need these things to complete the migration.

  • 2 つのストレージ アカウント。階層型名前空間が有効なものと、有効ではないものです。Two storage accounts; one that has a hierarchical namespace enabled on it, and one that doesn't.

  • ソース データを含むオンプレミス Hadoop クラスター。An on-premises Hadoop cluster that contains your source data.

  • Azure Data Box デバイスAn Azure Data Box device.

    • Data Box または Data Box Heavy を注文しますOrder your Data Box or Data Box Heavy. デバイスを注文するときに、階層型名前空間が有効になっていないストレージ アカウントを必ず選択してください。While ordering your device, remember to choose a storage account that doesn't have hierarchical namespaces enabled on it. これは、Data Box デバイスは、Azure Data Lake Storage Gen2 への直接のインジェストをサポートしていないためです。This is because Data Box devices do not yet support direct ingestion into Azure Data Lake Storage Gen2. ストレージ アカウントにコピーしてから、ADLS Gen2 アカウントへの第 2 のコピーを行う必要があります。You will need to copy into a storage account and then do a second copy into the ADLS Gen2 account. これに関する方法は以下の手順で与えられます。Instructions for this are given in the steps below.

    • オンプレミス ネットワークに Data Box または Data Box Heavy をケーブル接続します。Cable and connect your Data Box or Data Box Heavy to an on-premises network.

準備ができている場合、始めましょう。If you are ready, let's start.

データを Data Box デバイスにコピーするCopy your data to a Data Box device

データが 1 つの Data Box デバイスに収まる場合は、そのデータを Data Box デバイスにコピーします。If your data fits into a single Data Box device, then you'll copy the data to the Data Box device.

データ サイズが Data Box デバイスの容量を超える場合は、オプションの手順を使用してデータを複数の Data Box デバイスに分割し、この手順を実行します。If your data size exceeds the capacity of the Data Box device, then use the optional procedure to split the data across multiple Data Box devices and then perform this step.

オンプレミス HDFS ストアから Data Box デバイスにデータをコピーするには、いくつかの事項を設定し、DistCp ツールを使用します。To copy the data from your on-premises HDFS store to a Data Box device, you'll set a few things up, and then use the DistCp tool.

以下の手順に従って、Blob/オブジェクト ストレージの REST API を介して Data Box デバイスにデータをコピーします。Follow these steps to copy data via the REST APIs of Blob/Object storage to your Data Box device. REST API インターフェイスでは、デバイスはクラスターに HDFS ストアとして表示されます。The REST API interface will make the device appear as an HDFS store to your cluster.

  1. REST を介してデータをコピーする前に、Data Box または Data Box Heavy 上で REST インターフェイスに接続するためにセキュリティおよび接続プリミティブを識別します。Before you copy the data via REST, identify the security and connection primitives to connect to the REST interface on the Data Box or Data Box Heavy. Data Box のローカル Web UI にサインインして、 [接続とコピー] ページに移動します。Sign in to the local web UI of Data Box and go to Connect and copy page. デバイスの Azure ストレージ アカウントに対して、 [アクセスの設定] の下で [REST] を探して選択します。Against the Azure storage account for your device, under Access settings, locate, and select REST.

    [接続とコピー] ページ

  2. [ストレージ アカウントへのアクセスとデータのアップロード] ダイアログで [Blob service エンドポイント][ストレージ アカウント キー] をコピーします。In the Access storage account and upload data dialog, copy the Blob service endpoint and the Storage account key. Blob service エンドポイントから、https:// と末尾のスラッシュを省略します。From the blob service endpoint, omit the https:// and the trailing slash.

    ここでは、エンドポイントは https://mystorageaccount.blob.mydataboxno.microsoftdatabox.com/ になります。In this case, the endpoint is: https://mystorageaccount.blob.mydataboxno.microsoftdatabox.com/. 使用する URI のホスト部分は mystorageaccount.blob.mydataboxno.microsoftdatabox.com です。The host portion of the URI that you'll use is: mystorageaccount.blob.mydataboxno.microsoftdatabox.com. たとえば、HTTP 経由の REST への接続の方法を参照してください。For an example, see how to Connect to REST over http.

    [ストレージ アカウントへのアクセスとデータのアップロード] ダイアログ

  3. エンドポイントと、Data Box または Data Box Heavy ノードの IP アドレスを各ノードの /etc/hosts に追加します。Add the endpoint and the Data Box or Data Box Heavy node IP address to /etc/hosts on each node.

    10.128.5.42  mystorageaccount.blob.mydataboxno.microsoftdatabox.com
    

    DNS を他のメカニズムを使用している場合は、Data Box エンドポイントを解決できることを確認する必要があります。If you are using some other mechanism for DNS, you should ensure that the Data Box endpoint can be resolved.

  4. シェル変数 azjars を、hadoop-azure および azure-storage jar ファイルの場所に設定します。Set the shell variable azjars to the location of the hadoop-azure and azure-storage jar files. これらのファイルは Hadoop インストール ディレクトリ以下にあります。You can find these files under the Hadoop installation directory.

    これらのファイルが存在するかどうかを確認するには、次のコマンドを使用しますls -l $<hadoop_install_dir>/share/hadoop/tools/lib/ | grep azureTo determine if these files exist, use the following command: ls -l $<hadoop_install_dir>/share/hadoop/tools/lib/ | grep azure. <hadoop_install_dir> プレースホルダーは、Hadoop をインストールしたディレクトリのパスに置き換えます。Replace the <hadoop_install_dir> placeholder with the path to the directory where you've installed Hadoop. 必ず完全修飾パスを使用します。Be sure to use fully qualified paths.

    次に例を示します。Examples:

    azjars=$hadoop_install_dir/share/hadoop/tools/lib/hadoop-azure-2.6.0-cdh5.14.0.jar azjars=$azjars,$hadoop_install_dir/share/hadoop/tools/lib/microsoft-windowsazure-storage-sdk-0.6.0.jarazjars=$hadoop_install_dir/share/hadoop/tools/lib/hadoop-azure-2.6.0-cdh5.14.0.jar azjars=$azjars,$hadoop_install_dir/share/hadoop/tools/lib/microsoft-windowsazure-storage-sdk-0.6.0.jar

  5. データのコピーに使用するストレージ コンテナーを作成します。Create the storage container that you want to use for data copy. このコマンドの一部として宛先ディレクトリも指定する必要があります。You should also specify a destination directory as part of this command. この時点では、これはダミーの宛先ディレクトリになる可能性があります。This could be a dummy destination directory at this point.

    hadoop fs -libjars $azjars \
    -D fs.AbstractFileSystem.wasb.Impl=org.apache.hadoop.fs.azure.Wasb \
    -D fs.azure.account.key.<blob_service_endpoint>=<account_key> \
    -mkdir -p  wasb://<container_name>@<blob_service_endpoint>/<destination_directory>
    
    • <blob_service_endpoint> プレースホルダーは、実際の BLOB サービス エンドポイントの名前に置き換えます。Replace the <blob_service_endpoint> placeholder with the name of your blob service endpoint.

    • <account_key> プレースホルダーは、実際のアカウントのアクセス キーに置き換えます。Replace the <account_key> placeholder with the access key of your account.

    • <container-name> プレースホルダーは、実際のコンテナーの名前に置き換えます。Replace the <container-name> placeholder with the name of your container.

    • <destination_directory> プレースホルダーは、データのコピー先であるディレクトリの名前に置き換えます。Replace the <destination_directory> placeholder with the name of the directory that you want to copy your data to.

  6. リスト コマンドを実行してコンテナーとディレクトリが作成されたことを確認します。Run a list command to ensure that your container and directory were created.

    hadoop fs -libjars $azjars \
    -D fs.AbstractFileSystem.wasb.Impl=org.apache.hadoop.fs.azure.Wasb \
    -D fs.azure.account.key.<blob_service_endpoint>=<account_key> \
    -ls -R  wasb://<container_name>@<blob_service_endpoint>/
    
    • <blob_service_endpoint> プレースホルダーは、実際の BLOB サービス エンドポイントの名前に置き換えます。Replace the <blob_service_endpoint> placeholder with the name of your blob service endpoint.

    • <account_key> プレースホルダーは、実際のアカウントのアクセス キーに置き換えます。Replace the <account_key> placeholder with the access key of your account.

    • <container-name> プレースホルダーは、実際のコンテナーの名前に置き換えます。Replace the <container-name> placeholder with the name of your container.

  7. Data Box Blob ストレージ内の先ほど作成したコンテナーに、Hadoop HDFS からデータをコピーします。Copy data from the Hadoop HDFS to Data Box Blob storage, into the container that you created earlier. コピー先のディレクトリが見つからない場合、コマンドにより自動的に作成されます。If the directory that you are copying into is not found, the command automatically creates it.

    hadoop distcp \
    -libjars $azjars \
    -D fs.AbstractFileSystem.wasb.Impl=org.apache.hadoop.fs.azure.Wasb \
    -D fs.azure.account.key.<blob_service_endpoint<>=<account_key> \
    -filters <exclusion_filelist_file> \
    [-f filelist_file | /<source_directory> \
           wasb://<container_name>@<blob_service_endpoint>/<destination_directory>
    
    • <blob_service_endpoint> プレースホルダーは、実際の BLOB サービス エンドポイントの名前に置き換えます。Replace the <blob_service_endpoint> placeholder with the name of your blob service endpoint.

    • <account_key> プレースホルダーは、実際のアカウントのアクセス キーに置き換えます。Replace the <account_key> placeholder with the access key of your account.

    • <container-name> プレースホルダーは、実際のコンテナーの名前に置き換えます。Replace the <container-name> placeholder with the name of your container.

    • <exlusion_filelist_file> プレースホルダーは、ファイルの除外一覧を含むファイルの名前に置き換えます。Replace the <exlusion_filelist_file> placeholder with the name of the file that contains your list of file exclusions.

    • <source_directory> プレースホルダーは、コピーするデータが格納されているディレクトリの名前に置き換えます。Replace the <source_directory> placeholder with the name of the directory that contains the data that you want to copy.

    • <destination_directory> プレースホルダーは、データのコピー先であるディレクトリの名前に置き換えます。Replace the <destination_directory> placeholder with the name of the directory that you want to copy your data to.

    -libjars オプションは、hadoop-azure*.jar と従属 azure-storage*.jar ファイルを distcp で使用できるようにするために使用されます。The -libjars option is used to make the hadoop-azure*.jar and the dependent azure-storage*.jar files available to distcp. これは、既に一部のクラスターに対して行われている場合があります。This may already occur for some clusters.

    次の例は、distcp コマンドを使用してデータをコピーする方法を示しています。The following example shows how the distcp command is used to copy data.

     hadoop distcp \
    -libjars $azjars \
    -D fs.AbstractFileSystem.wasb.Impl=org.apache.hadoop.fs.azure.Wasb \
    -D fs.azure.account.key.mystorageaccount.blob.mydataboxno.microsoftdatabox.com=myaccountkey \
    -filter ./exclusions.lst -f /tmp/copylist1 -m 4 \
    /data/testfiles \
    wasb://hdfscontainer@mystorageaccount.blob.mydataboxno.microsoftdatabox.com/data
    

    コピー速度を向上させるには:To improve the copy speed:

    • マッパーの数を変更してみてください。Try changing the number of mappers. (上記の例では m = 4 マッパーを使用します)。(The above example uses m = 4 mappers.)

    • 複数の distcp を並行して実行してみてください。Try running multiple distcp in parallel.

    • 大きなファイルは小さなファイルよりもパフォーマンスが向上することに注意してください。Remember that large files perform better than small files.

Data Box を Microsoft に送付するShip the Data Box to Microsoft

これらの手順に従って、Data Box デバイスを準備し、Microsoft に送付します。Follow these steps to prepare and ship the Data Box device to Microsoft.

  1. まず Data Box または Data Box Heavy 上で発送準備を行いますFirst, Prepare to ship on your Data Box or Data Box Heavy.

  2. デバイスの準備が完了した後は、BOM ファイルをダウンロードします。After the device preparation is complete, download the BOM files. 後からこれらの BOM またはマニフェスト ファイルを使用して、データが Azure にアップロードされたことを確認します。You will use these BOM or manifest files later to verify the data uploaded to Azure.

  3. デバイスをシャット ダウンし、ケーブルを取り外します。Shut down the device and remove the cables.

  4. UPS で集荷のスケジュールを設定します。Schedule a pickup with UPS.

  5. Microsoft がデバイスを受け取ると、データ センター ネットワークに接続され、デバイスを注文したときに (階層型名前空間を無効にして) 指定したストレージ アカウントにデータがアップロードされます。After Microsoft receives your device, it is connected to the data center network and the data is uploaded to the storage account you specified (with hierarchical namespaces disabled) when you placed the device order. すべてのデータが Azure にアップロードされたことを BOM ファイルに対して確認します。Verify against the BOM files that all your data is uploaded to Azure. Data Lake Storage Gen2 ストレージ アカウントに、このデータを移動できますようになりました。You can now move this data to a Data Lake Storage Gen2 storage account.

Azure Data Lake Storage Gen2 にデータを移動するMove the data into Azure Data Lake Storage Gen2

Azure Storage アカウントに既にデータがあります。You already have the data into your Azure Storage account. 次は、データを Azure Data Lake ストレージ アカウントにコピーし、ファイルとディレクトリへのアクセス許可を適用します。Now you will copy the data into your Azure Data Lake storage account and apply access permissions to files and directories.

注意

この手順は、データ ストアとして Azure Data Lake Storage Gen2 を使用している場合に必要です。This step is needed if you are using Azure Data Lake Storage Gen2 as your data store. 階層型名前空間を持たない BLOB ストレージ アカウントだけをデータ ストアとして使用している場合は、このセクションをスキップできます。If you are using just a blob storage account without hierarchical namespace as your data store, you can skip this section.

Azure Data Lake Storage Gen 2 アカウントにデータをコピーするCopy data to the Azure Data Lake Storage Gen 2 account

Azure Data Factory を使用するか、Azure ベースの Hadoop クラスターを使用してデータをコピーできます。You can copy data by using Azure Data Factory, or by using your Azure-based Hadoop cluster.

  • Azure Data Factory を使用するには、Azure Data Factory で ADLS Gen2 にデータを移動する方法に関するページを参照してください。To use Azure Data Factory, see Azure Data Factory to move data to ADLS Gen2. 必ずソースとして Azure Blob Storage を指定します。Make sure to specify Azure Blob Storage as the source.

  • Azure ベースの Hadoop クラスターを使用するには、次の DistCp コマンドを実行します。To use your Azure-based Hadoop cluster, run this DistCp command:

    hadoop distcp -Dfs.azure.account.key.<source_account>.dfs.windows.net=<source_account_key> abfs://<source_container> @<source_account>.dfs.windows.net/<source_path> abfs://<dest_container>@<dest_account>.dfs.windows.net/<dest_path>
    
    • <source_account><dest_account> のプレースホルダーは、ソースと宛先のストレージ アカウントの名前に置き換えます。Replace the <source_account> and <dest_account> placeholders with the names of the source and destination storage accounts.

    • <source_container><dest_container> のプレースホルダーは、ソースと宛先のコンテナーの名前に置き換えます。Replace the <source_container> and <dest_container> placeholders with the names of the source and destination containers.

    • <source_path><dest_path> のプレースホルダーは、ソースと宛先のディレクトリ パスに置き換えます。Replace the <source_path> and <dest_path> placeholders with the source and destination directory paths.

    • <source_account_key> プレースホルダーは、データを含むストレージ アカウントのアクセス キーに置き換えます。Replace the <source_account_key> placeholder with the access key of the storage account that contains the data.

    このコマンドは、データとメタデータの両方を、ストレージ アカウントから Data Lake Storage Gen2 ストレージ アカウントにコピーします。This command copies both data and metadata from your storage account into your Data Lake Storage Gen2 storage account.

Azure Data Lake Storage Gen2 アカウントのサービス プリンシパルを作成します。Create a service principal for your Azure Data Lake Storage Gen2 account

方法:リソースにアクセスできる Azure AD アプリケーションとサービス プリンシパルをポータルで作成する」のガイダンスに従って、サービス プリンシパルを作成します。To create a service principal, see How to: Use the portal to create an Azure AD application and service principal that can access resources.

  • 記事の「アプリケーションをロールに割り当てる」セクションの手順を実行するときに、必ずストレージ BLOB データ共同作成者ロールをサービス プリンシパルに割り当ててください。When performing the steps in the Assign the application to a role section of the article, make sure to assign the Storage Blob Data Contributor role to the service principal.

  • 記事の「サインインするための値を取得する」セクションの手順を実行するときは、アプリケーション ID、クライアント シークレット値をテキスト ファイルに保存します。When performing the steps in the Get values for signing in section of the article, save application ID, and client secret values into a text file. これらはすぐに必要になります。You'll need those soon.

それらのアクセス許可を使用してコピーされたファイルの一覧を生成するGenerate a list of copied files with their permissions

オンプレミスの Hadoop クラスターから、次のコマンドを実行します。From the on-premises Hadoop cluster, run this command:


sudo -u hdfs ./copy-acls.sh -s /{hdfs_path} > ./filelist.json

このコマンドでは、それらのアクセス許可を使用してコピーされたファイルの一覧が生成されます。This command generates a list of copied files with their permissions.

注意

HDFS 内のファイル数によっては、このコマンドの実行に時間がかかることがあります。Depending on the number of files in the HDFS, this command can take a long time to run.

ID の一覧を生成し、それらを Azure Active Directory (ADD) の ID にマップするGenerate a list of identities and map them to Azure Active Directory (ADD) identities

  1. copy-acls.py スクリプトをダウンロードします。Download the copy-acls.py script. この記事の「ヘルパー スクリプトをダウンロードし、それらを実行するようにエッジ ノードを設定する」セクションを参照してください。See the Download helper scripts and set up your edge node to run them section of this article.

  2. このコマンドを実行して、固有の ID の一覧を生成します。Run this command to generate a list of unique identities.

    
    ./copy-acls.py -s ./filelist.json -i ./id_map.json -g
    

    このスクリプトで、ADD ベースの ID にマップする必要がある ID を含む id_map.json という名前のファイルが生成されます。This script generates a file named id_map.json that contains the identities that you need to map to ADD-based identities.

  3. テキスト エディターで id_map.json ファイルを開きます。Open the id_map.json file in a text editor.

  4. ファイルに出現する各 JSON オブジェクトについて、マップされた適切な ID を使用して AAD ユーザー プリンシパル名 (UPN) または ObjectId (OID) のいずれかの target 属性を更新します。For each JSON object that appears in the file, update the target attribute of either an AAD User Principal Name (UPN) or ObjectId (OID), with the appropriate mapped identity. 完了したら、ファイルを保存します。After you're done, save the file. 次の手順でこのファイルが必要になります。You'll need this file in the next step.

コピーしたファイルにアクセス許可を適用し、ID マッピングを適用するApply permissions to copied files and apply identity mappings

このコマンドを実行して、Data Lake Storage Gen2 アカウントにコピーしたデータにアクセス許可を適用します。Run this command to apply permissions to the data that you copied into the Data Lake Storage Gen2 account:

./copy-acls.py -s ./filelist.json -i ./id_map.json  -A <storage-account-name> -C <container-name> --dest-spn-id <application-id>  --dest-spn-secret <client-secret>
  • <storage-account-name> プレースホルダーは、実際のストレージ アカウントの名前に置き換えます。Replace the <storage-account-name> placeholder with the name of your storage account.

  • <container-name> プレースホルダーは、実際のコンテナーの名前に置き換えます。Replace the <container-name> placeholder with the name of your container.

  • <application-id><client-secret> のプレースホルダーは、サービス プリンシパルの作成時に収集したアプリケーション ID とクライアント シークレットに置き換えます。Replace the <application-id> and <client-secret> placeholders with the application ID and client secret that you collected when you created the service principal.

付録:複数の Data Box デバイスにデータを分割するAppendix: Split data across multiple Data Box devices

データを Data Box デバイスに移動する前に、ヘルパー スクリプトをダウンロードし、データが Data Box に収まるように編成されていることを確認し、不要なファイルを除外する必要があります。Before you move your data onto a Data Box device, you'll need to download some helper scripts, ensure that your data is organized to fit onto a Data Box device, and exclude any unnecessary files.

ヘルパー スクリプトをダウンロードし、それらを実行するようにエッジ ノードを設定するDownload helper scripts and set up your edge node to run them

  1. オンプレミス Hadoop クラスターのエッジ ノードまたはヘッド ノードから、次のコマンドを実行します。From your edge or head node of your on-premises Hadoop cluster, run this command:

    
    git clone https://github.com/jamesbak/databox-adls-loader.git
    cd databox-adls-loader
    

    このコマンドで、ヘルパー スクリプトを含む GitHub リポジトリが複製されます。This command clones the GitHub repository that contains the helper scripts.

  2. ローカル コンピューターに jq パッケージがインストールされていることを確認します。Make sure that have the jq package installed on your local computer.

    
    sudo apt-get install jq
    
  3. Requests python パッケージをインストールします。Install the Requests python package.

    
    pip install requests
    
  4. 必要なスクリプトに実行アクセス許可を設定します。Set execute permissions on the required scripts.

    
    chmod +x *.py *.sh
    
    

データが Data Box デバイスに収まるように編成されていることを確認するEnsure that your data is organized to fit onto a Data Box device

データのサイズが 1 台の Data Box デバイスのサイズを超える場合は、複数のグループに分割してファイルを複数の Data Box デバイスに保存できるようにします。If the size of your data exceeds the size of a single Data Box device, you can split files up into groups that you can store onto multiple Data Box devices.

データが 1 台の Data Box デバイスのサイズを超えない場合は、次のセクションに進むことができます。If your data doesn't exceed the size of a singe Data Box device, you can proceed to the next section.

  1. 管理者特権のアクセス許可を使用して、前のセクションのガイダンスに従ってダウンロードした generate-file-list スクリプトを実行します。With elevated permissions, run the generate-file-list script that you downloaded by following the guidance in the previous section.

    コマンド パラメーターの説明を次に示します。Here's a description of the command parameters:

    sudo -u hdfs ./generate-file-list.py [-h] [-s DATABOX_SIZE] [-b FILELIST_BASENAME]
                     [-f LOG_CONFIG] [-l LOG_FILE]
                     [-v {DEBUG,INFO,WARNING,ERROR}]
                     path
    
    where:
    positional arguments:
    path                  The base HDFS path to process.
    
    optional arguments:
    -h, --help            show this help message and exit
    -s DATABOX_SIZE, --databox-size DATABOX_SIZE
                         The size of each Data Box in bytes.
    -b FILELIST_BASENAME, --filelist-basename FILELIST_BASENAME
                         The base name for the output filelists. Lists will be
                         named basename1, basename2, ... .
    -f LOG_CONFIG, --log-config LOG_CONFIG
                         The name of a configuration file for logging.
    -l LOG_FILE, --log-file LOG_FILE
                         Name of file to have log output written to (default is
                         stdout/stderr)
    -v {DEBUG,INFO,WARNING,ERROR}, --log-level {DEBUG,INFO,WARNING,ERROR}
                         Level of log information to output. Default is 'INFO'.
    
  2. 生成されたファイル一覧を HDFS にコピーして、DistCp ジョブにアクセスできるようにします。Copy the generated file lists to HDFS so that they are accessible to the DistCp job.

    hadoop fs -copyFromLocal {filelist_pattern} /[hdfs directory]
    

不要なファイルを除外するExclude unnecessary files

DisCp ジョブからいくつかのディレクトリを除外する必要があります。You'll need to exclude some directories from the DisCp job. たとえば、クラスターの稼働を維持する状態情報を含むディレクトリを除外します。For example, exclude directories that contain state information that keep the cluster running.

DistCp ジョブを開始する予定のオンプレミス Hadoop クラスター上に、除外するディレクトリの一覧を指定するファイルを作成します。On the on-premises Hadoop cluster where you plan to initiate the DistCp job, create a file that specifies the list of directories that you want to exclude.

次に例を示します。Here's an example:

.*ranger/audit.*
.*/hbase/data/WALs.*

次の手順Next steps

HDInsight クラスターでの Data Lake Storage Gen2 の動作について学習します。Learn how Data Lake Storage Gen2 works with HDInsight clusters. Use Azure Data Lake Storage Gen2 with Azure HDInsight clusters」 (Azure HDInsight クラスターで Azure Data Lake Storage Gen2 を使用する) を参照してください。See Use Azure Data Lake Storage Gen2 with Azure HDInsight clusters.