Azure との間でのデータの転送

Azure との間でデータを転送するオプションはいくつかあり、必要に応じて選択できます。

物理的転送

物理ハードウェアを使用して Azure にデータを転送する方法は、次の場合に適しています。

  • ネットワークが低速、または信頼性が低い。
  • ネットワーク帯域幅を追加するためにコストがかかる。
  • 機密データを扱う場合、セキュリティまたは組織のポリシーで発信接続が許可されない。

主な懸案事項がデータの転送にかかる時間の場合、ネットワーク転送が物理的転送よりも遅いかどうかを確認するテストを実行できます。

物理的にデータを Azure に転送するには、主に 2 つのオプションがあります。

Azure Import/Export サービス

Azure Import/Export サービスを使用すると、内部 SATA HDD または SDD を Azure データセンターに送付することで、大量のデータを Azure Blob Storage または Azure Files に安全に転送できます。 また、このサービスを使用して、データを Azure Storage からハード ディスク ドライブに転送し、それらのドライブをオンプレミスの読み込みのために配送することもできます。

Azure Data Box

Azure Data Box は、Microsoft が提供するアプライアンスで、Import/Export サービスと同様に機能します。 Microsoft は、Data Box で独自のセキュリティで保護された改ざん防止機能を持つ転送アプライアンスを提供し、物流全体を管理します。ユーザーはこれをポータルで確認できます。 Data Box サービスの利点の 1 つは使いやすさです。 複数のハード ドライブを購入して準備し、それぞれにファイルを転送する必要はありません。 Data Box は、業界をリードする多数の Azure パートナーによりサポートされており、パートナー製品からクラウドへのオフライン転送をシームレスに利用できます。

コマンドライン ツールと API

スクリプト化とプログラムによるデータ転送を行う場合は、これらのオプションを検討してください。

  • Azure CLI は、Azure サービスを管理し、Storage にデータをアップロードすることができるクロスプラットフォーム ツールです。

  • AzCopyWindows または Linux のコマンドラインから AzCopy を使用すると、最適なパフォーマンスで Blob Storage、Azure File Storage、Azure Table Storage との間で簡単にデータをコピーできます。 AzCopy はコンカレンシーと並列処理をサポートし、中断された場合にコピー操作を再開することができます。 AzCopy を使用して、AWS から Azure にデータをコピーすることもできます。 プログラムによるアクセスの場合、Microsoft Azure Storage Data Movement Library は、AzCopy を強化するコア フレームワークです。 .NET Core ライブラリとして提供されています。

  • PowerShell の場合、AzureStorageBlobCopy PowerShell コマンドレットが、PowerShell に慣れている Windows 管理者向けのオプションです。

  • AdlCopy を使用すると、Blob Storage から Azure Data Lake Storage にデータをコピーできます。 これを使用して、2 つの Data Lake Store アカウント間でデータをコピーすることもできます。 ただし、Data Lake Storage から Blob Storage にデータをコピーするために使用することはできません。

  • Distcp は、HDInsight クラスター ストレージ (WASB) と Data Lake Storage アカウントの間でデータをコピーするために使用されます。

  • Sqoop は Apache プロジェクトであり、Hadoop エコシステムの一部です。 すべての HDInsight クラスターにプリインストールされています。 HDInsight クラスターと、SQL、Oracle、MySQL などのリレーショナル データベース間でデータを転送できます。 Sqoop は、インポートとエクスポートのツールを含む関連ツールのコレクションです。 Sqoop は、Blob Storage または Data Lake Storage に接続されているストレージを使用する HDInsight クラスターと連携します。

  • PolyBase は、T-SQL 言語を使用してデータベース外部のデータにアクセスするテクノロジです。 SQL Server 2016 では、Hadoop で外部データに対してクエリを実行し、Blob Storage との間でデータをインポートまたはエクスポートすることができます。 Azure Synapse Analytics では、Blob Storage と Data Lake Storage に対してデータをインポートまたはエクスポートできます。 Azure Synapse Analytics にデータをインポートする場合、現時点では PolyBase が最速の方法です。

  • HDInsight クラスター ヘッド ノードにデータが存在する場合は、Hadoop コマンド ラインを使用します。 hadoop -copyFromLocal コマンドを使用して、Blob Storage や Data Lake Storage など、クラスターに接続されたストレージにそのデータをコピーできます。 Hadoop コマンドを使用するには、まずヘッド ノードに接続する必要があります。 接続後は、ファイルをストレージにアップロードできます。

グラフィカル インターフェイス

少数のファイルまたはデータ オブジェクトのみを転送し、プロセスを自動化する必要がない場合は、次のオプションを検討してください。

  • Azure Storage Explorer は、Azure ストレージ アカウントの内容を管理するためのクロスプラットフォーム ツールです。 BLOB、ファイル、キュー、テーブル、Azure Cosmos DB のエンティティをアップロード、ダウンロード、および管理できます。 Blob Storage と共に使用して BLOB とフォルダーを管理できるだけでなく、ローカル ファイル システムと Blob Storage 間、またはストレージ アカウント間で BLOB をアップロードおよびダウンロードすることができます。

  • Azure Portal Blob Storage と Data Lake Storage のいずれにも、ファイルの探索と新しいファイルのアップロードのための Web ベースのインターフェイスが用意されています。 ツールをインストールしたくない場合、またはファイルをすばやく探索するためや少数のファイルをアップロードするためにコマンドを発行したくない場合、このオプションが適しています。

データ同期とパイプライン

  • Azure Data Factory は、多数の Azure サービス、オンプレミスのシステム、またはその 2 つの組み合わせの間でファイルを定期的に転送する場合に最適なマネージド サービスです。 Data Factory を使用することで、さまざまなデータ ストアからデータを取り込むデータ ドリブン ワークフロー (パイプライン) を作成し、スケジューリングできます。 Data Factory は、Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics、Azure Machine Learning などのコンピューティング サービスを使ってデータを処理し、変換できます。 データ移動とデータ変換を調整し、自動化するためのデータ駆動型ワークフローを作成できます。

  • Data Factory のパイプラインおよびアクティビティ と Azure Synapse Analytics を使用して、データ移動とデータ処理のシナリオ用のエンド ツー エンドのデータ駆動型ワークフローを構築できます。 さらに、Azure Data Factory 統合ランタイム (IR) を使用して、異なるネットワーク環境全体にデータ統合機能を提供できます。

  • Azure Data Box Gateway は Azure との間でデータを転送しますが、これはハード ドライブではなく仮想アプライアンスです。 オンプレミス ネットワークに存在する仮想マシンは、NFS と SMB プロトコルを使用して Data Box Gateway にデータを書き込みます。 その後、デバイスはデータを Azure に転送します。

主要な選択条件

データ転送のシナリオについて、次の質問に答えてニーズに適したシステムを選択してください。

  • 大量のデータを転送する必要はありますか。それをインターネット接続上で行う場合、処理時間が長すぎる、信頼性が低い、コストが高すぎるという問題はありますか。 "はい" の場合、物理的転送を検討してください。

  • データ転送タスクをスクリプト化して再利用できるようにしたいですか。 該当する場合、コマンド ラインのオプションのいずれかまたは Data Factory を選択します。

  • 大量のデータをネットワーク接続経由​​で転送する必要はありますか。 該当する場合、ビッグ データ向けに最適化されたオプションを選択します。

  • リレーショナル データベースとの間でデータを転送する必要はありますか。 "はい" の場合、1 つ以上のリレーショナル データベースをサポートするオプションを選択します。 これらのオプションの一部では Hadoop クラスターも必要です。

  • 自動データ パイプラインまたはワークフロー オーケストレーションは必要ですか。 "はい" の場合、Data Factory を検討してください。

機能のマトリックス

次の表は、機能の主な相違点をまとめたものです。

物理的転送

機能 Import/Export サービス Data Box
フォーム ファクター 内部 SATA HDD または SDD セキュリティで保護された改ざん防止機能を持つ単一のハードウェア アプライアンス
Microsoft が出荷の物流を管理 いいえ はい
パートナー製品との統合 いいえ はい
カスタム アプライアンス いいえ はい

コマンドライン ツール

Hadoop/HDInsight:

機能 Distcp Sqoop Hadoop CLI
ビッグ データに合わせて最適化 はい はい はい
リレーショナル データベースへのコピー いいえ はい いいえ
リレーショナル データベースからのコピー いいえ はい いいえ
Blob Storage へのコピー はい はい はい
Blob Storage からのコピー はい はい いいえ
Data Lake Storage へのコピー はい はい はい
Data Lake Storage からのコピー はい はい いいえ

その他:

機能 Azure CLI AzCopy PowerShell AdlCopy PolyBase
互換性のあるプラットフォーム Linux、OS X、Windows Linux、Windows Windows Linux、OS X、Windows SQL Server、Azure Synapse Analytics
ビッグ データに合わせて最適化 いいえ はい いいえ はい 1 はい 2
リレーショナル データベースへのコピー いいえ いいえ No いいえ はい
リレーショナル データベースからのコピー いいえ いいえ いいえ いいえ はい
Blob Storage へのコピー はい はい はい いいえ はい
Blob Storage からのコピー はい はい はい はい はい
Data Lake Storage へのコピー いいえ はい はい はい はい
Data Lake Storage からのコピー いいえ いいえ はい はい はい

[1] AdlCopy は、Data Lake Analytics アカウントで使用するときのビッグ データの転送に合わせて最適化されています。

[2] PolyBase のパフォーマンスを向上させるには、計算を Hadoop にプッシュし、PolyBase スケールアウト グループを使用して、SQL Server インスタンスと Hadoop ノード間の並列データ転送を有効にします。

グラフィカル インターフェイス、データ同期、データ パイプライン

機能 Azure ストレージ エクスプローラー Azure Portal * Data Factory Data Box Gateway
ビッグ データに合わせて最適化 いいえ いいえ はい はい
リレーショナル データベースへのコピー いいえ いいえ はい いいえ
リレーショナル データベースからのコピー いいえ いいえ はい いいえ
Blob Storage へのコピー はい いいえ はい はい
Blob Storage からのコピー はい いいえ はい いいえ
Data Lake Storage へのコピー いいえ いいえ はい いいえ
Data Lake Storage からのコピー いいえ いいえ はい いいえ
Blob Storage へのアップロード はい はい はい はい
Data Lake Storage へのアップロード はい はい はい はい
データ転送の調整 いいえ いいえ はい いいえ
カスタム データ変換 いいえ いいえ はい いいえ
価格モデル Free Free 使用した分を支払う ユニットあたりの支払い

* この場合の Azure portal は、Blob Storage と Data Lake Storage 用の Web ベースの探索ツールを表します。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

次のステップ