データのコピーツールを使用して Azure Blob Storage から SQL データベースにデータをコピーする

[アーティクル]
11/02/2023

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

このチュートリアルでは、Azure Portal を使用してデータファクトリを作成します。次に、データのコピーツールを使用して、Azure Blob Storage から SQL データベースにデータをコピーするパイプラインを作成します。

Note

Azure Data Factory を初めて使用する場合は、「Azure Data Factory の概要」を参照してください。

このチュートリアルでは、以下の手順を実行します。

データファクトリを作成します。
データのコピーツールを使用してパイプラインを作成します。
パイプラインとアクティビティの実行を監視します。

前提条件

Azure サブスクリプション:Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。
Microsoft Azure Storage アカウント:Blob Storage を "ソース" データストアとして使用します。 Azure ストレージアカウントがない場合は、ストレージアカウントの作成に関するページの手順を参照してください。
Azure SQL Database:"シンク" データストアとして SQL データベースを使用します。 SQL データベースがない場合は、SQL データベースの作成に関するページの手順を参照してください。

SQL データベースを準備する

Azure サービスが Azure SQL Database の論理 SQL Server にアクセスできるようにします。

SQL データベースが実行されているサーバーの [Azure サービスおよびリソースにこのサーバーへのアクセスを許可する] 設定が有効になっていることを確認します。この設定により、Data Factory はお使いのデータベースインスタンスにデータを書き込むことができます。この設定を確認および有効にするには、論理 SQL サーバー > [セキュリティ] > [ファイアウォールと仮想ネットワーク] の順に移動し >[Azure サービスおよびリソースにこのサーバーへのアクセスを許可する] オプションを [オン] に設定します。

Note

[Azure サービスおよびリソースにこのサーバーへのアクセスを許可する] を選択すると、自分のサブスクリプション内のリソースに限らず、あらゆる Azure リソースから SQL Server にネットワークでアクセスできるようになります。すべての環境に適しているわけではありませんが、この限定的なチュートリアルには適しています。詳細については、Azure SQL Server のファイアウォール規則に関するページを参照してください。代わりに、プライベートエンドポイントを使用して、パブリック IP を使用せずに、Azure PaaS サービスに接続することもできます。

BLOB と SQL テーブルを作成する

次の手順を実行して、チュートリアルで使用する Blob Storage と SQL データベースを準備します。

ソース BLOB を作成する

メモ帳を起動します。次のテキストをコピーし、inputEmp.txt というファイル名でディスクに保存します。
```
FirstName|LastName
John|Doe
Jane|Doe
```
adfv2tutorial という名前のコンテナーを作成し、そこに inputEmp.txt ファイルをアップロードします。これらのタスクは、Azure portal または各種ツール (Azure Storage Explorer など) を使用して実行できます。

シンク SQL テーブルを作成する

次の SQL スクリプトを使って、SQL データベースに dbo.emp という名前のテーブルを作ります。

CREATE TABLE dbo.emp
(
    ID int IDENTITY(1,1) NOT NULL,
    FirstName varchar(50),
    LastName varchar(50)
)
GO
CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);

Data Factory の作成

左側のメニューで、 [リソースの作成]>[統合]>[Data Factory] を選択します。
[新しいデータファクトリ] ページで、 [名前] に「ADFTutorialDataFactory」と入力します。

データファクトリの名前は "グローバルに一意" にする必要があります。次のエラーメッセージが表示される場合があります。

データファクトリの名前の値に関するエラーメッセージが表示された場合は、別の名前を入力してください。たとえば、yournameADFTutorialDataFactory という名前を使用します。 Data Factory アーティファクトの名前付け規則については、Data Factory の名前付け規則に関する記事をご覧ください。
新しいデータファクトリの作成先となる Azure サブスクリプションを選択します。
[リソースグループ] で、次の手順のいずれかを行います。

a. [Use existing (既存のものを使用)] を選択し、ドロップダウンリストから既存のリソースグループを選択します。

b. [新規作成] を選択し、リソースグループの名前を入力します。

リソースグループの詳細については、リソースグループを使用した Azure のリソースの管理に関するページを参照してください。
[バージョン] で、バージョンとして [V2] を選択します。
[場所] で、データファクトリの場所を選択します。サポートされている場所のみがドロップダウンリストに表示されます。データファクトリによって使用されるデータストア (Azure Storage、SQL Database など) やコンピューティング (Azure HDInsight など) は、他の場所やリージョンに存在していてもかまいません。
［作成］ を選択します
作成が完了すると、 [Data Factory] ホームページが表示されます。
別のタブで Azure Data Factory ユーザーインターフェイス (UI) を起動するには、 [Open Azure Data Factory Studio]\(Azure Data Factory Studio を開く\) タイルで [開く] を選択します。

データのコピーツールを使用してパイプラインを作成する

Azure Data Factory のホームページで、 [取り込み] タイルを選択し、データのコピーツールを起動します。
データのコピーツールの [プロパティ] ページで、 [タスクの種類] に [組み込みコピータスク] を選択して、 [次へ] を選択します。
[ソースデータストア] ページで、次の手順を実行します。

a. [+ 新しい接続の作成] を選択して、接続を追加します。

b. ギャラリーから [Azure Blob Storage] を選択し、 [続行] を選択します。

c. [新しい接続 (Azure Blob Storage)] ページで、 [Azure サブスクリプション] の一覧から Azure サブスクリプションを選択し、 [ストレージアカウント名] の一覧からストレージアカウントを選択します。接続をテストし、 [作成] を選択します。

d. [接続] ブロックで、新しく作成したリンクサービスをソースとして選択します。

e. [ファイルまたはフォルダー] セクションで [参照] を選択して、adfv2tutorial フォルダーに移動します。inputEmp.txt ファイルを選択し、 [OK] を選択します。

f. [次へ] を選択して、次の手順に進みます。
[File format settings]\(ファイル形式設定\) ページで、 [First row as header]\(先頭の行をヘッダーにする\) のチェックボックスをオンにします。列と行の区切り記号が自動的に検出されることに注目してください。このページの [データのプレビュー] ボタンを選択すると、データをプレビューし、入力データのスキーマを表示できます。 [次へ] を選択します。
[ターゲットデータストア] ページで、次の手順を実行します。

a. [+ 新しい接続の作成] を選択して、接続を追加します。

b. ギャラリーで [Azure SQL Database] を選択し、 [続行] を選択します。

c. [New connection (Azure SQL Database)]\(新しい接続 (Azure SQL Database)\) ページで、ドロップダウンリストから Azure サブスクリプション、サーバー名、データベース名を選択します。次に、 [認証タイプ] で [SQL 認証] を選択し、ユーザー名とパスワードを指定します。接続をテストし、 [作成] を選択します。

d. 新しく作成したリンクされたサービスをシンクとして選択し、 [次へ] を選択します。
[配布先データストア] ページで [既存のテーブルを使用する] を選んで、dbo.emp テーブルを選びます。 [次へ] を選択します。
[列マッピング] ページで、入力ファイルの 2 番目と 3 番目の列が emp テーブルの FirstName 列と LastName 列にマップされていることがわかります。マッピングを調整して、エラーがないことを確認し、 [次へ] を選択します。
[設定] ページの [タスク名] に「CopyFromBlobToSqlPipeline」と入力し、 [次へ] を選択します。
[サマリー] ページで設定を確認し、 [次へ] を選択します。
[Deployment]\(デプロイ\) ページで [監視] を選択してパイプライン (タスク) を監視します。
[パイプラインの実行] ページで、 [最新の情報に更新] を選択して一覧を更新します。 [パイプライン名] の下にあるリンクを選択して、アクティビティの実行の詳細を表示するか、パイプラインを再実行します。
コピー操作の詳細については、[アクティビティの実行] ページで、 [アクティビティ名] 列の下にある [詳細] リンク (眼鏡アイコン) を選択します。 [パイプラインの実行] ビューに戻るには、階層リンクメニューの [すべてのパイプラインの実行] リンクを選択します。表示を更新するには、 [最新の情報に更新] を選択します。
SQL データベースの dbo.emp テーブルにデータが挿入されたことを確認します。
左側の [作成者] タブを選択して、編集モードに切り替えます。ツールによって作成されたリンクされたサービス、データセット、パイプラインをエディターで更新できます。 Data Factory UI におけるこれらのエンティティの編集について詳しくは、このチュートリアルの Azure Portal バージョンを参照してください。