Share via


Amazon S3 からデータを取得する

データ インジェストは、1 つ以上のソースから Azure Data Explorer のテーブルにデータを読み込むプロセスです。 取り込まれたデータは、クエリに使用できるようになります。 この記事では、Amazon S3 から新しいテーブルまたは既存のテーブルにデータを取得する方法について説明します。

Amazon S3 の詳細については、「Amazon S3 とは」を参照してください。

データ インジェストの一般的な情報については、「Azure Data Explorer データ インジェストの概要」を参照してください。

前提条件

データを取得

  1. 左側のメニューから [クエリ] を選択 します

  2. データを取り込むデータベースを右クリックし、[データの 取得] を選択します。

    データベースを右クリックし、[オプションの取得] ダイアログが開いているクエリ タブのスクリーンショット。

source

[ データの取得] ウィンドウで、[ ソース ] タブが選択されています。

使用可能な一覧からデータ ソースを選択します。 この例では、 Amazon S3 からデータを取り込んでいるとします。

[ソース] タブが選択されている [データの取得] ウィンドウのスクリーンショット。

構成

  1. ターゲット データベースとテーブルを選択します。 新しいテーブルにデータを取り込む場合は、[ + 新しいテーブル ] を選択し、テーブル名を入力します。

    注意

    テーブル名には、スペース、英数字、ハイフン、アンダースコアを含む最大 1024 文字を指定できます。 特殊文字はサポートされていません。

  2. [URI] フィールドに、1 つのバケットまたは個々のオブジェクトの接続文字列を次の形式で貼り付けます。

    バケット: https://<バケット名>.s3.<リージョン名>.amazonaws.com

    オブジェクト: <オブジェクト名>;AwsCredentials=,

    必要に応じて、バケット フィルターを適用して、特定のファイル拡張子に従ってデータをフィルター処理できます。

    新しいテーブルが入力され、Amazon S3 接続文字列貼り付けた [構成] タブのスクリーンショット。

    注意

    インジェストでは、最大で 6 GB のファイル サイズがサポートされます。 100 MB から 1 GB の間のファイルを取り込むことをお勧めします。

  3. [次へ] を選択します。

検査

[検査] タブが開き、データのプレビューが表示されます。

インジェスト プロセスを完了するには、[完了] を選択 します

[検査] タブのスクリーンショット。

省略可能:

列の編集

注意

  • 表形式 (CSV、TSV、PSV) の場合、列を 2 回マップすることはできません。 既存の列にマップするには、最初に新しい列を削除します。
  • 既存の列の型を変更することはできません。 異なる形式の列にマップしようとすると、空の列になってしまう場合があります。

テーブルに加えることができる変更は、次のパラメーターによって異なります。

  • テーブルの種類が新規かまたは既存か
  • マッピングの種類が新規かまたは既存か
テーブルの種類です。 マッピングの種類 使用可能な調整
新しいテーブル 新しいマッピング 列の名前変更、データ型の変更、データ ソースの変更、 マッピング変換、列の追加、列の削除
既存のテーブル 新しいマッピング 列の追加 (データ型の変更、名前の変更、更新が可能)
既存のテーブル 既存のマッピング なし

編集のために開いている列のスクリーンショット。

マッピング変換

一部のデータ形式マッピング (Parquet、JSON、Avro) では、簡単な取り込み時の変換がサポートされています。 マッピング変換を適用するには、[列の 編集] ウィンドウで列を作成または更新します。

マッピング変換は、string 型または datetime 型の列に対して実行でき、ソースのデータ型は int または long です。 サポートされているマッピング変換は次のとおりです。

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

データ型に基づく高度なオプション

表形式 (CSV、TSV、PSV):

  • 既存のテーブルに表形式を取り込む場合は、[高度な>現在のテーブル スキーマを保持する] を選択できます。 表形式データには、ソース データを既存の列にマップするために使用される列名が必ずしも含まれるとは限りません。 このオプションをオンにすると、マッピングは順番に行われ、テーブル スキーマは変わりません。 このオプションをオフにすると、データ構造に関係なく、受信データ用に新しい列が作成されます。

  • 最初の行を列名として使用するには、[詳細設定>] [最初の行は列ヘッダー] の順に選択します。

    高度な CSV オプションのスクリーンショット。

JSON:

  • JSON データの列分割を決定するには、1 から 100 までの 高度な>入れ子になったレベルを選択します。

  • [詳細]>[データ形式のエラーを無視する] を選択すると、データは JSON 形式で取り込まれます。 このチェック ボックスをオフのままにすると、データは multijson 形式で取り込まれます。

    高度な JSON オプションのスクリーンショット。

まとめ

[データ準備] ウィンドウでは、データ インジェストが正常に完了すると、3 つのステップすべてが緑色のチェックマークでマークされます。 各ステップで使用されたコマンドを表示したり、取り込まれたデータのクエリ、視覚化、または削除を行うカードを選択したりできます。

インジェストが正常に完了した概要ページのスクリーンショット。