Копирование данных в Azure Data Lake Storage 2-го поколения и их преобразование с помощью Фабрики данных Azure или Azure Synapse Analytics

применимо к: Azure синапсе Analytics фабрика данных Azure

Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения) — это набор возможностей аналитики больших данных, созданный на основе хранилища BLOB-объектов Azure. С его помощью можно работать с данными с использованием парадигмы файловой системы или хранилища объектов.

В этой статье описано, как копировать данные в хранилище Azure Data Lake Storage 2-го поколения и из него с помощью действия копирования, а также как преобразовывать данные в Azure Data Lake Storage 2-го поколения с помощью Потока данных. Дополнительные сведения см. в вводной статье о Фабрике данных Azure или Azure Synapse Analytics.

Совет

Дополнительные сведения о сценарии миграции озера данных или хранилища данных см. в статье Перенос данных из озера данных или хранилища данных в Azure.

Поддерживаемые возможности

Этот соединитель Azure Data Lake Storage 2-го поколения предназначен для выполнения следующих действий.

Используя этот соединитель для действия копирования, можно:

Начало работы

Совет

Пошаговое руководство по использованию соединителя Azure Data Lake Storage 2-го поколения см. в статье Загрузка данных в Azure Data Lake Storage 2-го поколения.

Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:

Создание связанной службы Azure Data Lake Storage 2-го поколения с помощью пользовательского интерфейса

Выполните приведенные ниже действия, чтобы создать связанную службу для Azure Data Lake Storage 2-го поколения с помощью пользовательского интерфейса на портале Azure.

  1. Перейдите на вкладку "Управление" в рабочей области Фабрики данных Azure или Synapse и выберите "Связанные службы", после чего нажмите "Создать":

  2. Выполните поиск озера данных и выберите соединитель Azure Data Lake Storage 2-го поколения.

    Select Azure Data Lake Storage Gen2 connector.

  3. Настройте сведения о службе, проверьте подключение и создайте связанную службу.

    Screenshot of configuration for Azure Data Lake Storage Gen2 linked service.

Сведения о конфигурации соединителя

Следующие разделы содержат сведения о свойствах, которые используются для определения сущностей конвейеров Фабрики данных и Synapse, характерных для Azure Data Lake Storage 2-го поколения.

Свойства связанной службы

Соединитель Azure Data Lake Storage 2-го поколения поддерживает приведенные ниже типы аутентификации. Дополнительные сведения см. в соответствующих разделах:

Примечание

  • Если включить параметр Разрешить доверенным службам Майкрософт доступ к этой учетной записи хранения в настройках брандмауэра службы хранилища Azure, то при попытке использовать общедоступную среду выполнения интеграции Azure для подключения к Azure Data Lake Storage 2-го поколения потребуется использовать проверку подлинности на основе управляемого удостоверения.
  • Если при использовании инструкций PolyBase или COPY для загрузки данных в Azure Synapse Analytics исходное или промежуточное хранилище Data Lake Storage 2-го поколения настроено с использованием конечной точки виртуальной сети Azure, вам понадобится применить проверку подлинности на основе управляемого удостоверения в соответствии с требованиями Azure Synapse. Дополнительные предварительные требования к конфигурации см. в разделе Проверка подлинности с использованием управляемого удостоверения.

Проверка подлинности на основе ключа учетной записи

При использовании проверки подлинности на основе ключа учетной записи поддерживаются следующие свойства.

Свойство Описание Обязательно
type Для свойства type необходимо задать значение AzureBlobFS. Да
url Конечная точка для Azure Data Lake Storage 2-го поколения вида https://<accountname>.dfs.core.windows.net. Да
accountKey Ключ учетной записи для Azure Data Lake Storage 2-го поколения. Присвойте этому полю метку SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. Да
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure или локальную среду IR (если хранилище данных расположено в частной сети). Если это свойство не задано, используется Azure Integration Runtime по умолчанию. Нет

Примечание

Дополнительная конечная точка файловой системы ADLS не поддерживается при использовании аутентификации на основе ключа учетной записи. Можно использовать другие типы аутентификации.

Пример.

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "accountkey": { 
                "type": "SecureString", 
                "value": "<accountkey>" 
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Проверка подлинности субъекта-службы

Чтобы использовать аутентификацию на основе субъекта-службы, выполните следующие действия.

  1. Чтобы зарегистрировать сущность приложения в Azure Active Directory (Azure AD), необходимо следовать указаниям из раздела Регистрация приложения в клиенте Azure AD. Запишите следующие значения, которые используются для определения связанной службы:

    • Идентификатор приложения
    • Ключ приложения
    • Tenant ID
  2. Предоставьте правильное разрешение субъекту-службе. Примеры использования разрешения в Data Lake Storage 2-го поколения см. в статье Списки управления доступом для файлов и каталогов.

    • В качестве источника. В Обозревателе службы хранилища предоставьте как минимум разрешение Выполнение для ВСЕХ вышестоящих папок и файловой системы, а также разрешение Чтение для копируемых файлов. Можно также в Системе управления идентификацией и доступом (IAM) назначить по крайней мере роль Модуль чтения данных BLOB-объектов хранилища.
    • В качестве приемника. В Обозревателе службы хранилища предоставьте как минимум разрешение Выполнение для ВСЕХ вышестоящих папок и файловой системы, а также разрешение Запись для папки приемника. Можно также в Системе управления идентификацией и доступом (IAM) назначить по крайней мере роль Участник для данных BLOB-объектов хранилища.

Примечание

Если вы используете пользовательский интерфейс и не назначили для субъекта-службы роль "Модуль чтения данных BLOB-объектов хранилища" или "Участник для данных BLOB-объектов хранилища" в IAM, то при проверке подключения или просмотре папок выберите "Test connection to file path" (Проверить подключение к пути к файлу) или "Browse from specified path" (Обзор по указанному пути) и укажите путь с разрешением Чтение и выполнение, чтобы продолжить.

Приведенные ниже свойства поддерживаются в связанной службе.

Свойство Описание Обязательно
type Для свойства type необходимо задать значение AzureBlobFS. Да
url Конечная точка для Azure Data Lake Storage 2-го поколения вида https://<accountname>.dfs.core.windows.net. Да
servicePrincipalId Укажите идентификатора клиента приложения. Да
servicePrincipalCredentialType Тип учетных данных для использования при проверке подлинности субъекта-службы. Допустимые значения: ServicePrincipalKey и ServicePrincipalCert. Да
servicePrincipalCredential Учетные данные субъекта-службы.
При использовании в качестве типа учетных данных ServicePrincipalKey нужно указывать ключ приложения. Присвойте этому полю метку SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault.
Если вы используете в качестве учетных данных ServicePrincipalCert, добавьте ссылку на сертификат в Azure Key Vault.
Да
servicePrincipalKey Укажите ключ приложения. Присвойте этому полю метку SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault.
Это свойство по-прежнему поддерживается "как есть" для servicePrincipalId + servicePrincipalKey. Когда ADF добавляет новую проверку подлинности с помощью сертификата субъекта-службы, Новая модель для проверки подлинности на базе субъекта — servicePrincipalId + servicePrincipalCredentialType + servicePrincipalCredential
Нет
tenant Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. Да
azureCloudType Для проверки подлинности субъекта-службы укажите тип облачной среды Azure, в которой зарегистрировано приложение Azure Active Directory.
Допустимые значения: AzurePublic, AzureChina, AzureUsGovernment и AzureGermany. По умолчанию используется облачная среда Фабрики данных Azure или конвейера Synapse.
Нет
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure или локальную среду IR (если хранилище данных расположено в частной сети). Если не указано другое, используется среда выполнения интеграции Azure по умолчанию. Нет

Пример: использование проверки подлинности с помощью ключа субъекта-службы

Вы также можете хранить ключ субъекта-службы в Azure Key Vault.

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalKey",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<service principal key>"
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Пример: использование проверки подлинности с помощью сертификата субъекта-службы

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalCert",
            "servicePrincipalCredential": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<AKV reference>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<certificate name in AKV>" 
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Проверка подлинности с помощью управляемого удостоверения, назначаемого системой

Рабочую область Фабрики данных или Synapse можно связать с управляемым удостоверением, назначаемым системой. Это назначаемое системой управляемое удостоверение можно использовать непосредственно для проверки подлинности Data Lake Storage 2-го поколения так же, как для проверки собственного субъекта-службы. Оно разрешает назначенной фабрике или рабочей области обращаться к данным и копировать их из хранилища Azure Data Lake Storage 2-го поколения и в него.

Для использования проверки подлинности с помощью управляемого удостоверения, назначаемого системой, выполните приведенные ниже действия.

  1. Получите сведения об управляемом удостоверении, назначаемом системой, скопировав значение идентификатора объекта управляемого удостоверения, созданного вместе с рабочей областью Фабрики данных или Synapse.

  2. Предоставьте соответствующее разрешение управляемому удостоверению, назначаемому системой. Примеры использования разрешения в Data Lake Storage 2-го поколения см. в статье Списки управления доступом для файлов и каталогов.

    • В качестве источника. В Обозревателе службы хранилища предоставьте как минимум разрешение Выполнение для ВСЕХ вышестоящих папок и файловой системы, а также разрешение Чтение для копируемых файлов. Можно также в Системе управления идентификацией и доступом (IAM) назначить по крайней мере роль Модуль чтения данных BLOB-объектов хранилища.
    • В качестве приемника. В Обозревателе службы хранилища предоставьте как минимум разрешение Выполнение для ВСЕХ вышестоящих папок и файловой системы, а также разрешение Запись для папки приемника. Можно также в Системе управления идентификацией и доступом (IAM) назначить по крайней мере роль Участник для данных BLOB-объектов хранилища.

Приведенные ниже свойства поддерживаются в связанной службе.

Свойство Описание Обязательно
type Для свойства type необходимо задать значение AzureBlobFS. Да
url Конечная точка для Azure Data Lake Storage 2-го поколения вида https://<accountname>.dfs.core.windows.net. Да
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure или локальную среду IR (если хранилище данных расположено в частной сети). Если не указано другое, используется среда выполнения интеграции Azure по умолчанию. Нет

Пример.

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Проверка подлинности с помощью управляемого удостоверения, назначаемого пользователем

Фабрике данных может быть назначено несколько управляемых удостоверений, назначаемых пользователем, или всего одно такое удостоверение. Это удостоверение можно использовать для проверки подлинности хранилища BLOB-объектов, что позволяет получать доступ к данным и копировать их в Data Lake Storage 2-го поколения и обратно. Дополнительные сведения об управляемых удостоверениях для ресурсов Azure см. в статье Управляемые удостоверения для ресурсов Azure.

Для использования проверки подлинности с помощью управляемого удостоверения, назначаемого пользователем, выполните приведенные ниже действия.

  1. Создайте одно или несколько управляемых удостоверений, назначаемых пользователем, и предоставьте доступ к Azure Data Lake Storage 2-го поколения. Примеры использования разрешения в Data Lake Storage 2-го поколения см. в статье Списки управления доступом для файлов и каталогов.

    • В качестве источника. В Обозревателе службы хранилища предоставьте как минимум разрешение Выполнение для ВСЕХ вышестоящих папок и файловой системы, а также разрешение Чтение для копируемых файлов. Можно также в Системе управления идентификацией и доступом (IAM) назначить по крайней мере роль Модуль чтения данных BLOB-объектов хранилища.
    • В качестве приемника. В Обозревателе службы хранилища предоставьте как минимум разрешение Выполнение для ВСЕХ вышестоящих папок и файловой системы, а также разрешение Запись для папки приемника. Можно также в Системе управления идентификацией и доступом (IAM) назначить по крайней мере роль Участник для данных BLOB-объектов хранилища.
  2. Присвойте одно или несколько управляемых удостоверений, назначаемых пользователем, фабрике данных и создайте учетные данные для каждого подобного удостоверения.

Приведенные ниже свойства поддерживаются в связанной службе.

Свойство Описание Обязательно
type Для свойства type необходимо задать значение AzureBlobFS. Да
url Конечная точка для Azure Data Lake Storage 2-го поколения вида https://<accountname>.dfs.core.windows.net. Да
credentials Укажите назначаемое пользователем управляемое удостоверение в качестве объекта учетных данных. Да
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure или локальную среду IR (если хранилище данных расположено в частной сети). Если не указано другое, используется среда выполнения интеграции Azure по умолчанию. Нет

Пример.

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
                }
            },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Примечание

Если вы используете пользовательский интерфейс Фабрики данных и не назначили для управляемого удостоверения роль "Модуль чтения данных BLOB-объектов хранилища" или "Участник для данных BLOB-объектов хранилища" в IAM, то при проверке подключения или просмотре папок выберите "Test connection to file path" (Проверить подключение к пути к файлу) или "Browse from specified path" (Обзор по указанному пути) и укажите путь с разрешением Чтение и выполнение, чтобы продолжить.

Важно!

Если для загрузки данных из хранилища Data Lake Storage 2-го поколения в Azure Synapse Analytics используется инструкция PolyBase или COPY, то при использовании проверки подлинности управляемого удостоверения для хранилища Data Lake Storage 2-го поколения нужно обязательно выполнить действия 1–3 из этого руководства. Эти действия позволят зарегистрировать сервер в AAD и назначить серверу роль "Участник данных BLOB-объектов хранилища". Фабрика данных обрабатывает остальные компоненты. Если вы настраиваете Хранилище BLOB-объектов с использованием конечной точки виртуальной сети Azure, включите параметр Разрешить доверенным службам Майкрософт доступ к этой учетной записи хранения в меню настроек Брандмауэры и виртуальные сети учетной записи службы хранилища Azure в соответствии с требованиями Azure Synapse.

Свойства набора данных

Полный список разделов и свойств, доступных для определения наборов данных, см. в разделе Наборы данных в фабрике данных Azure.

Фабрика данных Azure поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Ниже перечислены свойства, которые поддерживаются для Azure Data Lake Storage 2-го поколения в настройках location в наборе данных на основе формата.

Свойство Описание Обязательно
type Свойство Type в location наборе данных должно иметь значение location. Да
fileSystem Имя файловой системы Azure Data Lake Storage 2-го поколения. Нет
folderPath Путь к папке в заданной файловой системе. Если вы хотите использовать подстановочный знак для фильтрации папок, пропустите этот параметр и укажите его в параметрах источника действия. Нет
fileName Имя файла по заданному пути к папке в указанной файловой системе. Если вы хотите использовать подстановочный знак для фильтрации файлов, пропустите этот параметр и укажите его в параметрах источника действия. Нет

Пример.

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Data Lake Storage Gen2 linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobFSLocation",
                "fileSystem": "filesystemname",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Свойства действия копирования

Полный список разделов и свойств, используемых для определения действий, доступен в разделах Действие копирования в фабрике данных Azure и Конвейеры и действия в фабрике данных Azure. Этот раздел содержит список свойств, поддерживаемых источником и приемником Data Lake Storage Gen2.

Azure Data Lake Storage 2-го поколения как тип источника

Фабрика данных Azure поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Существует несколько вариантов копирования данных из ADLS 2-го поколения:

  • копирование из указанного пути в наборе данных;
  • фильтр с подстановочными знаками для пути к папке или имени файла (см. сведения в разделах wildcardFolderPath и wildcardFileName);
  • копирование набора файлов, определенных в заданном текстовом файле (см. сведения в разделе fileListPath).

Ниже перечислены свойства, которые поддерживаются для Azure Data Lake Storage 2-го поколения в настройках storeSettings в источнике копирования на основе формата.

Свойство Описание Обязательно
type Свойство Type в разделе storeSettings должно иметь значение storeSettings. Да
Поиск файлов для копирования
ВАРИАНТ 1. Статический путь
Копирование из указанной файловой системы или пути к папке либо файлу, которые указаны в наборе данных. Если вы хотите скопировать все файлы из файловой системы или папки, дополнительно укажите для wildcardFileName значение *.
ВАРИАНТ 2. Подстановочный знак
- wildcardFolderPath
Путь к папке с подстановочными знаками в заданной файловой системе, настроенный в наборе данных для фильтрации исходных папок.
Допустимые подстановочные знаки: * (соответствует нулю или большему количеству знаков) и ? (соответствует нулю или одному знаку). Для экранирования используйте ^, если фактическое имя папки содержит подстановочный знак или escape-символ.
Дополнительные примеры приведены в разделе Примеры фильтров папок и файлов.
Нет
ВАРИАНТ 2. Подстановочный знак
- wildcardFileName
Имя файла с подстановочными знаками в заданной файловой системе с параметрами folderPath или wildcardFolderPath для фильтрации исходных папок.
Допустимые подстановочные знаки: * (соответствует нулю или большему количеству знаков) и ? (соответствует нулю или одному знаку). Для экранирования используйте ^, если фактическое имя файла содержит подстановочный знак или escape-символ. Дополнительные примеры приведены в разделе Примеры фильтров папок и файлов.
Да
ВАРИАНТ 3. Список файлов
- fileListPath
Указывает, что нужно скопировать заданный набор файлов. Укажите текстовый файл со списком файлов, которые необходимо скопировать, по одному файлу в строке (каждая строка должна содержать относительный путь к заданному в наборе данных пути).
При использовании этого параметра не указывайте имя файла в наборе данных. Ознакомьтесь с дополнительными примерами в разделе Примеры списков файлов.
Нет
Дополнительные параметры
recursive Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Обратите внимание, что если для свойства recursive задано значение true, а приемником является файловое хранилище, пустые папки и вложенные папки не создаются в приемнике.
Допустимые значения: true (по умолчанию) и false.
Это свойство не применяется при настройке fileListPath.
Нет
deleteFilesAfterCompletion Указывает, удаляются ли двоичные файлы из исходного хранилища после успешного перемещения в конечное хранилище. Файлы удаляются поочередно, поэтому в случае сбоя действия копирования вы увидите, что некоторые файлы уже скопированы в место назначения и удалены из источника, в то время как остальные находятся в исходном хранилище.
Это свойство допустимо только в сценарии копирования двоичных файлов. По умолчанию имеет значение false.
Нет
modifiedDatetimeStart Фильтр файлов на основе атрибута: последнее изменение.
Файлы будут выбраны, если время их последнего изменения больше или равно modifiedDatetimeStart и меньше modifiedDatetimeEnd . Время представлено часовым поясом UTC в формате "2018-12-01T05:00:00Z".
Свойства могут иметь значение NULL. Это означает, что фильтры атрибута файла не будут применяться к набору данных. Если для параметра modifiedDatetimeStart задано значение даты и времени, но параметр modifiedDatetimeEnd имеет значение NULL, то будут выбраны файлы, чей атрибут последнего изменения больше указанного значения даты и времени или равен ему. Если для параметра modifiedDatetimeEnd задано значение даты и времени, но параметр modifiedDatetimeStart имеет значение NULL, то будут выбраны все файлы, чей атрибут последнего изменения меньше указанного значения даты и времени.
Это свойство не применяется при настройке fileListPath.
Нет
modifiedDatetimeEnd То же, что и выше. Нет
enablePartitionDiscovery Для секционированных файлов укажите, следует ли анализировать секции из пути к файлу и добавлять их как дополнительные исходные столбцы.
Допустимые значения: false (по умолчанию) и true.
Нет
partitionRootPath При включении обнаружения секций укажите абсолютный корневой путь, чтобы считывать секционированные папки как столбцы данных.

Если он не указан, то по умолчанию:
– при использовании пути к файлу в наборе данных или списке файлов в источнике корневым путем секции считается путь, настроенный в наборе данных;
– при использовании фильтра папки с подстановочными знаками корневым путем секции считается часть пути до первого подстановочного знака.

Предположим, что вы настроили путь в наборе данных следующим образом: "root/folder/year=2020/month=08/day=27".
– Если указать корневой путь секции "root/folder/year=2020", действие копирования в дополнение к указанным в файлах столбцам создаст еще два столбца, month и day, со значениями "08" и "27" соответственно.
– Если корневой путь секции не указан, дополнительные столбцы создаваться не будут.
Нет
maxConcurrentConnections Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. Нет

Пример.

"activities":[
    {
        "name": "CopyFromADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AzureBlobFSReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Azure Data Lake Storage Gen2 как тип приемника

Фабрика данных Azure поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Ниже перечислены свойства, которые поддерживаются для Azure Data Lake Storage 2-го поколения в настройках storeSettings в приемнике копирования на основе формата.

Свойство Описание Обязательно
type Свойство Type в разделе storeSettings должно иметь значение storeSettings. Да
copyBehavior Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных.

Допустимые значения:
— PreserveHierarchy (по умолчанию). Сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла в исходной папке идентичен относительному пути целевого файла в целевой папке.
— FlattenHierarchy. Все файлы из исходной папки размещаются на первом уровне в целевой папке. Целевые файлы имеют автоматически сформированные имена.
— MergeFiles. Объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае присваивается автоматически созданное имя файла.
Нет
blockSizeInMB Укажите размер блока в МБ, используемый для записи данных в Azure Data Lake Storage 2-го поколения. Узнайте больше о блочных BLOB-объектaх.
Допустимое значение — от 4 до 100 МБ.
По умолчанию ADF автоматически определяет размер блока на основе типа и данных исходного хранилища. Для копирования файлов, которые не являются двоичными, в Azure Data Lake Storage 2-го поколения размер блока по умолчанию составляет 100 МБ, что соответствует ограничению на объем данных (не более 4,95 ТБ). Если объем данных не слишком велик, это может оказаться неоптимальным, особенно при использовании локальной среды выполнения интеграции с плохой сетью, что приводит к истечению времени ожидания или проблемам с производительностью. Можно явно указать размер блока, а также убедиться, что значение параметра blockSizeInMB*50000 достаточно велико для хранения данных, в противном случае выполнение действия копирования завершится ошибкой.
Нет
maxConcurrentConnections Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. нет
метаданные Задайте пользовательские метаданные при копировании в приемник. Каждый объект в массиве metadata представляет дополнительный столбец. name определяет имя ключа метаданных, а value указывает значение данных этого ключа. Если используется функция сохранения атрибутов, указанные метаданные будут объединены с метаданными исходного файла или перезаписаны ими.

Допустимые значения:
- $$LASTMODIFIED: зарезервированная переменная указывает на сохранение времени последнего изменения исходных файлов. Она применяется к файловому источнику, который может быть только в двоичном формате.
Выражение
- - Статическое значение
Нет

Пример.

"activities":[
    {
        "name": "CopyToADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings":{
                    "type": "AzureBlobFSWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        },
                        {
                            "name": "lastModifiedKey",
                            "value": "$$LASTMODIFIED"
                        }
                    ]
                }
            }
        }
    }
]

Примеры фильтров папок и файлов

В этом разделе описываются результаты применения фильтров с подстановочными знаками к пути папки и имени файла.

folderPath fileName recursive Структура исходной папки и результат фильтрации (извлекаются файлы, выделенные полужирным шрифтом)
Folder* (Пусто, используйте значение по умолчанию) false ПапкаA
    Файл1.csv
    File2. JSON
    Вложенная_папка1
        Файл3.csv
        Файл4.json
        Файл5.csv
Другая_папкаB
    Файл6.csv
Folder* (Пусто, используйте значение по умолчанию) Да ПапкаA
    Файл1.csv
    File2. JSON
    Вложенная_папка1
        Файл3.csv
        Файл4.json
        Файл5.csv
Другая_папкаB
    Файл6.csv
Folder* *.csv false ПапкаA
    Файл1.csv
    Файл2.json
    Вложенная_папка1
        Файл3.csv
        Файл4.json
        Файл5.csv
Другая_папкаB
    Файл6.csv
Folder* *.csv Да ПапкаA
    Файл1.csv
    Файл2.json
    Вложенная_папка1
        File3.csv
        Файл4.json
        Файл5.csv
Другая_папкаB
    Файл6.csv

Примеры списков файлов

В этом разделе описывается результирующее поведение при использовании пути к списку файлов в источнике действия копирования.

Предположим, что у вас есть следующая исходная структура папок и вы хотите скопировать файлы, выделенные полужирным шрифтом.

Пример исходной структуры Содержимое файла FileListToCopy.txt Конфигурация ADF
filesystem
    ПапкаA
        Файл1.csv
        Файл2.json
        Вложенная_папка1
            File3.csv
            Файл4.json
            Файл5.csv
    Метаданные
        FileListToCopy.txt
Файл1.csv
Вложенная_папка1/Файл3.csv
Вложенная_папка1/Файл5.csv
В наборе данных:
- файловая система: filesystem
- путь к папке: FolderA

В источнике действия копирования:
— Путь к списку файлов: filesystem/Metadata/FileListToCopy.txt

Путь к списку файлов указывает на текстовый файл в том же хранилище данных, содержащий список файлов, которые необходимо скопировать, указав по одному файлу в строке с относительным путем к пути, заданному в наборе данных.

Некоторые примеры recursive и copyBehavior

В данном разделе описываются результаты выполнения операции копирования при использовании различных сочетаний значений recursive и copyBehavior.

recursive copyBehavior Структура папок источника Результаты цели
Да preserveHierarchy Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая "Папка1" создается с такой же структурой, как и исходная папка:

Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        "Файл5"
Да flattenHierarchy Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка "Папка1" создается со следующей структурой:

Папка1
    автоматически созданное имя для "Файл1"
    автоматически созданное имя для "Файл2"
    автоматически созданное имя для "Файл3"
    автоматически созданное имя для "Файл4"
    автоматически созданное имя для "Файл5"
Да mergeFiles Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка "Папка1" создается со следующей структурой:

Папка1
    Содержимое file1 + file2 + Файл3 + "Файл4" + "Файл5" объединяется в один файл с автоматически сформированным именем файла.
false preserveHierarchy Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка "Папка1" создается со следующей структурой:

Папка1
    Файл1
    Файл2

Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку.
false flattenHierarchy Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка "Папка1" создается со следующей структурой:

Папка1
    автоматически созданное имя для "Файл1"
    автоматически созданное имя для "Файл2"

Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку.
false mergeFiles Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка "Папка1" создается со следующей структурой:

Папка1
    Содержимое файлов "Файл1" и "Файл2" объединяется в один файл с автоматически созданным именем. автоматически созданное имя для "Файл1"

Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку.

Сохранение метаданных файла во время копирования

При копировании файлов из Amazon S3/BLOB-объекта Azure или Azure Data Lake Storage 2-го поколения в Azure Data Lake Storage 2-го поколения или BLOB-объект Azure можно сохранить метаданные файла вместе с данными. Подробнее см. в разделе Сохранение метаданных.

Сохранение списков управления доступом из Data Lake Storage 1-го или 2-го поколения

При копировании файлов из Azure Data Lake Storage 1-го или 2-го поколения в ADLS 2-го поколения можно сохранить списки управления доступом POSIX вместе с данными. Узнайте больше в разделе Сохранение списков управления доступом из Data Lake Storage 1-го или 2-го поколения.

Совет

Пошаговые инструкции и рекомендации по копированию данных из Azure Data Lake Storage 1-го поколения в Azure Data Lake Storage 2-го поколения см. в статье Копирование данных из Azure Data Lake Storage 1-го поколения в Azure Data Lake Storage 2-го поколения с помощью Фабрики данных Azure.

Свойства потока данных для сопоставления

При преобразовании данных в потоках данных для сопоставления считывать и записывать файлы из Azure Data Lake Storage 2-го поколения можно в следующих форматах:

Конкретные параметры приведены в документации для соответствующего формата. Дополнительные сведения см. в статьях Преобразование источника в потоке данных для сопоставления и Преобразование приемника в потоке данных для сопоставления.

Преобразование источника

В преобразовании источника можно выполнять чтение из контейнера, папки или отдельного файла в Azure Data Lake Storage 2-го поколения. Настройки управления чтением файлов находятся на вкладке Параметры источника.

Source options

Путь с подстановочными знаками. Использование шаблона с подстановочными знаками позволяет указать потоку ADF, что необходимо перебрать каждую соответствующую папку и файл в одном преобразовании источника. Это эффективный способ обработки нескольких файлов в одном потоке. Добавьте несколько шаблонов сопоставления с подстановочными знаками с помощью значка плюса ("+"), который появляется при наведении указателя мыши на существующий шаблон с подстановочными знаками.

В исходном контейнере выберите файлы, соответствующие шаблону. В наборе данных можно указать только контейнер. Путь с подстановочными знаками должен также включать путь к папке из корневой папки.

Примеры подстановочных знаков:

  • * — представляет любой набор символов;

  • ** — представляет рекурсивную вложенность каталога;

  • ? — заменяет один символ;

  • [] — соответствует одному или нескольким символам в квадратных скобках;

  • /data/sales/**/*.csv — возвращает все файлы CSV в папке /data/sales;

  • /data/sales/20??/**/ — возвращает все файлы, созданные в 20 веке;

  • /data/sales/*/*/*.csv — возвращает файлы CSV, расположенные двумя уровнями ниже папки /data/sales;

  • /data/sales/2004/*/12/[XY]1?.csv — возвращает все файлы CSV, созданные в декабре 2004 года, которые начинаются с X или Y с двузначным числом в качестве префикса.

Корневой путь к разделу: Если в источнике файлов имеются секционированные папки с форматом (например, Year = 2019), то верхний уровень этого дерева папок секционирования можно назначить имени столбца в потоке данных потока.

Во-первых, задайте подстановочный знак, чтобы включить все пути, которые являются в секционированных папках, а также конечные файлы, которые вы хотите прочитать.

Partition source file settings

Для определения верхнего уровня структуры папок используйте параметр "Корневой путь раздела". При просмотре содержимого данных с помощью предварительного просмотра данных вы увидите, что ADF добавит разрешенные разделы, найденные на каждом уровне папок.

Partition root path

Список файлов. Это набор файлов. Создайте текстовый файл, который включает список относительных путей файлов для обработки. Укажите на этот текстовый файл.

Столбец для хранения имени файла. Сохраните имя исходного файла в столбце данных. Укажите здесь новое имя столбца для хранения строки имени файла.

После завершения. Укажите, что делать после завершения: ничего не делать с исходным файлом после выполнения потока данных, удалить или переместить исходные файлы. Пути для перемещения являются относительными.

Чтобы переместить исходные файлы в другое расположение после обработки, сначала выберите "Переместить" для операции с файлом. Затем задайте исходный каталог. Если вы не используете подстановочные знаки в пути, исходным каталогом будет та же папка, что и исходная папка.

Если у вас есть исходный путь с подстановочным знаком, синтаксис будет выглядеть следующим образом.

/data/sales/20??/**/*.csv

В качестве исходной папки можно указать

/data/sales

В качестве целевой папки можно указать

/backup/priorSales

В этом случае все файлы, источником которых является папка /data/sales, перемещаются в папку /backup/priorSales.

Примечание

Операции с файлами выполняются только в том случае, если поток данных выполняется из запуска конвейера (отладка конвейера или запуск выполнения) с использованием действия выполнения потока данных в конвейере. Операции с файлами не выполняются в режиме отладки потока данных.

Фильтровать по дате последнего изменения. Вы можете отфильтровать обрабатываемые файлы, указав диапазон дат последнего изменения. Все значения даты и времени указаны в формате UTC.

Включить систему отслеживания измененных данных (Предварительная версия): Если значение — true, то будут получены новые или измененные файлы только из последнего запуска. Начальная загрузка полных данных моментальных снимков всегда получится при первом запуске, а затем записи новых или измененных файлов только при следующем запуске. Дополнительные сведения см. в разделе система отслеживания измененных данных (Предварительная версия).

Screenshot showing Enable change data capture (Preview).

Свойства приемника

В преобразовании приемника можно выполнять запись в контейнер или папку в хранилище Azure Data Lake Storage 2-го поколения. Настройки управления записью файлов находятся на вкладке Параметры.

sink options

Очистить папку. Определяет, следует ли удалять конечную папку перед записью данных.

Параметр имени файла. Определяет способ присвоения имени целевым файлам в папке назначения. Доступные параметры имени файла:

  • По умолчанию: разрешить Spark присваивать имена файлам на основе значений по умолчанию PART.
  • Шаблон: введите шаблон, в котором перечислены выходные файлы для каждого раздела. Например, при использовании шаблона loans[n].csv будут создаваться файлы loans1.csv, loans2.csv и т. д.
  • На один раздел: введите имя файла для одного раздела.
  • Как данные в столбце: задайте для выходного файла значение столбца. Путь задается относительно контейнера набора данных, а не папки назначения. Если в наборе данных имеется путь к папке, он будет переопределен.
  • Вывод в один файл: объединение секционированных выходных файлов в один именованный файл. Путь задается относительно папки набора данных. Имейте в виду, что операция слияния может завершиться сбоем в зависимости от размера узла. Этот параметр не рекомендуется использовать для больших наборов данных.

Все в кавычках: указывает, следует ли заключать все значения в кавычки

umask

При необходимости можно задать umask для файлов, использующих флаги чтения, записи и выполнения POSIX для владельца, пользователя и группы.

Команды предварительной обработки и последующей обработки

При необходимости вы можете выполнить команды Hadoop FileSystem до или после записи в приемник ADLS 2-го поколения. Поддерживаются следующие команды:

  • cp
  • mv
  • rm
  • mkdir

Примеры

  • mkdir /folder1
  • mkdir -p folder1
  • mv /folder1/*.* /folder2/
  • cp /folder1/file1.txt /folder2
  • rm -r /folder1

Параметры также поддерживаются в построителе выражений, например:

mkdir -p {$tempPath}/commands/c1/c2 mv {$tempPath}/commands/*.* {$tempPath}/commands/c1/c2

По умолчанию папки создаются как пользователь или корневой каталог. См. контейнер верхнего уровня с "/".

Свойства действия поиска

Подробные сведения об этих свойствах см. в разделе Действие поиска.

Свойства действия GetMetadata

Подробные сведения об этих свойствах см. в разделе Действие GetMetadata

Свойства действия удаления

Подробные сведения об этих свойствах см. в разделе Действие удаления

Устаревшие модели

Примечание

Следующие модели по-прежнему поддерживаются на условиях "как есть" для обеспечения обратной совместимости. Новую модель, упомянутую в разделах выше, рекомендуется использовать в дальнейшем. Пользовательский интерфейс создания ADF был изменен для создания новой модели.

Устаревшая модель набора данных

Свойство Описание Обязательно
type Свойство type для набора данных должно иметь значение AzureBlobFSFile. Да
folderPath Путь к папке в Azure Data Lake Storage 2-го поколения. Если это свойство не указано, будет использоваться корневая папка.

Фильтр подстановочных знаков не поддерживается. Допустимые подстановочные знаки: * (соответствует нулю или нескольким символам) и ? (соответствует нулю или одному символу). Используйте ^ для экранирования знаков, если фактическое имя папки содержит подстановочный знак или этот escape-символ.

Примеры: filesystem/folder/. Дополнительные примеры приведены в разделе Примеры фильтров папок и файлов.
Нет
fileName Имя или фильтр постановочных знаков для файлов по указанному folderPath. Если этому свойству не присвоить значение, набор данных будет указывать на все файлы в папке.

Допустимые подстановочные знаки для фильтра: * (соответствует нулю или нескольким символам) и ? (соответствует нулю или одному символу).
Пример 1. "fileName": "*.csv"
Пример 2. "fileName": "???20180427.txt"
Используйте ^ для экранирования символов, если фактическое имя файла содержит подстановочный знак или этот escape-символ.

Если fileName для выходного набора данных не указан, а preserveHierarchy не указан в приемнике действия, действие копирования автоматически создаст имя файла по следующему шаблону: "Data.[GUID идентификатора выполнения действия].[GUID, если поведение — FlattenHierarchy].[формат, если настроено].[сжатие, если настроено] ". Например: "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz". При копировании из табличного источника с использованием имени таблицы вместо запроса формат имени будет таким: " [имя таблицы].[фoрмат].[сжатие, если настроено] ". Например: "MyTable.csv".
Нет
modifiedDatetimeStart Фильтр файлов на основе атрибута времени последнего изменения. Файлы выбираются, если время их последнего изменения больше или равно modifiedDatetimeStart и меньше modifiedDatetimeEnd . Время представлено часовым поясом UTC в формате "2018-12-01T05:00:00Z".

Включение этого параметра в случае, если требуется использовать фильтр файлов с огромными объемами файлов, влияет на общую производительность перемещения данных.

Свойства могут иметь значение NULL. Это означает, что фильтры атрибута файла не применяются к набору данных. Если для параметра modifiedDatetimeStart задано значение даты и времени, но параметр modifiedDatetimeEnd имеет значение NULL, то выбираются файлы, чей атрибут времени последнего изменения больше указанного значения даты и времени или равен ему. Если для параметра modifiedDatetimeEnd задано значение даты и времени, но параметр modifiedDatetimeStart имеет значение NULL, то выбираются файлы, чей атрибут времени последнего изменения меньше указанного значения даты и времени.
Нет
modifiedDatetimeEnd Фильтр файлов на основе атрибута времени последнего изменения. Файлы выбираются, если время их последнего изменения больше или равно modifiedDatetimeStart и меньше modifiedDatetimeEnd . Время представлено часовым поясом UTC в формате "2018-12-01T05:00:00Z".

Включение этого параметра в случае, если требуется использовать фильтр файлов с огромными объемами файлов, влияет на общую производительность перемещения данных.

Свойства могут иметь значение NULL. Это означает, что фильтры атрибута файла не применяются к набору данных. Если для параметра modifiedDatetimeStart задано значение даты и времени, но параметр modifiedDatetimeEnd имеет значение NULL, то выбираются файлы, чей атрибут времени последнего изменения больше указанного значения даты и времени или равен ему. Если для параметра modifiedDatetimeEnd задано значение даты и времени, но параметр modifiedDatetimeStart имеет значение NULL, то выбираются файлы, чей атрибут времени последнего изменения меньше указанного значения даты и времени.
Нет
format Если требуется скопировать файлы между файловыми хранилищами "как есть" (двоичное копирование), можно пропустить раздел форматирования в определениях входного и выходного наборов данных.

Если необходимо проанализировать или создать файлы определенного формата, поддерживаются следующие форматы файлов: TextFormat, JsonFormat, AvroFormat, OrcFormat и ParquetFormat. Свойству type в разделе format необходимо присвоить одно из этих значений. Дополнительные сведения см. в разделах о текстовом формате, формате JSON, формате Avro, формате ORC и формате Parquet.
Нет (только для сценария двоичного копирования)
compression Укажите тип и уровень сжатия данных. Дополнительные сведения см. в разделе Поддержка сжатия.
Поддерживаемые типы: **GZip**, **Deflate**, **BZip2**, and **ZipDeflate** .
Поддерживаемые уровни: Optimal и Fastest.
Нет

Совет

Чтобы скопировать все файлы в папке, укажите только folderPath.
Чтобы скопировать один файл с заданным именем, укажите folderPath с путем к папке и fileName с именем файла.
Чтобы скопировать подмножество файлов в папке, укажите folderPath с частью папки и fileName с фильтром подстановочных знаков.

Пример.

{
    "name": "ADLSGen2Dataset",
    "properties": {
        "type": "AzureBlobFSFile",
        "linkedServiceName": {
            "referenceName": "<Azure Data Lake Storage Gen2 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "myfilesystem/myfolder",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Устаревшая модель источника действия копирования

Свойство Описание Обязательно
type Свойство type источника действия копирования должно иметь значение AzureBlobFSSource. Да
recursive Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Если для свойства recursive задано значение true, а приемником является файловое хранилище, то пустые папки и вложенные папки в приемнике не создаются.
Допустимые значения: true (по умолчанию) и false.
Нет
maxConcurrentConnections Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. Нет

Пример.

"activities":[
    {
        "name": "CopyFromADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<ADLS Gen2 input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AzureBlobFSSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Устаревшая модель приемника действия копирования

Свойство Описание Обязательно
type Свойство type приемника действия копирования должно иметь значение AzureBlobFSSink. Да
copyBehavior Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных.

Допустимые значения:
— PreserveHierarchy (по умолчанию). Сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла в исходной папке идентичен относительному пути целевого файла в целевой папке.
— FlattenHierarchy. Все файлы из исходной папки размещаются на первом уровне в целевой папке. Целевые файлы имеют автоматически сформированные имена.
— MergeFiles. Объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае присваивается автоматически созданное имя файла.
Нет
maxConcurrentConnections Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. Нет

Пример.

"activities":[
    {
        "name": "CopyToADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<ADLS Gen2 output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureBlobFSSink",
                "copyBehavior": "PreserveHierarchy"
            }
        }
    }
]

Система отслеживания измененных данных (Предварительная версия)

фабрика данных Azure может получать новые или измененные файлы только из Azure Data Lake Storage 2-го поколения, включив параметр включить систему отслеживания измененных данных (предварительная версия) в преобразовании источника потока данных сопоставления. С помощью этого параметра соединителя можно считывать только новые или обновленные файлы и применять преобразования перед загрузкой преобразованных данных в нужные целевые наборы.

Убедитесь, что название конвейера и имя действия не изменились, так что контрольная точка всегда может быть записана из последнего запуска для получения изменений. Если изменить имя конвейера или имя действия, контрольная точка будет сброшена, и вы начнете с начала следующего запуска.

При отладке конвейера также работает функция включения отслеживания измененных данных (Предварительная версия) . Имейте в виду, что контрольная точка будет сброшена при обновлении браузера во время выполнения отладки. После того, как вы удовлетворены результатами выполнения отладки, можно опубликовать и запустить конвейер. Оно всегда начинается с начала независимо от предыдущей контрольной точки, записанной при запуске отладки.

В разделе "Мониторинг" всегда есть возможность повторного запуска конвейера. При этом изменения всегда помещаются из записи контрольной точки в выбранном запуске конвейера.

Дальнейшие действия

Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия копирования, приведен в таблице Поддерживаемые хранилища данных и форматы.