Копирование и преобразование данных в Microsoft Fabric Lakehouse с помощью Фабрика данных Azure или Azure Synapse Analytics

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Microsoft Fabric Lakehouse — это платформа архитектуры данных для хранения, управления и анализа структурированных и неструктурированных данных в одном расположении. Чтобы обеспечить простой доступ к данным во всех вычислительных модулях в Microsoft Fabric, перейдите в Lakehouse и Delta Tables , чтобы узнать больше. По умолчанию данные записываются в таблицу Lakehouse в V-Order, и вы можете перейти к оптимизации таблиц Delta Lake и V-Order для получения дополнительных сведений.

В этой статье описывается, как использовать действие Copy для копирования данных из Microsoft Fabric Lakehouse и использования Поток данных для преобразования данных в Microsoft Fabric Lakehouse. Дополнительные сведения см. в вводной статье о Фабрике данных Azure или Azure Synapse Analytics.

Поддерживаемые возможности

Этот соединитель Microsoft Fabric Lakehouse поддерживается для следующих возможностей:

Поддерживаемые возможности IR
Действие копирования (источник/приемник) (1) (2)
Поток данных для сопоставления (источник/приемник) (1)
Действие поиска (1) (2)
Действие получения метаданных в Фабрике данных Azure (1) (2)
Действие удаления (1) (2)

① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции

Начать

Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:

Создание связанной службы Microsoft Fabric Lakehouse с помощью пользовательского интерфейса

Выполните следующие действия, чтобы создать связанную службу Microsoft Fabric Lakehouse в пользовательском интерфейсе портал Azure.

  1. Перейдите на вкладку "Управление" в рабочей области Фабрика данных Azure или Synapse и выберите "Связанные службы", а затем нажмите кнопку "Создать".

  2. Найдите Microsoft Fabric Lakehouse и выберите соединитель.

    Снимок экрана: выбор соединителя Microsoft Fabric Lakehouse.

  3. Настройте сведения о службе, проверьте подключение и создайте связанную службу.

    Снимок экрана: конфигурация связанной службы Microsoft Fabric Lakehouse.

Сведения о конфигурации соединителя

В следующих разделах содержатся сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к Microsoft Fabric Lakehouse.

Свойства связанной службы

Соединитель Microsoft Fabric Lakehouse поддерживает следующие типы проверки подлинности. Дополнительные сведения см. в соответствующих разделах:

Аутентификация субъекта-службы

Чтобы использовать аутентификацию на основе субъекта-службы, выполните следующие действия.

  1. Зарегистрируйте приложение на платформе удостоверений Майкрософт и добавьте секрет клиента. Затем запишите эти значения, которые используются для определения связанной службы:

    • Идентификатор приложения (клиента), который является идентификатором субъекта-службы в связанной службе.
    • Значение секрета клиента, являющееся ключом субъекта-службы в связанной службе.
    • Идентификатор клиента
  2. Предоставьте субъекту-службе по крайней мере роль участника в рабочей области Microsoft Fabric. Выполните следующие действия:

    1. Перейдите в рабочую область Microsoft Fabric, выберите "Управление доступом" на верхней панели. Затем выберите "Добавить людей или группы".

      Снимок экрана: выбор доступа к рабочей области Fabric.

       Снимок экрана: область управления доступом к рабочей области Fabric.

    2. В области "Добавление людей" введите имя субъекта-службы и выберите субъект-службу в раскрывающемся списке.

    3. Укажите роль в качестве участника или более поздней версии (Администратор, член), а затем нажмите кнопку "Добавить".

      Снимок экрана: добавление роли рабочей области Fabric.

    4. Субъект-служба отображается на панели управления доступом .

Приведенные ниже свойства поддерживаются в связанной службе.

Свойство Описание: Обязательное поле
type Свойство type должно иметь значение Lakehouse. Да
workspaceId Идентификатор рабочей области Microsoft Fabric. Да
artifactId Идентификатор объекта Microsoft Fabric Lakehouse. Да
tenant Укажите сведения о клиенте (доменное имя или идентификатор клиента), в котором находится приложение. Эти сведения можно получить, наведя указатель мыши на правый верхний угол страницы портала Azure. Да
servicePrincipalId Укажите идентификатора клиента приложения. Да
servicePrincipalCredentialType Тип учетных данных для использования при проверке подлинности субъекта-службы. Допустимые значения: ServicePrincipalKey и ServicePrincipalCert. Да
servicePrincipalCredential Учетные данные субъекта-службы.
При использовании ServicePrincipalKey в качестве типа учетных данных укажите значение секрета клиента приложения. Присвойте этому полю метку SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault.
При использовании ServicePrincipalCert в качестве учетных данных ссылайтесь на сертификат в Azure Key Vault и убедитесь, что тип контента сертификата — PKCS #12.
Да
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Вы можете использовать среду выполнения интеграции Azure или локальную среду IR (если хранилище данных расположено в частной сети). Если не указано другое, используется среда выполнения интеграции Azure по умолчанию. No

Пример: использование проверки подлинности с помощью ключа субъекта-службы

Вы также можете хранить ключ субъекта-службы в Azure Key Vault.

{
    "name": "MicrosoftFabricLakehouseLinkedService",
    "properties": {
        "type": "Lakehouse",
        "typeProperties": {
            "workspaceId": "<Microsoft Fabric workspace ID>",
            "artifactId": "<Microsoft Fabric Lakehouse object ID>",
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalKey",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<service principal key>"
            }   
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства набора данных

Соединитель Microsoft Fabric Lakehouse поддерживает два типа наборов данных, которые являются набором данных Microsoft Fabric Lakehouse Files и набором данных таблицы Microsoft Fabric Lakehouse. Дополнительные сведения см. в соответствующих разделах.

Полный список разделов и свойств, доступных для определения наборов данных, см. в разделе Наборы данных в фабрике данных Azure.

Набор данных Microsoft Fabric Lakehouse Files

Соединитель Microsoft Fabric Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Следующие свойства поддерживаются в location параметрах в наборе данных Microsoft Fabric Lakehouse Files на основе формата:

Свойство Описание: Обязательное поле
type Свойство type location в наборе данных должно иметь значение LakehouseLocation. Да
folderPath Путь к папке. Если вы хотите использовать подстановочный знак для фильтрации папок, пропустите этот параметр и укажите его в параметрах источника действия. No
fileName Имя файла в заданном пути к папке. Если вы хотите использовать подстановочный знак для фильтрации файлов, пропустите этот параметр и укажите его в параметрах источника действия. No

Пример:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "LakehouseLocation",
                "fileName": "<file name>",
                "folderPath": "<folder name>"
            },
            "columnDelimiter": ",",
            "compressionCodec": "gzip",
            "escapeChar": "\\",
            "firstRowAsHeader": true,
            "quoteChar": "\""
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ]
    }
}

Набор данных таблицы Microsoft Fabric Lakehouse

Следующие свойства поддерживаются для набора данных таблицы Microsoft Fabric Lakehouse:

Свойство Описание: Обязательное поле
type Свойство типа набора данных должно иметь значение LakehouseTable. Да
table Имя таблицы. Да

Пример:

{ 
    "name": "LakehouseTableDataset", 
    "properties": {
        "type": "LakehouseTable",
        "linkedServiceName": { 
            "referenceName": "<Microsoft Fabric Lakehouse linked service name>", 
            "type": "LinkedServiceReference" 
        }, 
        "typeProperties": { 
            "table": "<table_name>"   
        }, 
        "schema": [< physical schema, optional, retrievable during authoring >] 
    } 
}

Свойства действия копирования

Свойства действия копирования для набора данных Microsoft Fabric Lakehouse Files и набора данных таблицы Microsoft Fabric Lakehouse отличаются. Дополнительные сведения см. в соответствующих разделах.

Полный список разделов и свойств, используемых для определения действий, доступен в разделах Действие копирования в фабрике данных Azure и Конвейеры и действия в фабрике данных Azure.

Файлы Microsoft Fabric Lakehouse в действие Copy

Чтобы использовать тип набора данных Microsoft Fabric Lakehouse Files в качестве источника или приемника в действие Copy, перейдите к следующим разделам для подробных конфигураций.

Файлы Microsoft Fabric Lakehouse в качестве исходного типа

Соединитель Microsoft Fabric Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

У вас есть несколько вариантов копирования данных из Microsoft Fabric Lakehouse с помощью набора данных Microsoft Fabric Lakehouse Files:

  • копирование из указанного пути в наборе данных;
  • фильтр с подстановочными знаками для пути к папке или имени файла (см. сведения в разделах wildcardFolderPath и wildcardFileName);
  • копирование набора файлов, определенных в заданном текстовом файле (см. сведения в разделе fileListPath).

Следующие свойства находятся storeSettings в параметрах в источнике копирования на основе формата при использовании набора данных Microsoft Fabric Lakehouse Files:

Свойство Описание: Обязательное поле
type Свойство type в разделе storeSettings должно иметь значение LakehouseRead Параметры. Да
Поиск файлов для копирования
ВАРИАНТ 1. Статический путь
Скопируйте из папки или файла путь, указанный в наборе данных. Если вы хотите скопировать все файлы из папки, дополнительно укажите wildcardFileName со значением *.
ВАРИАНТ 2. Подстановочный знак
- wildcardFolderPath
Путь к папке будет использовать подстановочные знаки для фильтрации исходных папок.
Допустимые подстановочные знаки: * (соответствует нулю или большему количеству знаков) и ? (соответствует нулю или одному знаку). Для экранирования используйте ^, если фактическое имя папки содержит подстановочный знак или escape-символ.
Дополнительные примеры приведены в разделе Примеры фильтров папок и файлов.
No
ВАРИАНТ 2. Подстановочный знак
— wildcardFileName
Имя файла с подстановочными знаками в заданном контейнере и folderPath/wildcardFolderPath для фильтрации исходных папок.
Допустимые подстановочные знаки: * (соответствует нулю или большему количеству знаков) и ? (соответствует нулю или одному знаку). Для экранирования используйте ^, если фактическое имя файла содержит подстановочный знак или escape-символ. Дополнительные примеры приведены в разделе Примеры фильтров папок и файлов.
Да
Вариант 3. Список файлов
- fileListPath
Указывает, что нужно скопировать заданный набор файлов. Укажите текстовый файл со списком файлов, которые необходимо скопировать, по одному файлу в строке (каждая строка должна содержать относительный путь к заданному в наборе данных пути).
При использовании этого параметра не указывайте имя файла в наборе данных. Ознакомьтесь с дополнительными примерами в разделе Примеры списков файлов.
No
Дополнительные параметры:
recursive Указывает, следует ли читать данные рекурсивно из вложенных папок или только из указанной папки. Если для свойства recursive задано значение true, а приемником является файловое хранилище, то пустые папки и вложенные папки в приемнике не создаются.
Допустимые значения: true (по умолчанию) и false.
Это свойство не применяется при настройке fileListPath.
No
deleteFilesAfterCompletion Указывает, удаляются ли двоичные файлы из исходного хранилища после успешного перемещения в конечное хранилище. Удаление файла выполняется для каждого файла, поэтому при сбое действия копирования некоторые файлы уже скопированы в место назначения и удалены из источника, а другие по-прежнему остаются в исходном хранилище.
Это свойство допустимо только в сценарии копирования двоичных файлов. По умолчанию имеет значение false.
No
modifiedDatetimeStart Фильтр файлов на основе атрибута: Last Modified.
Будут выбраны все файлы, у которых время последнего изменения больше или равно modifiedDatetimeStart и меньше modifiedDatetimeEnd. Время представлено часовым поясом UTC в формате "2018-12-01T05:00:00Z".
Свойства могут иметь значение NULL. Это означает, что фильтры атрибута файла не применяются к набору данных. Если для параметра modifiedDatetimeStart задано значение даты и времени, но параметр modifiedDatetimeEnd имеет значение NULL, то будут выбраны файлы, чей атрибут последнего изменения больше указанного значения даты и времени или равен ему. Если для параметра modifiedDatetimeEnd задано значение даты и времени, но параметр modifiedDatetimeStart имеет значение NULL, то будут выбраны все файлы, чей атрибут последнего изменения меньше указанного значения даты и времени.
Это свойство не применяется при настройке fileListPath.
No
modifiedDatetimeEnd То же, что выше. No
enablePartitionDiscovery Для файлов, секционированных, укажите, следует ли анализировать секции из пути к файлу и добавлять их в качестве других исходных столбцов.
Допустимые значения: false (по умолчанию) и true.
No
partitionRootPath Если обнаружение секций включено, укажите абсолютный корневой путь, чтобы считывать секционированные папки как столбцы данных.

Если он не указан, по умолчанию
— При использовании пути к файлу в наборе данных или списке файлов в источнике корневым путем секции считается путь, настроенный в наборе данных.
— При использовании фильтра папок дикого карта корневой путь секции является подпатом перед первым диким карта.

Предположим, что вы настроили путь в наборе данных следующим образом: "root/folder/year=2020/month=08/day=27".
— Если указать корневой путь секции как "root/folder/year=2020", действие копирования создает еще два столбца month и day значение "08" и "27" соответственно, в дополнение к столбцам внутри файлов.
— Если корневой путь секции не указан, дополнительный столбец не создается.
No
maxConcurrentConnections Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. No

Пример:

"activities": [
    {
        "name": "CopyFromLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "storeSettings": {
                    "type": "LakehouseReadSettings",
                    "recursive": true,
                    "enablePartitionDiscovery": false
                },
                "formatSettings": {
                    "type": "DelimitedTextReadSettings"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Файлы Microsoft Fabric Lakehouse в качестве типа приемника

Соединитель Microsoft Fabric Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Следующие свойства находятся storeSettings в параметрах приемника копирования на основе формата при использовании набора данных Microsoft Fabric Lakehouse Files:

Свойство Описание: Обязательное поле
type Свойство type в разделе storeSettings должно иметь значение LakehouseWrite Параметры. Да
copyBehavior Определяет поведение копирования, когда источником являются файлы из файлового хранилища данных.

Допустимые значения:
— PreserveHierarchy (по умолчанию). Сохраняет иерархию файлов в целевой папке. Относительный путь исходного файла в исходной папке идентичен относительному пути целевого файла в целевой папке.
— FlattenHierarchy. Все файлы из исходной папки размещаются на первом уровне в целевой папке. Целевые файлы имеют автоматически сформированные имена.
— MergeFiles. Объединяет все файлы из исходной папки в один файл. Если указано имя файла, то оно присваивается объединенному файлу. В противном случае присваивается автоматически созданное имя файла.
No
blockSizeInMB Укажите размер блока в МБ, используемый для записи данных в Microsoft Fabric Lakehouse. Узнайте больше о блочных BLOB-объектaх.
Допустимое значение — от 4 до 100 МБ.
По умолчанию ADF автоматически определяет размер блока на основе типа и данных исходного хранилища. Для небинарного копирования в Microsoft Fabric Lakehouse размер блока по умолчанию составляет 100 МБ так, чтобы вместиться в не более чем 4,75-ТБ данных. Это может быть неоптимальным, если данные не большие, особенно если вы используете локальную среду выполнения интеграции с плохой сетью, что приводит к истечению времени ожидания операции или проблем с производительностью. Вы можете явно указать размер блока, в то время как убедитесь, что blockSizeIn МБ*50000 достаточно велик для хранения данных, в противном случае выполнение действия копирования завершается сбоем.
No
maxConcurrentConnections Верхний предел одновременных подключений, установленных для хранилища данных при выполнении действия. Указывайте значение только при необходимости ограничить количество одновременных подключений. No
metadata Задайте пользовательские метаданные при копировании в приемник. Каждый объект в массиве metadata представляет дополнительный столбец. name определяет имя ключа метаданных, а value указывает значение данных этого ключа. Если используется функция сохранения атрибутов, указанные метаданные будут объединены с метаданными исходного файла или перезаписаны ими.

Допустимые значения:
- $$LASTMODIFIED: зарезервированная переменная указывает на сохранение времени последнего изменения исходных файлов. Она применяется к файловому источнику, который может быть только в двоичном формате.
Выражение
- Статическое значение
No

Пример:

"activities": [
    {
        "name": "CopyToLakehouseFiles",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings": {
                    "type": "LakehouseWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        }
                    ]
                },
                "formatSettings": {
                    "type": "ParquetWriteSettings"
                }
            }
        }
    }
]

Примеры фильтров папок и файлов

В этом разделе описываются результаты применения фильтров с подстановочными знаками к пути папки и имени файла.

folderPath fileName recursive Структура исходной папки и результат фильтрации (извлекаются файлы, выделенные полужирным шрифтом)
Folder* (Пусто, используйте значение по умолчанию) false ПапкаA
    Файл1.csv
    File2.json
    Вложенная_папка1
        File3.csv
        File4.json
        File5.csv
Другая_папкаB
    Файл6.csv
Folder* (Пусто, используйте значение по умолчанию) true ПапкаA
    Файл1.csv
    File2.json
    Вложенная_папка1
        File3.csv
        File4.json
        File5.csv
Другая_папкаB
    Файл6.csv
Folder* *.csv false ПапкаA
    Файл1.csv
    File2.json
    Вложенная_папка1
        File3.csv
        File4.json
        File5.csv
Другая_папкаB
    Файл6.csv
Folder* *.csv true ПапкаA
    Файл1.csv
    File2.json
    Вложенная_папка1
        File3.csv
        File4.json
        File5.csv
Другая_папкаB
    Файл6.csv

Примеры списков файлов

В этом разделе описывается поведение, возникающее при указании пути к списку файлов в качестве источника для действия копирования.

Предположим, что у вас есть следующая исходная структура папок и вы хотите скопировать файлы, выделенные полужирным шрифтом:

Пример исходной структуры Содержимое файла FileListToCopy.txt Конфигурация ADF
filesystem
    ПапкаA
        Файл1.csv
        File2.json
        Вложенная_папка1
            File3.csv
            File4.json
            File5.csv
    Метаданные
        FileListToCopy.txt
Файл1.csv
Вложенная_папка1/Файл3.csv
Вложенная_папка1/Файл5.csv
В наборе данных:
– Путь к папке: FolderA

В источнике действия копирования:
– Путь к списку файлов: Metadata/FileListToCopy.txt

Путь к списку файлов указывает на текстовый файл в том же хранилище данных, содержащий список файлов, которые необходимо скопировать, указав по одному файлу в строке с относительным путем к пути, заданному в наборе данных.

Некоторые примеры recursive и copyBehavior

В данном разделе описываются результаты выполнения операции копирования при использовании различных сочетаний значений recursive и copyBehavior.

recursive copyBehavior Структура папок источника Результаты цели
true preserveHierarchy Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая "Папка1" создается с такой же структурой, как и исходная папка:

Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
true flattenHierarchy Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка1 создается со следующей структурой:

Папка1
    автоматически созданное имя для "Файл1"
    автоматически созданное имя для "Файл2"
    автоматически созданное имя для "Файл3"
    автоматически созданное имя для "Файл4"
    автоматически созданное имя для "Файл5"
true mergeFiles Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка1 создается со следующей структурой:

Папка1
    Содержимое файлов "Файл1", "Файл2", "Файл3", "Файл4" и "Файл5" объединяется в один файл с автоматически созданным именем.
false preserveHierarchy Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка1 создается со следующей структурой:

Папка1
    Файл1
    Файл2

Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку.
false flattenHierarchy Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка1 создается со следующей структурой:

Папка1
    автоматически созданное имя для "Файл1"
    автоматически созданное имя для "Файл2"

Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку.
false mergeFiles Папка1
    Файл1
    Файл2
    Вложенная_папка1
        Файл3
        Файл4
        Файл5
Целевая папка1 создается со следующей структурой:

Папка1
    Содержимое файлов "Файл1" и "Файл2" объединяется в один файл с автоматически созданным именем. автоматически созданное имя для "Файл1"

Папка "Вложенная_папка1" с файлами "Файл3", "Файл4" и "Файл5" не будет включена в эту папку.

Таблица Microsoft Fabric Lakehouse в действие Copy

Чтобы использовать набор данных Таблицы Microsoft Fabric Lakehouse в качестве источника или приемника в действие Copy, перейдите к следующим разделам для подробных конфигураций.

Таблица Microsoft Fabric Lakehouse в качестве исходного типа

Чтобы скопировать данные из Microsoft Fabric Lakehouse с помощью набора данных таблицы Microsoft Fabric Lakehouse, задайте свойство типа в источнике действие Copy в LakehouseTableSource. Следующие свойства поддерживаются в разделе источника действие Copy:

Свойство Описание: Обязательное поле
type Свойство type источника действия копирования должно иметь значение LakehouseTableSource. Да
timestampAsOf Метка времени для запроса старого моментального снимка. No
versionAsOf Версия для запроса старого моментального снимка. No

Пример:

"activities":[
    {
        "name": "CopyFromLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "LakehouseTableSource",
                "timestampAsOf": "2023-09-23T00:00:00.000Z",
                "versionAsOf": 2
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Таблица Microsoft Fabric Lakehouse в качестве типа приемника

Чтобы скопировать данные в Microsoft Fabric Lakehouse с помощью набора данных таблицы Microsoft Fabric Lakehouse, задайте для свойства type в приемнике действия копирования значение LakehouseTableSink. Следующие свойства поддерживаются в разделе приемника действие Copy:

Свойство Описание: Обязательное поле
type Свойство type источника действия копирования должно иметь значение LakehouseTableSink. Да

Примечание.

Данные записываются в таблицу Lakehouse в V-Order по умолчанию. Дополнительные сведения см. в описании оптимизации таблиц Delta Lake и V-Order.

Пример:

"activities":[
    {
        "name": "CopyToLakehouseTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Microsoft Fabric Lakehouse Table output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "LakehouseTableSink",
                "tableActionOption ": "Append"
            }
        }
    }
]

Свойства потока данных для сопоставления

При преобразовании данных в потоке данных сопоставления можно читать и записывать в файлы или таблицы в Microsoft Fabric Lakehouse. Дополнительные сведения см. в соответствующих разделах.

Дополнительные сведения см. в описаниях преобразования источника и преобразования приемника в разделе, посвященном потокам данных для сопоставления.

Файлы Microsoft Fabric Lakehouse в потоке данных сопоставления

Чтобы использовать набор данных Microsoft Fabric Lakehouse Files в качестве источника или приемника в потоке данных сопоставления, перейдите к следующим разделам для подробных конфигураций.

Файлы Microsoft Fabric Lakehouse в качестве источника или приемника

Соединитель Microsoft Fabric Lakehouse поддерживает следующие форматы файлов. Дополнительные сведения о параметрах с учетом форматирования см. в соответствующих статьях.

Чтобы использовать соединитель на основе файлов Fabric Lakehouse в встроенном типе набора данных, необходимо выбрать правильный тип встроенного набора данных для данных. Вы можете использовать РазделителиText, Avro, JSON, ORC или Parquet в зависимости от формата данных.

Таблица Microsoft Fabric Lakehouse в потоке данных сопоставления

Чтобы использовать набор данных таблицы Microsoft Fabric Lakehouse в качестве источника или приемника в потоке данных сопоставления, перейдите к следующим разделам для подробных конфигураций.

Таблица Microsoft Fabric Lakehouse в качестве исходного типа

Настраиваемые свойства в параметрах источника отсутствуют.

Примечание.

Поддержка CDC для источника таблиц Lakehouse в настоящее время недоступна.

Таблица Microsoft Fabric Lakehouse в качестве типа приемника

Следующие свойства поддерживаются в разделе приемника сопоставления Поток данных s:

Имя Описание Обязательное поле Допустимые значения Свойство скрипта для потока данных
Метод обновления При нажатии кнопки "Разрешить вставку" отдельно или при записи в новую разностную таблицу целевой объект получает все входящие строки независимо от набора политик строк. Если данные содержат строки других политик строк, их необходимо исключить с помощью предыдущего преобразования фильтра.

При выборе всех методов обновления выполняется слияние, где строки вставляются, удаляются или обновляются в соответствии с набором политик строк, используя предыдущее преобразование Alter Row.
yes true или false Вставляемый
deletable
upsertable
updateable
Оптимизированная запись Повышение пропускной способности для операции записи с помощью оптимизации внутреннего случайного перемешивания в исполнителях Spark. В результате вы можете заметить меньше секций и файлов, которые имеют больший размер no true или false optimizedWrite: true
Автоматическое сжатие После завершения любой операции записи Spark автоматически выполнит OPTIMIZE команду для реорганизации данных, что приведет к дополнительным секциям при необходимости для повышения производительности чтения в будущем. no true или false autoCompact: true
Схема слияния Параметр схемы слияния позволяет эволюции схемы, то есть любые столбцы, которые присутствуют в текущем входящего потока, но не в целевой таблице Delta, автоматически добавляются в ее схему. Этот параметр поддерживается во всех методах обновления. no true или false mergeSchema: true

Пример: приемник таблицы Microsoft Fabric Lakehouse

sink(allowSchemaDrift: true, 
    validateSchema: false, 
    input( 
        CustomerID as string,
        NameStyle as string, 
        Title as string, 
        FirstName as string, 
        MiddleName as string,
        LastName as string, 
        Suffix as string, 
        CompanyName as string,
        SalesPerson as string, 
        EmailAddress as string, 
        Phone as string, 
        PasswordHash as string, 
        PasswordSalt as string, 
        rowguid as string, 
        ModifiedDate as string 
    ), 
    deletable:false, 
    insertable:true, 
    updateable:false, 
    upsertable:false, 
    optimizedWrite: true, 
    mergeSchema: true, 
    autoCompact: true, 
    skipDuplicateMapInputs: true, 
    skipDuplicateMapOutputs: true) ~> CustomerTable

Для соединителя на основе таблиц Fabric Lakehouse в встроенном типе набора данных необходимо использовать только разностный тип набора данных. Это позволит считывать и записывать данные из таблиц Fabric Lakehouse.

Свойства действия поиска

Подробные сведения об этих свойствах см. в разделе Действие поиска.

Свойства действия GetMetadata

Подробные сведения об этих свойствах см. в статье Действие GetMetadata.

Свойства действия удаления

Подробные сведения об этих свойствах см. в статье Действие удаления.

Список хранилищ данных, поддерживаемых в рамках функции копирования в качестве источников и приемников, см. в разделе Поддерживаемые хранилища данных.