Копирование данных из веб-таблицы с помощью Фабрики данных Azure или Synapse Analytics

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье описывается, как с помощью действия копирования в конвейере Фабрики данных Azure или Azure Synapse Analytics копировать данные из базы данных веб-таблиц. Это продолжение статьи об обзоре действия копирования, в которой представлены общие сведения о действии копирования.

Далее приводятся различия между соединителем веб-таблиц, соединителем REST и соединителем HTTP.

  • Соединитель веб-таблиц извлекает содержимое таблицы со страницы HTML.
  • Соединитель REST предназначен для поддержки копирования данных из RESTful API.
  • Соединитель HTTP применяется для извлечения данных из любой конечной точки HTTP, например для скачивания файла.

Поддерживаемые возможности

Соединитель веб-таблиц поддерживается для перечисленных ниже возможностей.

Поддерживаемые возможности IR
Действие копирования (источник/-)
Действие поиска

① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции

Список хранилищ данных, которые поддерживаются в качестве источников/приемников, см. в таблице Поддерживаемые хранилища данных.

Сейчас этот соединитель веб-таблиц поддерживает только извлечение содержимого таблицы из HTML-страницы.

Необходимые компоненты

Для использования этого соединителя веб-таблиц нужно настроить локальную среду выполнения интеграции. Дополнительные сведения см. в статье Создание и настройка локальной среды выполнения интеграции.

Начало работы

Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:

Создание связанной службы для Web Table с помощью пользовательского интерфейса

Выполните следующие действия, чтобы создать связанную службу для Web Table с помощью пользовательского интерфейса на портале Azure.

  1. Перейдите на вкладку "Управление" в рабочей области Фабрики данных Azure или Synapse и выберите "Связанные службы", после чего нажмите "Создать":

  2. Выполните поиск по запросу Web и выберите соединитель Web Table.

    Select the Web Table connector.

  3. Настройте сведения о службе, проверьте подключение и создайте связанную службу.

    Configure a linked service to Web Table.

Сведения о конфигурации соединителя

Следующие разделы содержат сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к соединителю веб-таблиц.

Свойства связанной службы

Для связанной службы веб-таблиц поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
type Для свойства type необходимо задать значение Web Да
URL-адрес URL-адрес источника Web Да
authenticationType Допустимое значение: Anonymous. Да
connectVia Среда выполнения интеграции, используемая для подключения к хранилищу данных. Требуется локальная среда IR, как упоминалось в разделе Предварительные требования. Да

Пример:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Свойства набора данных

Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. Этот раздел содержит список свойств, поддерживаемых набором данных веб-таблиц.

Чтобы скопировать данные из веб-таблиц, задайте для свойства type набора данных значение WebTable. Поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
type Свойство type для набора данных должно иметь значение WebTable. Да
path Относительный URL-адрес ресурса, который содержит таблицу. № Если путь не задан, используется только URL-адрес, указанный в определении связанной службы.
index Индекс таблицы в ресурсе. Дополнительные сведения см. в разделе Получение индекса таблицы на HTML-странице. Да

Пример:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Свойства действия копирования

Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры и действия в фабрике данных Azure. Этот раздел содержит список свойств, поддерживаемых веб-таблицами в качестве источника.

Веб-таблицы в качестве источника

Чтобы скопировать данные из веб-таблицы, задайте тип источника WebSource в действии копирования, дополнительные свойства не поддерживаются.

Пример:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Получение индекса таблицы на HTML-странице

Для получения индекса таблицы, которую необходимо настроить в свойствах набора данных, можно использовать, например, Excel 2016:

  1. Запустите Excel 2016 и перейдите на вкладку Данные.

  2. На панели инструментов щелкните Создать запрос, выберите Из других источников и щелкните Из Интернета.

    Power Query menu

  3. В диалоговом окне Из Интернета введите URL-адрес, который будет использоваться в JSON связанной службы (например, https://en.wikipedia.org/wiki/), вместе с указанным для набора данных путем (например, AFI%27s_100_Years…100_Movies), а затем нажмите кнопку ОК.

    From Web dialog

    В этом примере используется URL-адрес https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies.

  4. Если отображается диалоговое окно Доступ к веб-содержимому, выберите соответствующий URL-адрес и тип аутентификации, а затем нажмите кнопку Подключить.

    Access Web content dialog box

  5. В представлении дерева щелкните элемент table, чтобы просмотреть содержимое таблицы, а затем в нижней части экрана нажмите кнопку Изменить.

    Navigator dialog

  6. В окне Редактор запросов на панели инструментов нажмите кнопку Расширенный редактор.

    Advanced Editor button

  7. В диалоговом окне "Расширенный редактор" число, отображаемое рядом с полем "Источник", является индексом.

    Advanced Editor - Index

Если вы работаете с Excel 2013, используйте Microsoft Power Query для Excel, чтобы получить индекс. Дополнительные сведения см. в статье Подключение к веб-странице. Точно так же можно использовать Microsoft Power BI Desktop.

Свойства действия поиска

Подробные сведения об этих свойствах см. в разделе Действие поиска.

Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия Copy, приведен в таблице Поддерживаемые хранилища данных и форматы.