Copiar dados da tabela da Web usando o Azure Data FactoryCopy data from Web table by using Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Este artigo descreve como usar a atividade de cópia no Azure Data Factory para copiar dados de um banco de dados de tabela da Web.This article outlines how to use the Copy Activity in Azure Data Factory to copy data from a Web table database. Ele amplia o artigo Visão geral da atividade de cópia que apresenta uma visão geral da atividade de cópia.It builds on the copy activity overview article that presents a general overview of copy activity.

A diferença entre esse conector de tabela da Web, o conector REST e o conector HTTP é:The difference among this Web table connector, the REST connector and the HTTP connector are:

  • O conector da tabela da Web extrai o conteúdo da tabela de uma página da Web em HTML.Web table connector extracts table content from an HTML webpage.
  • O conector REST especificamente dá suporte à cópia de dados de APIs RESTful.REST connector specifically support copying data from RESTful APIs.
  • O conector HTTP é genérico para recuperar dados de qualquer ponto de extremidade HTTP, por exemplo, para baixar o arquivo.HTTP connector is generic to retrieve data from any HTTP endpoint, e.g. to download file.

Funcionalidades com suporteSupported capabilities

Este conector de tabela da Web tem suporte para as seguintes atividades:This Web table connector is supported for the following activities:

Você pode copiar dados de um banco de dados de tabela da Web para qualquer armazenamento de dados de coletor com suporte.You can copy data from Web table database to any supported sink data store. Para obter uma lista de armazenamentos de dados com suporte como origens/coletores da atividade de cópia, confira a tabela Armazenamentos de dados com suporte.For a list of data stores that are supported as sources/sinks by the copy activity, see the Supported data stores table.

Especificamente, esse conector de tabela da Web dá suporte à extração de conteúdo de tabela de uma página HTML.Specifically, this Web table connector supports extracting table content from an HTML page.

Pré-requisitosPrerequisites

Para usar este conector de tabela da Web, você precisa configurar um runtime de integração auto-hospedada.To use this Web table connector, you need to set up a Self-hosted Integration Runtime. Confira o artigo de Integration Runtime auto-hospedado para obter detalhes.See Self-hosted Integration Runtime article for details.

IntroduçãoGetting started

Para executar a atividade de Cópia com um pipeline, será possível usar as ferramentas ou os SDKs abaixo:To perform the Copy activity with a pipeline, you can use one of the following tools or SDKs:

As seções que a seguir fornecem detalhes sobre as propriedades usadas para definir entidades do Data Factory específicas à tabela da Web.The following sections provide details about properties that are used to define Data Factory entities specific to Web table connector.

Propriedades do serviço vinculadoLinked service properties

As propriedades a seguir têm suporte para o serviço vinculado de tabela da Web:The following properties are supported for Web table linked service:

PropriedadeProperty DescriçãoDescription ObrigatórioRequired
typetype A propriedade type deve ser definida como: WebThe type property must be set to: Web SimYes
urlurl URL para a origem da WebURL to the Web source SimYes
authenticationTypeauthenticationType O valor permitido é: Anônimo.Allowed value is: Anonymous. SimYes
connectViaconnectVia O Integration Runtime a ser usado para se conectar ao armazenamento de dados.The Integration Runtime to be used to connect to the data store. É necessário um Integration Runtime auto-hospedado, conforme mencionado nos Pré-requisitos.A Self-hosted Integration Runtime is required as mentioned in Prerequisites. SimYes

Exemplo:Example:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propriedades do conjunto de dadosDataset properties

Para obter uma lista completa das seções e propriedades disponíveis para definir os conjuntos de dados, confira o artigo sobre conjuntos de dados.For a full list of sections and properties available for defining datasets, see the datasets article. Esta seção fornece uma lista das propriedades com suporte pelo conjunto de dados da tabela da Web.This section provides a list of properties supported by Web table dataset.

Para copiar dados da tabela web, defina a propriedade type do conjunto de dados como WebTable.To copy data from Web table, set the type property of the dataset to WebTable. Há suporte para as seguintes propriedades:The following properties are supported:

PropriedadeProperty DescriçãoDescription ObrigatórioRequired
typetype A propriedade type do conjunto de dados deve ser definida como: WebTableThe type property of the dataset must be set to: WebTable SimYes
caminhopath Uma URL relativa para o recurso que contém a tabela.A relative URL to the resource that contains the table. Não.No. Quando o caminho não for especificado, apenas a URL especificada na definição do serviço vinculado será usada.When path is not specified, only the URL specified in the linked service definition is used.
índiceindex O índice da tabela no recurso.The index of the table in the resource. Confira a seção Obter índice de uma tabela em uma página HTML a fim de ver as etapas para obter o índice de uma tabela em uma página HTML.See Get index of a table in an HTML page section for steps to getting index of a table in an HTML page. SimYes

Exemplo:Example:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Propriedades da atividade de cópiaCopy activity properties

Para obter uma lista completa das seções e propriedades disponíveis para definir atividades, confia o artigo Pipelines.For a full list of sections and properties available for defining activities, see the Pipelines article. Esta seção fornece uma lista das propriedades com suporte pela origem da tabela da Web.This section provides a list of properties supported by Web table source.

Tabela da Web como origemWeb table as source

Para copiar dados da tabela da Web, defina o tipo de origem na atividade de cópia como WebSource, não há suporte para nenhuma propriedade adicional.To copy data from Web table, set the source type in the copy activity to WebSource, no additional properties are supported.

Exemplo:Example:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Obter índice de uma tabela em uma página HTMLGet index of a table in an HTML page

Para obter o índice de uma tabela que você precisa configurar em propriedades do conjunto de dados é possível usar, por exemplo, Excel 2016 como a ferramenta conforme a seguir:To get the index of a table which you need to configure in dataset properties, you can use e.g. Excel 2016 as the tool as follows:

  1. Inicie o Excel 2016 e alterne para a guia Dados.Launch Excel 2016 and switch to the Data tab.

  2. Clique em Nova Consulta na barra de ferramentas, aponte para De Outras Fontes e clique em Da Web.Click New Query on the toolbar, point to From Other Sources and click From Web.

    Menu do Power Query

  3. Na caixa de diálogo Da Web, insira a URL que você usaria no JSON de serviço vinculado (por exemplo: https://en.wikipedia.org/wiki/)) juntamente com o caminho que você especificaria para o conjunto de dados (por exemplo: AFI 27s_100_Years de %... 100_Movies) e clique em OK.In the From Web dialog box, enter URL that you would use in linked service JSON (for example: https://en.wikipedia.org/wiki/) along with path you would specify for the dataset (for example: AFI%27s_100_Years...100_Movies), and click OK.

    Do diálogo da Web

    URL usada neste exemplo: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_MoviesURL used in this example: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Se você vir a caixa de diálogo Acessar conteúdo da Web, selecione a autenticação de URL correta e clique em Conectar.If you see Access Web content dialog box, select the right URL, authentication, and click Connect.

    Acessar caixa de diálogo de conteúdo da Web

  5. Clique em um item de tabela na exibição de árvore para ver o conteúdo da tabela e clique em Editar na parte inferior.Click a table item in the tree view to see content from the table and then click Edit button at the bottom.

    Diálogo de navegador

  6. Na janela Editor de Consultas, clique no botão Editor Avançado na barra de ferramentas.In the Query Editor window, click Advanced Editor button on the toolbar.

    Botão Editor Avançado

  7. Na caixa de diálogo Editor Avançado, o número ao lado de "Origem" é o índice.In the Advanced Editor dialog box, the number next to "Source" is the index.

    Editor Avançado – índice

Se você estiver usando o Excel 2013, use o Microsoft Power Query para Excel a fim de obter o índice.If you are using Excel 2013, use Microsoft Power Query for Excel to get the index. Confira o artigo Conectar-se a uma página da Web para obter detalhes.See Connect to a web page article for details. As etapas são semelhantes se você estiver usando o Microsoft Power BI para Desktop.The steps are similar if you are using Microsoft Power BI for Desktop.

Pesquisar propriedades de atividadeLookup activity properties

Para saber detalhes sobre as propriedades, verifique Pesquisar atividade.To learn details about the properties, check Lookup activity.

Próximas etapasNext steps

Para obter uma lista de armazenamentos de dados com suporte como origens e coletores pela atividade de cópia no Azure Data Factory, consulte Armazenamentos de dados com suporte.For a list of data stores supported as sources and sinks by the copy activity in Azure Data Factory, see supported data stores.