Copia de datos de tabla web con Azure Data Factory o Synapse Analytics

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. ¡Obtenga más información sobre cómo iniciar una nueva evaluación gratuita!

En este artículo se describe el uso de la actividad de copia en una canalización de Azure Data Factory o Synapse Analytics para copiar datos de tabla web. El documento se basa en el artículo de introducción a la actividad de copia que describe información general de la actividad de copia.

Las diferencias entre este conector de tabla web, el conector REST y el conector HTTP son:

  • El conector de tabla web extrae contenido de la tabla de una página web HTML.
  • El conector REST admite específicamente la copia de datos desde API RESTful.
  • El conector HTTP es genérico y puede recuperar datos desde cualquier punto de conexión HTTP, por ejemplo, para descargar archivos.

Funcionalidades admitidas

Este conector de tabla web es compatible con las funcionalidades siguientes:

Funcionalidades admitidas IR
Actividad de copia (origen/-) 6
Actividad de búsqueda 6

① Azure Integration Runtime ② Entorno de ejecución de integración autohospedado

Para obtener una lista de los almacenes de datos que se admiten como orígenes y receptores, consulte la tabla de almacenes de datos admitidos.

En concreto, este conector de tabla web permite extraer contenido de tablas de una página HTML.

Prerrequisitos

Para usar este conector de tabla web, tiene que configurar una instancia de Integration Runtime autohospedada. Consulte el artículo sobre Integration Runtime autohospedado para más información.

Introducción

Para realizar la actividad de copia con una canalización, puede usar una de los siguientes herramientas o SDK:

Creación de un servicio vinculado a una Web Table mediante la interfaz de usuario

Siga estos pasos para crear un servicio vinculado a Web Table en la interfaz de usuario de Azure Portal.

  1. Vaya a la pestaña Administrar del área de trabajo de Azure Data Factory o Synapse y seleccione Servicios vinculados; luego haga clic en Nuevo:

  2. Busque Web y seleccione el conector de Web Table.

    Select the Web Table connector.

  3. Configure los detalles del servicio, pruebe la conexión y cree el nuevo servicio vinculado.

    Configure a linked service to Web Table.

Detalles de configuración del conector

Las secciones siguientes proporcionan detalles sobre las propiedades que se usan para definir entidades de Data Factory específicas del conector de tabla web.

Propiedades del servicio vinculado

Las siguientes propiedades son compatibles con el servicio vinculado de tabla web:

Propiedad Descripción Obligatorio
type La propiedad type debe establecerse en: Web
url Dirección URL para el origen de Web
authenticationType El valor permitido es: Anonymous.
connectVia El entorno Integration Runtime que se usará para conectarse al almacén de datos. Tal y como se mencionó en los requisitos previos, se requiere un entorno Integration Runtime autohospedado.

Ejemplo:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Propiedades del conjunto de datos

Si desea ver una lista completa de las secciones y propiedades disponibles para definir conjuntos de datos, consulte el artículo sobre conjuntos de datos. En esta sección se proporciona una lista de las propiedades que admite el conjunto de datos de tabla web.

Para copiar datos desde una tabla web, establezca la propiedad type del conjunto de datos en WebTable. Se admiten las siguientes propiedades:

Propiedad Descripción Obligatorio
type La propiedad type del conjunto de datos debe establecerse en: WebTable
path Dirección URL relativa al recurso que contiene la tabla. No. Cuando no se especifica la ruta de acceso, se solo se usa la dirección URL especificada en la definición de servicio vinculado.
índice Índice de la tabla en el recurso. Consulte la sección Obtención de índice de una tabla en una página HTML para saber los pasos necesarios para obtener el índice de una tabla en una página HTML.

Ejemplo:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Propiedades de la actividad de copia

Si desea ver una lista completa de las secciones y propiedades disponibles para definir actividades, consulte el artículo sobre canalizaciones. En esta sección se proporciona una lista de las propiedades que admite el origen de datos de tabla web.

Tabla web como origen

Para copiar datos desde una tabla web, establezca el tipo de origen de la actividad de copia en WebSource. No se admite ninguna otra propiedad.

Ejemplo:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Obtención de índice de una tabla en una página HTML

Para obtener el índice de una tabla que necesita configurar en propiedades del conjunto de datos , puede utilizar, por ejemplo, Excel 2016 como herramienta, como se indica a continuación:

  1. Inicie Excel 2016 y cambie a la pestaña Datos.

  2. Haga clic en Nueva consulta en la barra de herramientas, elija De otros orígenes y haga clic en Desde Web.

    Power Query menu

  3. En el cuadro de diálogo Desde Web, escriba la dirección URL que usaría en el objeto JSON del servicio vinculado (por ejemplo: https://en.wikipedia.org/wiki/) junto con la ruta de acceso que especificaría para el conjunto de datos (por ejemplo: AFI%27s_100_Years...100_Movies) y haga clic en Aceptar.

    From Web dialog

    Dirección URL que se usa en este ejemplo: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Si ve el cuadro de diálogo Acceso a contenido web, seleccione la dirección URL correcta, la autenticación y haga clic en Conectar.

    Access Web content dialog box

  5. Haga clic en un elemento de tabla en la vista de árbol para ver el contenido de la tabla y después en el botón Editar ubicado en la parte inferior.

    Navigator dialog

  6. En la ventana Editor de consultas, haga clic en el botón Editor avanzado de la barra de herramientas.

    Advanced Editor button

  7. En el cuadro de diálogo Editor avanzado, el número que aparece junto a "Origen" es el índice.

    Advanced Editor - Index

Si usa Excel 2013, use Microsoft Power Query para Excel para obtener el índice. Consulte el artículo Conectarse a una página web para más información. Los pasos son similares si usa Microsoft Power BI Desktop.

Propiedades de la actividad de búsqueda

Para obtener información detallada sobre las propiedades, consulte Actividad de búsqueda.

Para obtener una lista de almacenes de datos que la actividad de copia admite como orígenes y receptores, vea Almacenes de datos que se admiten.