Copiare dati da Tabella Web usando Azure Data Factory

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Questo articolo illustra come usare l'attività di copia in Azure Data Factory per copiare dati da un database Tabella Web. Si basa sull'articolo di panoramica dell'attività di copia che presenta una panoramica generale sull'attività di copia.

La differenza tra questo connettore Tabella Web, il connettore REST e il connettore HTTP è la seguente:

  • Il connettore Tabella Web estrae il contenuto della tabella da una pagina Web HTML.
  • Il connettore REST supporta in modo specifico la copia di dati dalle API RESTful.
  • Il connettore HTTP è un connettore generico per recuperare i dati da qualsiasi endpoint HTTP, ad esempio per scaricare file.

Funzionalità supportate

Questo connettore di tabelle Web è supportato per le attività seguenti:

È possibile copiare dati da un database Tabella Web in qualsiasi archivio dati di sink supportato. Per un elenco degli archivi dati supportati come origini/sink dall'attività di copia, vedere la tabella relativa agli archivi dati supportati.

In particolare, il connettore Tabella Web supporta l'estrazione del contenuto di una tabella da una pagina HTML.

Prerequisiti

Per usare questo connettore di tabelle Web, è necessario impostare un runtime di integrazione self-hosted. Per informazioni dettagliate, vedere Integration Runtime self-hosted.

Guida introduttiva

Per eseguire l'attività di copia con una pipeline, è possibile usare uno degli strumenti o SDK seguenti:

Le sezioni seguenti riportano informazioni dettagliate sulle proprietà che vengono usate per definire entità di Data Factory specifiche per il connettore Tabella Web.

Proprietà del servizio collegato

Per il servizio collegato di Tabella Web sono supportate le proprietà seguenti:

Proprietà Descrizione Obbligatoria
type La proprietà type deve essere impostata su: Web
url URL dell'origine Web
authenticationType Il valore consentito è: Anonima.
connectVia Il runtime di integrazione da usare per la connessione all'archivio dati. È necessario un runtime di integrazione self-hosted come indicato in Prerequisiti.

Esempio:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Proprietà del set di dati

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione di set di dati, vedere l'articolo sui set di dati. Questa sezione presenta un elenco delle proprietà supportate dal set di dati Tabella Web.

Per copiare dati da Tabella Web, impostare la proprietà type del set di dati su WebTable. Sono supportate le proprietà seguenti:

Proprietà Descrizione Obbligatoria
type La proprietà type del set di dati deve essere impostata su: WebTable
path URL relativo della risorsa che contiene la tabella. No. Quando non è specificato alcun percorso, viene usato solo l'URL specificato nella definizione del servizio collegato.
index Indice della tabella nella risorsa. Per la procedura per ottenere l'indice di una tabella in una pagina HTML, vedere la sezione Ottenere l'indice di una tabella in una pagina HTML.

Esempio:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Proprietà dell'attività di copia

Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione delle attività, vedere l'articolo sulle pipeline. Questa sezione presenta un elenco delle proprietà supportate dall'origine Tabella Web.

Tabella Web come origine

Per copiare dati da Tabella Web, impostare il tipo di origine nell'attività di copia su WebSource. Non sono supportate altre proprietà.

Esempio:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Ottenere l'indice di una tabella in una pagina HTML

Per ottenere l'indice di una tabella che è necessario configurare nelle proprietà del set di dati, è possibile usare, ad esempio, Excel 2016 come strumento, come indicato di seguito:

  1. Avviare Excel 2016 e passare alla scheda Dati.

  2. Fare clic su Nuova query sulla barra degli strumenti, scegliere Da altre origini e fare clic su Da Web.

    Menu di Power Query

  3. Nella finestra di dialogo Da Web immettere l'URL che si intende usare nel servizio collegato JSON, ad esempio https://en.wikipedia.org/wiki/), insieme al percorso specificato per il set di dati, ad esempio AFI%27s_100_Years...100_Movies e fare clic su OK.

    Finestra di dialogo Da Web

    URL usato in questo esempio: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Se viene visualizzata la finestra di dialogo Accedi a contenuto Web, selezionare l'URL corretto, l'autenticazione e fare clic su Connetti.

    Finestra di dialogo Accedi a contenuto Web

  5. Fare clic su un elemento della tabella nella visualizzazione ad albero per visualizzare il contenuto dalla tabella e quindi fare clic su Modifica nella parte inferiore.

    Finestra di dialogo Strumento di spostamento

  6. Nella finestra Editor di query fare clic sul pulsante Editor avanzato sulla barra degli strumenti.

    Pulsante Editor avanzato

  7. Nella finestra di dialogo Editor avanzato il numero accanto a "Source" è l'indice.

    Editor avanzato - Indice

Se si usa Excel 2013, per ottenere l'indice usare Microsoft Power Query per Excel . Per informazioni dettagliate, vedere l'articolo Connettersi a una pagina Web (Power Query) . I passaggi sono simili se si usa Microsoft Power BI Desktop.

Proprietà dell'attività Lookup

Per altre informazioni sulle proprietà, vedere Attività Lookup.

Passaggi successivi

Per un elenco degli archivi dati supportati come origini o sink dall'attività di copia in Azure Data Factory, vedere gli archivi dati supportati.