Kopírování dat z webové tabulky pomocí služby Azure Data Factory nebo Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek popisuje, jak pomocí aktivity kopírování v kanálu Azure Data Factory nebo Synapse Analytics kopírovat data z databáze webové tabulky. Vychází z článku s přehledem aktivity kopírování, který představuje obecný přehled aktivity kopírování.

Rozdíl mezi tímto konektorem webové tabulky, konektorem REST a konektorem HTTP jsou:

  • Konektor webové tabulky extrahuje obsah tabulky z webové stránky HTML.
  • Konektor REST konkrétně podporuje kopírování dat z rozhraní RESTful API.
  • Konektor HTTP je obecný k načtení dat z libovolného koncového bodu HTTP, například ke stažení souboru.

Podporované funkce

Tento konektor webové tabulky je podporovaný pro následující funkce:

Podporované funkce IR
aktivita Copy (zdroj/-)
Aktivita Lookup

(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime

Seznam úložišť dat podporovaných jako zdroje nebo jímky najdete v tabulce Podporované úložiště dat.

Konkrétně tento konektor webové tabulky podporuje extrahování obsahu tabulky ze stránky HTML.

Požadavky

Pokud chcete použít tento konektor webové tabulky, musíte nastavit místní prostředí Integration Runtime. Podrobnosti najdete v článku o místním prostředí Integration Runtime .

Začínáme

K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:

Vytvoření propojené služby s webovou tabulkou pomocí uživatelského rozhraní

Pomocí následujícího postupu vytvořte propojenou službu s webovou tabulkou v uživatelském rozhraní webu Azure Portal.

  1. Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak klikněte na Nový:

  2. Vyhledejte web a vyberte konektor webové tabulky.

    Select the Web Table connector.

  3. Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.

    Configure a linked service to Web Table.

podrobnosti o konfiguraci Připojení oru

Následující části obsahují podrobnosti o vlastnostech, které slouží k definování entit služby Data Factory specifických pro konektor webové tabulky.

Vlastnosti propojené služby

Pro propojenou službu webové tabulky jsou podporovány následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu musí být nastavena na: Web. Ano
url Adresa URL zdroje webu Ano
authenticationType Povolená hodnota je: Anonymní. Ano
connectVia Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Vyžaduje se místní prostředí Integration Runtime, jak je uvedeno v požadavcích. Ano

Příklad:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Vlastnosti datové sady

Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku o datových sadách . Tato část obsahuje seznam vlastností podporovaných datovou sadou webových tabulek.

Pokud chcete kopírovat data z webové tabulky, nastavte vlastnost typu datové sady na WebTable. Podporují se následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu datové sady musí být nastavená na: Webová tabulka. Ano
path Relativní adresa URL k prostředku, který obsahuje tabulku. Ne. Pokud není zadána cesta, použije se pouze adresa URL zadaná v definici propojené služby.
index Index tabulky v prostředku. Postup získání indexu tabulky na stránce HTML najdete v části Získání indexu tabulky na stránce HTML. Ano

Příklad:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Vlastnosti aktivity kopírování

Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem webových tabulek.

Webová tabulka jako zdroj

Pokud chcete kopírovat data z webové tabulky, nastavte zdrojový typ aktivity kopírování na WebSource, nejsou podporovány žádné další vlastnosti.

Příklad:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Získání indexu tabulky na stránce HTML

Pokud chcete získat index tabulky, kterou potřebujete nakonfigurovat ve vlastnostech datové sady, můžete jako nástroj použít například Excel 2016:

  1. Spusťte Excel 2016 a přepněte na kartu Data .

  2. Klepněte na tlačítko Nový dotaz na panelu nástrojů, přejděte na příkaz Z jiných zdrojů a klepněte na příkaz Z webu.

    Power Query menu

  3. V dialogovém okně Z webu zadejte adresu URL , kterou byste použili ve formátu JSON propojené služby (například: https://en.wikipedia.org/wiki/) spolu s cestou, kterou byste zadali pro datovou sadu (například: AFI%27s_100_Years... 100_Movies) a klepněte na tlačítko OK.

    From Web dialog

    Adresa URL použitá v tomto příkladu: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Pokud se zobrazí dialogové okno webového obsahu accessu, vyberte správnou adresu URL, ověřování a klikněte na Připojení.

    Access Web content dialog box

  5. Kliknutím na položku tabulky ve stromovém zobrazení zobrazíte obsah z tabulky a potom kliknete na tlačítko Upravit v dolní části.

    Navigator dialog

  6. V okně Editor Power Query klikněte na tlačítko Rozšířený editor na panelu nástrojů.

    Advanced Editor button

  7. V dialogovém okně Rozšířený editor je číslo vedle položky Zdroj indexem.

    Advanced Editor - Index

Pokud používáte Excel 2013, získejte index pomocí Microsoft Power Query pro Excel . Podrobnosti najdete v článku Připojení na webovou stránku. Postup je podobný, pokud používáte Microsoft Power BI for Desktop.

Vlastnosti aktivity vyhledávání

Podrobnosti o vlastnostech najdete v aktivitě Vyhledávání.

Seznam úložišť dat podporovaných jako zdroje a jímky aktivitou kopírování najdete v podporovaných úložištích dat.