Azure Data Factory veya Synapse Analytics kullanarak Web tablosundan veri kopyalama

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede, Bir Web tablosu veritabanından veri kopyalamak için Azure Data Factory veya Synapse Analytics işlem hattında Kopyalama Etkinliği'nin nasıl kullanılacağı açıklanmaktadır. Kopyalama etkinliğine genel bir genel bakış sunan kopyalama etkinliğine genel bakış makalesini oluşturur.

Bu Web tablosu bağlayıcısı, REST bağlayıcısı ve HTTP bağlayıcısı arasındaki fark şunlardır:

  • Web tablosu bağlayıcısı, bir HTML web sayfasından tablo içeriğini ayıklar.
  • REST bağlayıcısı , RESTful API'lerinden veri kopyalamayı özellikle destekler.
  • HTTP bağlayıcısı , herhangi bir HTTP uç noktasından veri almak için geneldir; örneğin dosyayı indirmek için.

Desteklenen özellikler

Bu Web tablosu bağlayıcısı aşağıdaki özellikler için desteklenir:

Desteklenen özellikler IR
Kopyalama etkinliği (kaynak/-)
Arama etkinliği

(1) Azure tümleştirme çalışma zamanı (2) Şirket içinde barındırılan tümleştirme çalışma zamanı

Kaynak/havuz olarak desteklenen veri depolarının listesi için Desteklenen veri depoları tablosuna bakın.

Özellikle, bu Web tablosu bağlayıcısı bir HTML sayfasından tablo içeriğini ayıklamayı destekler.

Önkoşullar

Bu Web tablosu bağlayıcısını kullanmak için Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanı ayarlamanız gerekir. Ayrıntılar için şirket içinde barındırılan Integration Runtime makalesine bakın.

Başlarken

İşlem hattıyla Kopyalama etkinliği gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Kullanıcı arabirimini kullanarak Web Tablosuna bağlı hizmet oluşturma

Azure portalı kullanıcı arabiriminde Web Tablosuna bağlı bir hizmet oluşturmak için aşağıdaki adımları kullanın.

  1. Azure Data Factory veya Synapse çalışma alanınızda Yönet sekmesine göz atın ve Bağlı Hizmetler'i seçin, ardından Yeni'ye tıklayın:

  2. Web'i arayın ve Web Tablosu bağlayıcısını seçin.

    Select the Web Table connector.

  3. Hizmet ayrıntılarını yapılandırın, bağlantıyı test edin ve yeni bağlı hizmeti oluşturun.

    Configure a linked service to Web Table.

Bağlan veya yapılandırma ayrıntıları

Aşağıdaki bölümlerde, Web tablosu bağlayıcısına özgü Data Factory varlıklarını tanımlamak için kullanılan özelliklerle ilgili ayrıntılar sağlanır.

Bağlı hizmet özellikleri

Web tablosu bağlı hizmeti için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type Tür özelliği şu şekilde ayarlanmalıdır: Web Evet
url Web kaynağının URL'si Evet
authenticationType İzin verilen değer: Anonim. Evet
connectVia Veri deposuna bağlanmak için kullanılacak Integration Runtime. Önkoşullar bölümünde belirtildiği gibi şirket içinde barındırılan tümleştirme çalışma zamanı gereklidir. Evet

Örnek:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için veri kümeleri makalesine bakın. Bu bölümde, Web tablosu veri kümesi tarafından desteklenen özelliklerin listesi sağlanır.

Web tablosundan veri kopyalamak için veri kümesinin tür özelliğini WebTable olarak ayarlayın. Aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type Veri kümesinin tür özelliği şu şekilde ayarlanmalıdır: WebTable Evet
yol Tabloyu içeren kaynağın göreli URL'si. Hayır. Yol belirtilmediğinde, yalnızca bağlı hizmet tanımında belirtilen URL kullanılır.
dizin Kaynaktaki tablonun dizini. HTML sayfasındaki bir tablonun dizinini alma adımları için bkz . HTML sayfasında tablonun dizinini alma bölümü. Evet

Örnek:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Kopyalama etkinliğinin özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için İşlem hatları makalesine bakın. Bu bölüm, Web tablosu kaynağı tarafından desteklenen özelliklerin listesini sağlar.

Kaynak olarak web tablosu

Web tablosundan veri kopyalamak için kopyalama etkinliğindeki kaynak türünü WebSource olarak ayarlayın; ek özellik desteklenmez.

Örnek:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

HTML sayfasındaki bir tablonun dizinini alma

Veri kümesi özelliklerinde yapılandırmanız gereken bir tablonun dizinini almak için, araç olarak aşağıdaki gibi Excel 2016'yı kullanabilirsiniz:

  1. Excel 2016'yi başlatın ve Veri sekmesine geçin.

  2. Araç çubuğunda Yeni Sorgu'ya tıklayın, Diğer Kaynaklardan'ın üzerine gelin ve Web'den'e tıklayın.

    Power Query menu

  3. Web'den iletişim kutusunda, bağlı hizmet JSON'unda kullanacağınız URL'yi (örneğin: https://en.wikipedia.org/wiki/) veri kümesi için belirteceğiniz yolla birlikte girin (örneğin: AFI%27s_100_Years... 100_Movies) ve Tamam'a tıklayın.

    From Web dialog

    Bu örnekte kullanılan URL: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Access Web içeriği iletişim kutusunu görüyorsanız doğru URL'yi, kimlik doğrulamayı seçin ve Bağlan'a tıklayın.

    Access Web content dialog box

  5. Tablodaki içeriği görmek için ağaç görünümünde bir tablo öğesine tıklayın ve ardından alttaki Düzenle düğmesine tıklayın.

    Navigator dialog

  6. Sorgu Düzenleyicisi penceresinde araç çubuğundaki Gelişmiş Düzenleyici düğmesine tıklayın.

    Advanced Editor button

  7. Gelişmiş Düzenleyici iletişim kutusunda, "Kaynak" öğesinin yanındaki sayı dizindir.

    Advanced Editor - Index

Excel 2013 kullanıyorsanız, dizini almak için Excel için Microsoft Power Query'yi kullanın. Ayrıntılar için web sayfasına Bağlan makalesine bakın. Desktop için Microsoft Power BI kullanıyorsanız adımlar benzerdir.

Arama etkinliği özellikleri

Özellikler hakkında ayrıntılı bilgi edinmek için Arama etkinliği'ne bakın.

Kopyalama etkinliği tarafından kaynak ve havuz olarak desteklenen veri depolarının listesi için bkz . desteklenen veri depoları.