Azure Data Factory ve Azure SYNAPSE Analytics 'te kopyalama etkinliği

Uygulama hedefi: Azure SYNAPSE Analytics 'i Azure Data Factory

Azure Data Factory ve SYNAPSE işlem hatları ' nda, şirket içinde ve bulutta bulunan veri depoları arasında veri kopyalamak için kopyalama etkinliğini kullanabilirsiniz. Verileri kopyaladıktan sonra, diğer etkinlikleri kullanarak daha fazla dönüşüm ve analiz yapabilirsiniz. Ayrıca, iş zekası (BI) ve uygulama tüketimine yönelik dönüştürme ve analiz sonuçlarını yayımlamak için kopyalama etkinliğini kullanabilirsiniz.

Kopyalama etkinliğinin rolü

Kopyalama etkinliği bir tümleştirme çalışma zamanıüzerinde yürütülür. Farklı veri kopyalama senaryolarında farklı türlerde tümleştirme çalışma zamanları kullanabilirsiniz:

  • Herhangi bir IP 'den internet üzerinden herkese açık olarak erişilebilen iki veri deposu arasında veri kopyalarken kopyalama etkinliği için Azure tümleştirme çalışma zamanı ' nı kullanabilirsiniz. Bu tümleştirme çalışma zamanı güvenli, güvenilir, ölçeklenebilir ve küresel olarak kullanılabilir.
  • Şirket içinde veya erişim denetimi olan bir ağda (örneğin, bir Azure sanal ağı) bulunan veri depolarından ve buralardan veri kopyalarken, kendi kendine barındırılan tümleştirme çalışma zamanı ayarlamanız gerekir.

Tümleştirme çalışma zamanının her kaynak ve havuz veri deposuyla ilişkilendirilmesi gerekir. Kopyalama etkinliğinin hangi tümleştirme çalışma zamanının kullanılacağını nasıl belirlediği hakkında bilgi için bkz. HANGI IR kullanacağınızı belirleme.

Verileri bir kaynaktan havuza kopyalamak için kopyalama etkinliğini çalıştıran hizmet şu adımları gerçekleştirir:

  1. Kaynak veri deposundan verileri okur.
  2. Serileştirme/seriyi kaldırma, sıkıştırma/açma, sütun eşleme vb. gerçekleştirir. Giriş veri kümesi, çıkış veri kümesi ve kopyalama etkinliğinin yapılandırmasına bağlı olarak bu işlemleri gerçekleştirir.
  3. Verileri havuz/hedef veri deposuna yazar.

Kopyalama etkinliğine genel bakış

Desteklenen veri depoları ve biçimleri

Kategori Veri deposu Kaynak olarak desteklenen Havuz olarak desteklenen Azure IR tarafından desteklenen Şirket içinde barındırılan IR tarafından desteklenen
Azure Azure Blob Depolama
  Azure Bilişsel Arama dizini
  Azure Cosmos DB (SQL API)
  MongoDB için Azure Cosmos DB API’si
  Azure Veri Gezgini
  Azure Data Lake Storage Gen1
  Azure Data Lake Storage 2. Nesil
  MariaDB için Azure Veritabanı
  MySQL için Azure Veritabanı
  PostgreSQL için Azure Veritabanı
  Azure Databricks Delta Lake
  Azure Dosyaları
  Azure SQL Veritabanı
  Azure SQL Yönetilen Örnek
  Azure Synapse Analytics
  Azure Tablo Depolama
Veritabanı Oracle için Amazon RDS
  SQL Server için Amazon RDS
  Amazon Redshift
  DB2
  Drill
  Google BigQuery
  Greenplum
  HBase
  Hive
  Apache Impala
  Informix
  MariaDB
  Microsoft Access
  MySQL
  Netezza
  Oracle
  Phoenix
  PostgreSQL
  Presto
  Açık Hub aracılığıyla SAP Business Warehouse
  MDX aracılığıyla SAP Business Warehouse
  SAP HANA Havuz yalnızca ODBC Bağlayıcısı ve SAP HANA ODBC sürücüsü ile desteklenir
  SAP tablosu
  Snowflake
  Spark
  SQL Server
  Sybase
  Teradata
  Vertica
NoSQL Cassandra
  Couchbase (Önizleme)
  MongoDB
  MongoDB Atlas
Dosya Amazon S3
  Amazon S3 uyumlu Depolama
  Dosya sistemi
  FTP
  Google Cloud Storage
  HDFS
  Oracle Cloud Depolama
  SFTP
Genel protokol Genel HTTP
  Genel OData
  Genel ODBC
  Genel REST
Hizmetler ve uygulamalar Amazon Marketplace Web Service
  Concur (Önizleme)
  Dataverse
  Dynamics 365
  Dynamics AX
  Dynamics CRM
  Google AdWords
  HubSpot
  Jira
  Magento (Önizleme)
  Marketo (Önizleme)
  Microsoft 365
  Oracle Eloqua (Önizleme)
  Oracle Responsys (Önizleme)
  Oracle Service Cloud (Önizleme)
  PayPal (Önizleme)
  QuickBooks (Önizleme)
  Salesforce
  Salesforce Service Cloud
  Salesforce Marketing Cloud
  Müşteri için SAP Cloud (C4C)
  SAP ECC
  ServiceNow
SharePoint Online Listesi
  Shopify (Önizleme)
  Square (Önizleme)
  Web tablosu (HTML tablosu)
  Xero
  Zoho (Önizleme)

Not

Bir bağlayıcı Önizleme olarak işaretlendiyse bu bağlayıcıyı deneyip bunun hakkındaki görüşlerinizi bize bildirebilirsiniz. Çözümünüzde bir önizleme bağlayıcısı bağımlılığı olmasını istiyorsanız Azure desteğine başvurun.

Desteklenen dosya biçimleri

Azure Data Factory aşağıdaki dosya biçimlerini destekler. Biçim tabanlı ayarlar için her makaleye bakın.

Kopyalama etkinliğini, dosyaları iki dosya tabanlı veri deposu arasında olduğu gibi kopyalamak için kullanabilirsiniz. Bu durumda, veriler serileştirme veya seri durumundan çıkarma yapılmadan verilerin verimli bir şekilde kopyalanabilmesi. Ayrıca, belirli bir biçimin dosyalarını ayrıştırarak veya oluşturabilirsiniz, örneğin, aşağıdakileri yapabilirsiniz:

  • SQL Server veritabanından verileri kopyalayın ve parquet biçiminde Azure Data Lake Storage 2. yazın.
  • Metin (CSV) biçimindeki dosyaları şirket içi bir dosya sisteminden kopyalayın ve avro biçiminde Azure Blob depolama alanına yazın.
  • zıp dosyalarını şirket içi bir dosya sisteminden kopyalayın, açık olarak açıp Azure Data Lake Storage 2. ve ayıklanan dosyaları yazın.
  • verileri Azure Blob depolama alanından Gzip sıkıştırılmış metin (CSV) biçiminde kopyalayıp Azure SQL Veritabanı yazın.
  • Serileştirme/seri durumdan çıkarma veya sıkıştırma/sıkıştırmayı gerektiren çok sayıda etkinlik.

Desteklenen bölgeler

Kopyalama etkinliğini sağlayan hizmet, Azure tümleştirme çalışma zamanı konumlarındalistelenen bölgelerde ve coğrafi olarak genel kullanıma sunulmuştur. Genel olarak kullanılabilir topoloji, genellikle bölgeler arası atlamaları önleyen etkili veri hareketini sağlar. Belirli bir bölgedeki Data Factory, SYNAPSE çalışma alanlarının ve veri hareketinin kullanılabilirliğini denetlemek için bkz. bölgelere göre ürünler .

Yapılandırma

İşlem hattıyla Kopyalama etkinliği gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Genel olarak, kopyalama etkinliğini Azure Data Factory veya SYNAPSE işlem hatları içinde kullanmak için şunları yapmanız gerekir:

  1. Kaynak veri deposu ve havuz veri deposu için bağlı hizmetler oluşturun. Desteklenen bağlayıcıların listesini, bu makalenin desteklenen veri depoları ve biçimleri bölümünde bulabilirsiniz. Yapılandırma bilgileri ve desteklenen özellikler için bağlayıcı makalesinin "bağlı hizmet özellikleri" bölümüne bakın.
  2. Kaynak ve havuz için veri kümeleri oluşturun. Yapılandırma bilgileri ve desteklenen özellikler için kaynak ve havuz bağlayıcı makalelerinin "veri kümesi özellikleri" bölümlerine bakın.
  3. Kopyalama etkinliğiyle bir işlem hattı oluşturun. Sonraki bölümde bir örnek sağlanmaktadır.

Syntax

Bir kopyalama etkinliğinin aşağıdaki şablonu desteklenen özelliklerin kapsamlı bir listesini içerir. Senaryonuza uygun olanları belirtin.

"activities":[
    {
        "name": "CopyActivityTemplate",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<source dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<sink dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                <properties>
            },
            "sink": {
                "type": "<sink type>"
                <properties>
            },
            "translator":
            {
                "type": "TabularTranslator",
                "columnMappings": "<column mapping>"
            },
            "dataIntegrationUnits": <number>,
            "parallelCopies": <number>,
            "enableStaging": true/false,
            "stagingSettings": {
                <properties>
            },
            "enableSkipIncompatibleRow": true/false,
            "redirectIncompatibleRowSettings": {
                <properties>
            }
        }
    }
]

Söz dizimi ayrıntıları

Özellik Açıklama Gerekli mi?
tür Kopyalama etkinliği için, Copy Yes
girişi Kaynak verilere işaret eden oluşturduğunuz veri kümesini belirtin. Kopyalama etkinliği yalnızca tek bir girişi destekler. Yes
çıkışı Havuz verilerine işaret eden oluşturduğunuz veri kümesini belirtin. Kopyalama etkinliği yalnızca tek bir çıktıyı destekler. Yes
typeProperties Kopyalama etkinliğini yapılandırmak için özellikleri belirtin. Yes
kaynak Kopyalama kaynağı türünü ve verileri almak için karşılık gelen özellikleri belirtin.
Daha fazla bilgi için desteklenen veri depoları ve biçimleribölümünde listelenen bağlayıcı makalesindeki "etkinlik özelliklerini kopyalama" bölümüne bakın.
Yes
Ev Kopyalama havuz türünü ve verileri yazmak için karşılık gelen özellikleri belirtin.
Daha fazla bilgi için desteklenen veri depoları ve biçimleribölümünde listelenen bağlayıcı makalesindeki "etkinlik özelliklerini kopyalama" bölümüne bakın.
Yes
çevirmen Kaynaktan havuza açık sütun eşlemeleri belirtin. Bu özellik, varsayılan kopyalama davranışı gereksinimlerinizi karşılamıyorsa geçerlidir.
Daha fazla bilgi için bkz. kopyalama etkinliğinde şema eşleme.
No
Veri tümleştirme birimleri Azure Integration Runtime 'ın veri kopyalama için kullandığı güç miktarını temsil eden bir ölçü belirtin. Bu birimler daha önce bulut veri taşıma birimi (DMU) olarak bilinirdi.
Daha fazla bilgi için bkz. veri tümleştirme birimleri.
No
Paralellkopyalar Kaynaktan veri okurken ve havuza veri yazarken kopyalama etkinliğinin kullanmasını istediğiniz paralellik belirleyin.
Daha fazla bilgi için bkz. paralel kopya.
No
koruyup Veri kopyalama sırasında meta verilerin/ACL 'Lerin korunup korunmayacağını belirtin.
Daha fazla bilgi için bkz. meta verileri koruma.
No
Enablehazırlama
stagingSettings
Verileri kaynaktan havuza doğrudan kopyalamak yerine, blob depolamada geçici verilerin gösterilip gösterilmeyeceğini belirtin.
Faydalı senaryolar ve yapılandırma ayrıntıları hakkında daha fazla bilgi için bkz. aşamalı kopya.
No
Enableskipıncompatiblerow
Redirectıncompatiblerowsettings
Kaynaktan havuza veri kopyaladığınızda uyumsuz satırları nasıl işleyeceğinizi seçin.
Daha fazla bilgi için bkz. hata toleransı.
No

İzleme

Azure Data Factory ve SYNAPSE işlem hatlarında hem görsel hem de programlı olarak çalışan kopyalama etkinliği izleyebilirsiniz. Ayrıntılar için bkz. kopyalama etkinliğini izleme.

Artımlı kopya

Data Factory ve SYNAPSE işlem hatları, Delta verilerini bir kaynak veri deposundan bir havuz veri deposuna artımlı olarak kopyalamanızı sağlar. Ayrıntılar için bkz. öğretici: artımlı olarak veri kopyalama.

Performans ve ayar

Kopyalama etkinliği izleme deneyimi, etkinlik çalıştırabileceğiniz her biri için kopyalama performansı istatistiklerini gösterir. Kopyalama etkinliği performans ve ölçeklenebilirlik Kılavuzu , kopyalama etkinliği aracılığıyla veri hareketinin performansını etkileyen temel faktörleri açıklar. Ayrıca, test sırasında gözlemlenen performans değerlerini listeler ve kopyalama etkinliğinin performansının nasıl iyileştirileceği açıklanır.

Son başarısız çalıştırmayı geri edin

kopyalama etkinliği, büyük boyutlu dosyaları dosya tabanlı mağazalar arasında ikili biçimde kopyaladığınızda son başarısız çalıştıralım işlemini destekler, örneğin, Amazon S3 ' den Azure Data Lake Storage 2. ' ye veri geçirmek için. şu dosya tabanlı bağlayıcılar için geçerlidir: amazon s3, amazon s3 uyumlu Depolama Azure Blob, Azure Data Lake Storage 1., Azure Data Lake Storage 2., Azure dosyaları, dosya sistemi, FTP, Google cloud Depolama ,,, Oracle cloud Depolama ve sftp.

Kopyalama etkinliği özgeçmişi aşağıdaki iki şekilde yararlanabilirsiniz:

  • Etkinlik düzeyi yeniden deneme: Kopyalama etkinliği için yeniden deneme sayısı ayarlayabilirsiniz. İşlem hattı yürütmesi sırasında, bu kopyalama etkinliği başarısız olursa, sonraki otomatik yeniden deneme son deneme hata noktasından başlar.

  • Başarısız etkinlikten yeniden çalıştır: İşlem hattı yürütme tamamlandıktan sonra, ADF Kullanıcı arabirimi izleme görünümündeki veya programlı olarak başarısız etkinlikten yeniden çalıştır tetikleyebilirsiniz. Başarısız etkinlik bir kopyalama etkinliğidir, işlem hattı Bu etkinlikten yalnızca yeniden çalıştırılmaz, ancak aynı zamanda önceki çalıştırmanın hata noktasından de sürdürülür.

    Kopyalama özgeçmişi

Birkaç noktaya göz önünde:

  • Dosya düzeyinde özgeçmişde gerçekleşir. Bir dosya kopyalanırken kopyalama etkinliği başarısız olursa, bir sonraki çalıştırmasında, bu belirli dosya yeniden kopyalanacaktır.
  • Özgeçmişin düzgün çalışması için yeniden başlatma arasında kopyalama etkinliği ayarlarını değiştirmeyin.
  • Amazon S3, Azure Blob, Azure Data Lake Storage 2. ve Google Cloud Depolama verileri kopyaladığınızda, kopyalama etkinliği, rastgele sayıda kopyalanmış dosyanın içinden sürdürülür. Kaynak olarak dosya tabanlı bağlayıcıların geri kalanı için, kopyalama etkinliği, genellikle onlarca binlerce ve dosya yollarının uzunluğuna bağlı olarak değişiklik gösterdiği gibi, sınırlı sayıda dosyadan sürdürmeyi destekler; Bu sayıdan daha fazla dosya yeniden yönlendirme sırasında yeniden kopyalanacaktır.

İkili dosya kopyalama işleminden farklı senaryolar için kopyalama etkinliği yeniden çalıştırma başlangıçtan başlar.

Meta verileri verilerle birlikte koruyun

Verileri kaynaktan havuza kopyalarken, Data Lake geçişi gibi senaryolarda, kopyalama etkinliğini kullanarak verilerle birlikte meta verileri ve ACL 'Leri de korumayı seçebilirsiniz. Ayrıntılar için bkz. meta verileri koruma .

Şema ve veri türü eşleme

Kopyalama etkinliğinin kaynak verilerinizi havuzunuzu nasıl eşlediğini öğrenmek için bkz. şema ve veri türü eşleme .

Kopyalama sırasında ek sütunlar ekleme

Kaynak veri deposundan havuza veri kopyalamanın yanı sıra, havuza kopyalamak üzere ek veri sütunları da eklemek için yapılandırabilirsiniz. Örnek:

  • Dosya tabanlı kaynaktan kopyalama yapıldığında, verilerin hangi dosyadan geldiğini izlemek için göreli dosya yolunu ek bir sütun olarak depolayın.
  • Belirtilen kaynak sütununu başka bir sütun olarak çoğaltın.
  • İşlem hattı adı/işlem hattı KIMLIĞI gibi ADF sistem değişkenlerini eklemek için ADF ifadesi içeren bir sütun ekleyin veya yukarı akış etkinliğinin çıktısından diğer dinamik değeri saklayın.
  • Aşağı akış tüketimi gereksinimini karşılamak için statik değeri olan bir sütun ekleyin.

Kopyalama etkinliği kaynağı sekmesine aşağıdaki yapılandırmayı bulabilirsiniz. Ayrıca, bu ek sütunları, tanımlı sütun adlarınızı kullanarak her zamanki gibi kopyalama etkinlik şeması eşlemesinde da eşleyebilirsiniz.

Kopyalama etkinliğine ek sütunlar ekleme

İpucu

Bu özellik, en son veri kümesi modeliyle birlikte kullanılır. Bu seçeneği kullanıcı arabiriminden görmüyorsanız, yeni bir veri kümesi oluşturmayı deneyin.

Program aracılığıyla yapılandırmak için additionalColumns kopyalama etkinlik kaynağınıza özelliği ekleyin:

Özellik Açıklama Gerekli
additionalColumns Havuza kopyalamak için ek veri sütunları ekleyin.

Dizideki her nesne additionalColumns bir ek sütunu temsil eder. , name Sütun adını tanımlar ve value Bu sütunun veri değerini gösterir.

İzin verilen veri değerleri şunlardır:
- $$FILEPATH -ayrılmış bir değişken, kaynak dosyaların göreli yolunu veri kümesinde belirtilen klasör yoluna depolayacağını gösterir. Dosya tabanlı kaynağa uygulayın.
- $$COLUMN:<source_column_name> -ayrılmış bir değişken stili, belirtilen kaynak sütununun başka bir sütun olarak yinelendiğini belirtir
- İfadesini
- Statik değer
No

Örnek:

"activities":[
    {
        "name": "CopyWithAdditionalColumns",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                "additionalColumns": [
                    {
                        "name": "filePath",
                        "value": "$$FILEPATH"
                    },
                    {
                        "name": "newColName",
                        "value": "$$COLUMN:SourceColumnA"
                    },
                    {
                        "name": "pipelineName",
                        "value": {
                            "value": "@pipeline().Pipeline",
                            "type": "Expression"
                        }
                    },
                    {
                        "name": "staticValue",
                        "value": "sampleValue"
                    }
                ],
                ...
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Havuz tablolarını otomatik oluştur

SQL veritabanına/Azure Synapse Analytics 'e veri kopyalarken, hedef tablo yoksa, kopyalama etkinliği kaynak verilere göre otomatik olarak oluşturulmasını destekler. verileri yüklemeye ve SQL veritabanı/Azure Synapse analizlerini değerlendirmeye hızlı bir şekilde başlamanıza yardımcı olacak. Veri alındıktan sonra havuz tablosu şemasını gereksinimlerinize göre gözden geçirebilir ve ayarlayabilirsiniz.

Bu özellik, herhangi bir kaynaktaki verileri aşağıdaki havuz veri depolarına kopyalarken desteklenir. ADF yazma Kullanıcı arabirimi – > kopyalama etkinliği havuzu – > Tablo seçeneği – > otomatik olarak tablo oluştur veya tableOption kopyalama etkinliği havuz yükünde özellik aracılığıyla) seçeneğini bulabilirsiniz.

Havuz tabloları oluşturma

Hataya dayanıklılık

Varsayılan olarak, kopyalama etkinliği verileri kopyalamayı ve kaynak veri satırları havuz Veri satırlarıyla uyumsuz olduğunda bir hata döndürür. Kopyalamanın başarılı olması için kopyalama etkinliğini, uyumsuz satırları atlayıp günlüğe kaydetmek ve yalnızca uyumlu verileri kopyalamak üzere yapılandırabilirsiniz. Ayrıntılar için bkz. kopyalama etkinliği hata toleransı .

Veri tutarlılığı doğrulama

Verileri kaynaktan hedef depoya taşıdığınızda, kopyalama etkinliği verilerin kaynaktan yalnızca kaynak ve hedef depo arasında tutarlı bir şekilde kopyalanmadığından emin olmak için ek veri tutarlılığı doğrulaması yapmanız için bir seçenek sağlar. Veri taşıma sırasında tutarsız dosyalar bulunduğunda, kopyalama etkinliğini durdurabilir veya geri kalanı kopyalamaya devam ederek hata toleransı ayarını tutarsız dosyaları atlayacak şekilde ayarlayabilirsiniz. Kopyalama etkinliğinde oturum günlüğü ayarını etkinleştirerek Atlanan dosya adlarını alabilirsiniz. Ayrıntılar için kopyalama etkinliğinde veri tutarlılığı doğrulaması ' na bakın.

Oturum günlüğü

Kopyalanmış dosya adlarınızı günlüğe kaydedebilir ve bu sayede, verilerin kaynaktan hedef depoya başarıyla kopyalanmadığından ve ayrıca kopyalama etkinliği oturum günlüklerini inceleyerek kaynak ve hedef depo arasında tutarlı olmasını sağlamanıza yardımcı olabilirsiniz. Ayrıntılar için bkz. kopyalama etkinliğinde oturum günlüğü .

Sonraki adımlar

Aşağıdaki hızlı başlangıçlara, öğreticilere ve örneklere bakın: