Azure Data Factory veya Synapse Analytics kullanarak Amazon Redshift'ten veri kopyalama

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu makalede, Bir Amazon Redshift'ten veri kopyalamak için Azure Data Factory ve Synapse Analytics işlem hatlarında Kopyalama Etkinliğinin nasıl kullanılacağı özetlenmiştir. Kopyalama etkinliğine genel bir genel bakış sunan kopyalama etkinliğine genel bakış makalesini oluşturur.

Desteklenen özellikler

Bu Amazon Redshift bağlayıcısı aşağıdaki özellikler için desteklenir:

Desteklenen özellikler IR
Kopyalama etkinliği (kaynak/-) ① ②
Arama etkinliği ① ②

(1) Azure tümleştirme çalışma zamanı (2) Şirket içinde barındırılan tümleştirme çalışma zamanı

Kopyalama etkinliği tarafından kaynak veya havuz olarak desteklenen veri depolarının listesi için Desteklenen veri depoları tablosuna bakın.

Özellikle, bu Amazon Redshift bağlayıcısı sorgu veya yerleşik Redshift UNLOAD desteği kullanarak Redshift'ten veri almayı destekler.

Bahşiş

Redshift'ten büyük miktarda veri kopyalarken en iyi performansı elde etmek için Yerleşik Redshift UNLOAD'ı Amazon S3 aracılığıyla kullanmayı göz önünde bulundurun. Ayrıntılar için Bkz . Amazon Redshift'ten veri kopyalamak için UNLOAD kullanma.

Önkoşullar

Başlarken

İşlem hattıyla Kopyalama etkinliği gerçekleştirmek için aşağıdaki araçlardan veya SDK'lardan birini kullanabilirsiniz:

Kullanıcı arabirimini kullanarak Amazon Redshift'e bağlı hizmet oluşturma

Azure portalı kullanıcı arabiriminde Amazon Redshift'e bağlı bir hizmet oluşturmak için aşağıdaki adımları kullanın.

  1. Azure Data Factory veya Synapse çalışma alanınızda Yönet sekmesine göz atın ve Bağlı Hizmetler'i seçin, ardından Yeni'ye tıklayın:

  2. Amazon için arama yapın ve Amazon Redshift bağlayıcısını seçin.

    Select the Amazon Redshift connector.

  3. Hizmet ayrıntılarını yapılandırın, bağlantıyı test edin ve yeni bağlı hizmeti oluşturun.

    Configure a linked service to Amazon Redshift.

Bağlan veya yapılandırma ayrıntıları

Aşağıdaki bölümlerde, Amazon Redshift bağlayıcısına özgü Data Factory varlıklarını tanımlamak için kullanılan özelliklerle ilgili ayrıntılar sağlanır.

Bağlı hizmet özellikleri

Amazon Redshift bağlı hizmeti için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type Tür özelliği şu şekilde ayarlanmalıdır: AmazonRedshift Evet
sunucu Amazon Redshift sunucusunun IP adresi veya ana bilgisayar adı. Evet
port Amazon Redshift sunucusunun istemci bağlantılarını dinlemek için kullandığı TCP bağlantı noktasının sayısı. Hayır, varsayılan değer 5439'dur
database Amazon Redshift veritabanının adı. Evet
username Veritabanına erişimi olan kullanıcının adı. Evet
password Kullanıcı hesabının parolası. Güvenli bir şekilde depolamak için bu alanı SecureString olarak işaretleyin veya Azure Key Vault'ta depolanan bir gizli diziye başvurun. Evet
connectVia Veri deposuna bağlanmak için kullanılacak Integration Runtime. Azure Integration Runtime veya Şirket İçinde Barındırılan Tümleştirme Çalışma Zamanı'nı (veri deponuz özel ağda bulunuyorsa) kullanabilirsiniz. Belirtilmezse, varsayılan Azure Integration Runtime'ı kullanır. No

Örnek:

{
    "name": "AmazonRedshiftLinkedService",
    "properties":
    {
        "type": "AmazonRedshift",
        "typeProperties":
        {
            "server": "<server name>",
            "database": "<database name>",
            "username": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Veri kümesi özellikleri

Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için veri kümeleri makalesine bakın. Bu bölümde Amazon Redshift veri kümesi tarafından desteklenen özelliklerin listesi sağlanır.

Amazon Redshift'ten veri kopyalamak için aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type Veri kümesinin tür özelliği şu şekilde ayarlanmalıdır: AmazonRedshiftTable Evet
schema Şemanın adı. Hayır (etkinlik kaynağında "sorgu" belirtilirse)
table Tablonun adı. Hayır (etkinlik kaynağında "sorgu" belirtilirse)
tableName Şema içeren tablonun adı. Bu özellik geriye dönük uyumluluk için desteklenir. Yeni iş yükü için ve table kullanınschema. Hayır (etkinlik kaynağında "sorgu" belirtilirse)

Örnek

{
    "name": "AmazonRedshiftDataset",
    "properties":
    {
        "type": "AmazonRedshiftTable",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Amazon Redshift linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Yazılan veri kümesini kullanıyorsanız RelationalTable , bu veri kümesi olduğu gibi desteklenirken, ileriye dönük yeni bir veri kümesini kullanmanız önerilir.

Kopyalama etkinliğinin özellikleri

Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için İşlem hatları makalesine bakın. Bu bölümde Amazon Redshift kaynağı tarafından desteklenen özelliklerin listesi sağlanır.

Kaynak olarak Amazon Redshift

Amazon Redshift'ten veri kopyalamak için kopyalama etkinliğindeki kaynak türünü AmazonRedshiftSource olarak ayarlayın. Kopyalama etkinliği kaynağı bölümünde aşağıdaki özellikler desteklenir:

Özellik Açıklama Gerekli
type Kopyalama etkinliği kaynağının type özelliği şu şekilde ayarlanmalıdır: AmazonRedshiftSource Evet
query Verileri okumak için özel sorguyu kullanın. Örneğin: MyTable'dan * öğesini seçin. Hayır (veri kümesinde "tableName" belirtilirse)
redshiftUnload Ayarlar Amazon Redshift UNLOAD kullanılırken özellik grubu. No
s3LinkedServiceName "AmazonS3" türüne bağlı bir hizmet adı belirterek geçici mağaza olarak kullanılacak bir Amazon S3'e başvurur. UNLOAD kullanıyorsanız Evet
bucketName Ara verileri depolamak için S3 demetini belirtin. Sağlanmazsa, hizmet otomatik olarak oluşturur. UNLOAD kullanıyorsanız Evet

Örnek: UNLOAD kullanarak kopyalama etkinliğinde Amazon Redshift kaynağı

"source": {
    "type": "AmazonRedshiftSource",
    "query": "<SQL query>",
    "redshiftUnloadSettings": {
        "s3LinkedServiceName": {
            "referenceName": "<Amazon S3 linked service>",
            "type": "LinkedServiceReference"
        },
        "bucketName": "bucketForUnload"
    }
}

Sonraki bölümden Amazon Redshift'ten verileri verimli bir şekilde kopyalamak için UNLOAD'ı kullanma hakkında daha fazla bilgi edinin.

Amazon Redshift'ten veri kopyalamak için UNLOAD kullanma

UNLOAD, Amazon Redshift tarafından sağlanan ve bir sorgunun sonuçlarını Amazon Simple Depolama Service'teki (Amazon S3) bir veya daha fazla dosyaya kaldırabilen bir mekanizmadır. Büyük veri kümesini Redshift'ten kopyalamak için Amazon tarafından önerilen yöntemdir.

Örnek: UNLOAD, aşamalı kopyalama ve PolyBase kullanarak Amazon Redshift'ten Azure Synapse Analytics'e veri kopyalama

Bu örnek kullanım örneği için kopyalama etkinliği , "redshiftUnload Ayarlar" içinde yapılandırıldığı şekilde Amazon Redshift'ten Amazon S3'e veri kaldırır ve ardından "hazırlama Ayarlar" bölümünde belirtildiği gibi verileri Amazon S3'ten Azure Blob'a kopyalar ve son olarak Verileri Azure Synapse Analytics'e yüklemek için PolyBase kullanır. Tüm ara biçim, kopyalama etkinliği tarafından düzgün şekilde işlenir.

Redshift to Azure Synapse Analytics copy workflow

"activities":[
    {
        "name": "CopyFromAmazonRedshiftToSQLDW",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "AmazonRedshiftDataset",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "AzureSQLDWDataset",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AmazonRedshiftSource",
                "query": "select * from MyTable",
                "redshiftUnloadSettings": {
                    "s3LinkedServiceName": {
                        "referenceName": "AmazonS3LinkedService",
                        "type": "LinkedServiceReference"
                    },
                    "bucketName": "bucketForUnload"
                }
            },
            "sink": {
                "type": "SqlDWSink",
                "allowPolyBase": true
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": "AzureStorageLinkedService",
                "path": "adfstagingcopydata"
            },
            "dataIntegrationUnits": 32
        }
    }
]

Amazon Redshift için veri türü eşlemesi

Amazon Redshift'ten veri kopyalarken, Amazon Redshift veri türlerinden hizmet içinde dahili olarak kullanılan ara veri türlerine aşağıdaki eşlemeler kullanılır. Kopyalama etkinliğinin kaynak şemayı ve veri türünü havuza nasıl eşlediğini öğrenmek için bkz . Şema ve veri türü eşlemeleri .

Amazon Redshift veri türü Ara hizmet veri türü
BİGİNT Int64
BOOLEAN Dize
CHAR String
DATE DateTime
ON -DA -LIK Ondalık
ÇIFT DUYARLıK Çift
TAMSAYI Int32
GERÇEK Tekli
SMALLİNT Int16
METİN String
TIMESTAMP DateTime
VARCHAR String

Arama etkinliği özellikleri

Özellikler hakkında ayrıntılı bilgi edinmek için Arama etkinliği'ne bakın.

Kopyalama etkinliği tarafından kaynak ve havuz olarak desteklenen veri depolarının listesi için bkz . desteklenen veri depoları.