Adatok másolása az Amazon Redshiftből az Azure Data Factory vagy a Synapse Analytics használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ez a cikk bemutatja, hogyan használható a másolási tevékenység az Azure Data Factoryben és a Synapse Analytics-folyamatokban az adatok Amazon Redshiftből való másolásához. A másolási tevékenység áttekintési cikkére épül, amely a másolási tevékenység általános áttekintését mutatja be.

Támogatott képességek

Ez az Amazon Redshift-összekötő a következő képességeket támogatja:

Támogatott képességek IR
Copy tevékenység (forrás/-) ① ②
Keresési tevékenység ① ②

(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul

A másolási tevékenység által forrásként vagy fogadóként támogatott adattárak listáját a Támogatott adattárak táblában találja.

Ez az Amazon Redshift-összekötő támogatja az adatok lekérését a Redshiftből lekérdezéssel vagy a Redshift UNLOAD beépített támogatásával.

Tipp.

A redshiftből nagy mennyiségű adat másolása során a legjobb teljesítmény érdekében fontolja meg a beépített Redshift UNLOAD használatát az Amazon S3-on keresztül. A részletekért lásd: Adatok másolása az Amazon Redshift szakaszból a KIRAKODÁS használatával című témakörben.

Előfeltételek

  • Ha saját üzemeltetésű integrációs modullal másol adatokat egy helyszíni adattárba, adjon hozzáférést az Integrációs modulnak (a gép IP-címének használatával) az Amazon Redshift-fürthöz. Útmutatásért lásd : Hozzáférés engedélyezése a fürthöz .
  • Ha adatokat másol egy Azure-adattárba, tekintse meg az Azure Data Center IP-tartományait a számítási IP-címhez és az Azure-adatközpontok által használt SQL-tartományokhoz.

Első lépések

A Copy tevékenység folyamattal való végrehajtásához használja az alábbi eszközök vagy SDK-k egyikét:

Társított szolgáltatás létrehozása az Amazon Redshifthez felhasználói felülettel

Az alábbi lépésekkel létrehozhat egy társított szolgáltatást az Amazon Redshifthez az Azure Portal felhasználói felületén.

  1. Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd kattintson az Új gombra:

  2. Keresse meg az Amazont, és válassza ki az Amazon Redshift-összekötőt.

    Select the Amazon Redshift connector.

  3. Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.

    Configure a linked service to Amazon Redshift.

Csatlakozás or konfigurációjának részletei

Az alábbi szakaszok az Amazon Redshift-összekötőre jellemző Data Factory-entitások definiálásához használt tulajdonságok részleteit ismertetik.

Társított szolgáltatás tulajdonságai

Az Amazon Redshift társított szolgáltatásához a következő tulajdonságok támogatottak:

Property Leírás Required
típus A típustulajdonságnak a következőnek kell lennie: AmazonRedshift Igen
kiszolgáló Az Amazon Redshift-kiszolgáló IP-címe vagy állomásneve. Igen
kikötő Az Amazon Redshift-kiszolgáló által az ügyfélkapcsolatok figyelésére használt TCP-portok száma. Nem, az alapértelmezett érték 5439
adatbázis Az Amazon Redshift-adatbázis neve. Igen
username Az adatbázishoz hozzáféréssel rendelkező felhasználó neve. Igen
jelszó A felhasználói fiók jelszava. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. Igen
connectVia Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure Integration Runtime-ot vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha nincs megadva, az alapértelmezett Azure Integration Runtime-t használja. Nem

Példa

{
    "name": "AmazonRedshiftLinkedService",
    "properties":
    {
        "type": "AmazonRedshift",
        "typeProperties":
        {
            "server": "<server name>",
            "database": "<database name>",
            "username": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Adathalmaz tulajdonságai

Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az adathalmazokról szóló cikkben találja. Ez a szakasz az Amazon Redshift-adatkészlet által támogatott tulajdonságok listáját tartalmazza.

Az Amazon Redshift adatainak másolásához a következő tulajdonságok támogatottak:

Property Leírás Required
típus Az adathalmaz típustulajdonságának a következőnek kell lennie: AmazonRedshiftTable Igen
schema A séma neve. Nem (ha "lekérdezés" van megadva a tevékenységforrásban)
table A tábla neve. Nem (ha "lekérdezés" van megadva a tevékenységforrásban)
tableName A sématáblázat neve. Ez a tulajdonság támogatja a visszamenőleges kompatibilitást. Új számítási feladatok használata és table használataschema. Nem (ha "lekérdezés" van megadva a tevékenységforrásban)

Példa

{
    "name": "AmazonRedshiftDataset",
    "properties":
    {
        "type": "AmazonRedshiftTable",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Amazon Redshift linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Ha gépelt adatkészletet használt RelationalTable , az továbbra is támogatott, miközben a rendszer azt javasolja, hogy használja az újat.

Másolási tevékenység tulajdonságai

A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz az Amazon Redshift-forrás által támogatott tulajdonságok listáját tartalmazza.

Amazon Redshift mint forrás

Ha adatokat szeretne másolni az Amazon Redshiftből, állítsa be a másolási tevékenység forrástípusát az AmazonRedshiftSource-ra. A másolási tevékenység forrás szakaszában a következő tulajdonságok támogatottak:

Property Leírás Required
típus A másolási tevékenység forrásának típustulajdonságának a következőnek kell lennie: AmazonRedshiftSource Igen
Lekérdezés Adatok olvasása az egyéni lekérdezés használatával. Például: válassza a * lehetőséget a MyTable-ból. Nem (ha "tableName" van megadva az adathalmazban)
redshiftUnload Gépház Tulajdonságcsoport az Amazon Redshift UNLOAD használatakor. Nem
s3LinkedServiceName Egy átmeneti tárolóként használandó Amazon S3-ra hivatkozik egy "AmazonS3" típusú társított szolgáltatásnév megadásával. Igen, ha AZ ELTÁVOLÍTÁSt használja
bucketName A köztes adatok tárolásához jelölje meg az S3 gyűjtőt. Ha nincs megadva, a szolgáltatás automatikusan létrehozza azt. Igen, ha AZ ELTÁVOLÍTÁSt használja

Példa: Amazon Redshift-forrás másolási tevékenységben az UNLOAD használatával

"source": {
    "type": "AmazonRedshiftSource",
    "query": "<SQL query>",
    "redshiftUnloadSettings": {
        "s3LinkedServiceName": {
            "referenceName": "<Amazon S3 linked service>",
            "type": "LinkedServiceReference"
        },
        "bucketName": "bucketForUnload"
    }
}

További információ arról, hogyan másolhat hatékonyan adatokat az Amazon Redshiftből a KÖVETKEZŐ szakaszból a UNLOAD használatával.

Adatok másolása az Amazon Redshiftből a UNLOAD használatával

A UNLOAD az Amazon Redshift által biztosított mechanizmus, amely eltávolíthatja egy lekérdezés eredményét egy vagy több fájlba az Amazon Simple Storage Service (Amazon S3) szolgáltatásban. Az Amazon így javasolja a nagy adatkészletek másolását a Redshiftből.

Példa: adatok másolása az Amazon Redshiftből az Azure Synapse Analyticsbe a UNLOAD, a szakaszos másolás és a PolyBase használatával

Ebben a mintahasználati esetben a másolási tevékenység eltávolítja az adatokat az Amazon Redshiftből az Amazon S3-ba a "redshiftUnload Gépház" beállításnak megfelelően, majd adatokat másol az Amazon S3-ból az Azure Blobba az "előkészítés Gépház" szakaszban megadott módon, végül a PolyBase használatával tölti be az adatokat az Azure Synapse Analyticsbe. Az összes köztes formátumot a másolási tevékenység megfelelően kezeli.

Redshift to Azure Synapse Analytics copy workflow

"activities":[
    {
        "name": "CopyFromAmazonRedshiftToSQLDW",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "AmazonRedshiftDataset",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "AzureSQLDWDataset",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AmazonRedshiftSource",
                "query": "select * from MyTable",
                "redshiftUnloadSettings": {
                    "s3LinkedServiceName": {
                        "referenceName": "AmazonS3LinkedService",
                        "type": "LinkedServiceReference"
                    },
                    "bucketName": "bucketForUnload"
                }
            },
            "sink": {
                "type": "SqlDWSink",
                "allowPolyBase": true
            },
            "enableStaging": true,
            "stagingSettings": {
                "linkedServiceName": "AzureStorageLinkedService",
                "path": "adfstagingcopydata"
            },
            "dataIntegrationUnits": 32
        }
    }
]

Az Amazon Redshift adattípus-leképezése

Az adatok Amazon Redshiftből történő másolásakor az alábbi leképezéseket használja az Amazon Redshift adattípusaiból a szolgáltatáson belül használt köztes adattípusokra. A séma- és adattípus-leképezések segítségével megtudhatja , hogy a másolási tevékenység hogyan rendeli le a forrásséma és az adattípust a fogadóhoz.

Amazon Redshift adattípus Köztes szolgáltatás adattípusa
BIGINT Int64
LOGIKAI Sztring
CHAR Sztring
DÁTUM DateTime
DECIMÁLIS Decimális
DUPLA PONTOSSÁG Dupla
EGÉSZ Int32
VALÓDI Egyszeres
SMALLINT Int16
SZÖVEG Sztring
TIMESTAMP DateTime
VARCHAR Sztring

Keresési tevékenység tulajdonságai

A tulajdonságok részleteinek megismeréséhez tekintse meg a keresési tevékenységet.

A másolási tevékenység által forrásként és fogadóként támogatott adattárak listáját a támogatott adattárakban találja.