Adatok másolása az Amazon Redshiftből az Azure Data Factory vagy a Synapse Analytics használatával
A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ez a cikk bemutatja, hogyan használható a másolási tevékenység az Azure Data Factoryben és a Synapse Analytics-folyamatokban az adatok Amazon Redshiftből való másolásához. A másolási tevékenység áttekintési cikkére épül, amely a másolási tevékenység általános áttekintését mutatja be.
Támogatott képességek
Ez az Amazon Redshift-összekötő a következő képességeket támogatja:
Támogatott képességek | IR |
---|---|
Copy tevékenység (forrás/-) | ① ② |
Keresési tevékenység | ① ② |
(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul
A másolási tevékenység által forrásként vagy fogadóként támogatott adattárak listáját a Támogatott adattárak táblában találja.
Ez az Amazon Redshift-összekötő támogatja az adatok lekérését a Redshiftből lekérdezéssel vagy a Redshift UNLOAD beépített támogatásával.
Tipp.
A redshiftből nagy mennyiségű adat másolása során a legjobb teljesítmény érdekében fontolja meg a beépített Redshift UNLOAD használatát az Amazon S3-on keresztül. A részletekért lásd: Adatok másolása az Amazon Redshift szakaszból a KIRAKODÁS használatával című témakörben.
Előfeltételek
- Ha saját üzemeltetésű integrációs modullal másol adatokat egy helyszíni adattárba, adjon hozzáférést az Integrációs modulnak (a gép IP-címének használatával) az Amazon Redshift-fürthöz. Útmutatásért lásd : Hozzáférés engedélyezése a fürthöz .
- Ha adatokat másol egy Azure-adattárba, tekintse meg az Azure Data Center IP-tartományait a számítási IP-címhez és az Azure-adatközpontok által használt SQL-tartományokhoz.
Első lépések
A Copy tevékenység folyamattal való végrehajtásához használja az alábbi eszközök vagy SDK-k egyikét:
- Az Adatok másolása eszköz
- The Azure portal
- A .NET SDK
- A Python SDK
- Azure PowerShell
- A REST API
- Az Azure Resource Manager-sablon
Társított szolgáltatás létrehozása az Amazon Redshifthez felhasználói felülettel
Az alábbi lépésekkel létrehozhat egy társított szolgáltatást az Amazon Redshifthez az Azure Portal felhasználói felületén.
Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd kattintson az Új gombra:
Keresse meg az Amazont, és válassza ki az Amazon Redshift-összekötőt.
Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.
Csatlakozás or konfigurációjának részletei
Az alábbi szakaszok az Amazon Redshift-összekötőre jellemző Data Factory-entitások definiálásához használt tulajdonságok részleteit ismertetik.
Társított szolgáltatás tulajdonságai
Az Amazon Redshift társított szolgáltatásához a következő tulajdonságok támogatottak:
Property | Leírás | Required |
---|---|---|
típus | A típustulajdonságnak a következőnek kell lennie: AmazonRedshift | Igen |
kiszolgáló | Az Amazon Redshift-kiszolgáló IP-címe vagy állomásneve. | Igen |
kikötő | Az Amazon Redshift-kiszolgáló által az ügyfélkapcsolatok figyelésére használt TCP-portok száma. | Nem, az alapértelmezett érték 5439 |
adatbázis | Az Amazon Redshift-adatbázis neve. | Igen |
username | Az adatbázishoz hozzáféréssel rendelkező felhasználó neve. | Igen |
jelszó | A felhasználói fiók jelszava. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. | Igen |
connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure Integration Runtime-ot vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha nincs megadva, az alapértelmezett Azure Integration Runtime-t használja. | Nem |
Példa
{
"name": "AmazonRedshiftLinkedService",
"properties":
{
"type": "AmazonRedshift",
"typeProperties":
{
"server": "<server name>",
"database": "<database name>",
"username": "<username>",
"password": {
"type": "SecureString",
"value": "<password>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Adathalmaz tulajdonságai
Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az adathalmazokról szóló cikkben találja. Ez a szakasz az Amazon Redshift-adatkészlet által támogatott tulajdonságok listáját tartalmazza.
Az Amazon Redshift adatainak másolásához a következő tulajdonságok támogatottak:
Property | Leírás | Required |
---|---|---|
típus | Az adathalmaz típustulajdonságának a következőnek kell lennie: AmazonRedshiftTable | Igen |
schema | A séma neve. | Nem (ha "lekérdezés" van megadva a tevékenységforrásban) |
table | A tábla neve. | Nem (ha "lekérdezés" van megadva a tevékenységforrásban) |
tableName | A sématáblázat neve. Ez a tulajdonság támogatja a visszamenőleges kompatibilitást. Új számítási feladatok használata és table használataschema . |
Nem (ha "lekérdezés" van megadva a tevékenységforrásban) |
Példa
{
"name": "AmazonRedshiftDataset",
"properties":
{
"type": "AmazonRedshiftTable",
"typeProperties": {},
"schema": [],
"linkedServiceName": {
"referenceName": "<Amazon Redshift linked service name>",
"type": "LinkedServiceReference"
}
}
}
Ha gépelt adatkészletet használt RelationalTable
, az továbbra is támogatott, miközben a rendszer azt javasolja, hogy használja az újat.
Másolási tevékenység tulajdonságai
A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz az Amazon Redshift-forrás által támogatott tulajdonságok listáját tartalmazza.
Amazon Redshift mint forrás
Ha adatokat szeretne másolni az Amazon Redshiftből, állítsa be a másolási tevékenység forrástípusát az AmazonRedshiftSource-ra. A másolási tevékenység forrás szakaszában a következő tulajdonságok támogatottak:
Property | Leírás | Required |
---|---|---|
típus | A másolási tevékenység forrásának típustulajdonságának a következőnek kell lennie: AmazonRedshiftSource | Igen |
Lekérdezés | Adatok olvasása az egyéni lekérdezés használatával. Például: válassza a * lehetőséget a MyTable-ból. | Nem (ha "tableName" van megadva az adathalmazban) |
redshiftUnload Gépház | Tulajdonságcsoport az Amazon Redshift UNLOAD használatakor. | Nem |
s3LinkedServiceName | Egy átmeneti tárolóként használandó Amazon S3-ra hivatkozik egy "AmazonS3" típusú társított szolgáltatásnév megadásával. | Igen, ha AZ ELTÁVOLÍTÁSt használja |
bucketName | A köztes adatok tárolásához jelölje meg az S3 gyűjtőt. Ha nincs megadva, a szolgáltatás automatikusan létrehozza azt. | Igen, ha AZ ELTÁVOLÍTÁSt használja |
Példa: Amazon Redshift-forrás másolási tevékenységben az UNLOAD használatával
"source": {
"type": "AmazonRedshiftSource",
"query": "<SQL query>",
"redshiftUnloadSettings": {
"s3LinkedServiceName": {
"referenceName": "<Amazon S3 linked service>",
"type": "LinkedServiceReference"
},
"bucketName": "bucketForUnload"
}
}
További információ arról, hogyan másolhat hatékonyan adatokat az Amazon Redshiftből a KÖVETKEZŐ szakaszból a UNLOAD használatával.
Adatok másolása az Amazon Redshiftből a UNLOAD használatával
A UNLOAD az Amazon Redshift által biztosított mechanizmus, amely eltávolíthatja egy lekérdezés eredményét egy vagy több fájlba az Amazon Simple Storage Service (Amazon S3) szolgáltatásban. Az Amazon így javasolja a nagy adatkészletek másolását a Redshiftből.
Példa: adatok másolása az Amazon Redshiftből az Azure Synapse Analyticsbe a UNLOAD, a szakaszos másolás és a PolyBase használatával
Ebben a mintahasználati esetben a másolási tevékenység eltávolítja az adatokat az Amazon Redshiftből az Amazon S3-ba a "redshiftUnload Gépház" beállításnak megfelelően, majd adatokat másol az Amazon S3-ból az Azure Blobba az "előkészítés Gépház" szakaszban megadott módon, végül a PolyBase használatával tölti be az adatokat az Azure Synapse Analyticsbe. Az összes köztes formátumot a másolási tevékenység megfelelően kezeli.
"activities":[
{
"name": "CopyFromAmazonRedshiftToSQLDW",
"type": "Copy",
"inputs": [
{
"referenceName": "AmazonRedshiftDataset",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "AzureSQLDWDataset",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "AmazonRedshiftSource",
"query": "select * from MyTable",
"redshiftUnloadSettings": {
"s3LinkedServiceName": {
"referenceName": "AmazonS3LinkedService",
"type": "LinkedServiceReference"
},
"bucketName": "bucketForUnload"
}
},
"sink": {
"type": "SqlDWSink",
"allowPolyBase": true
},
"enableStaging": true,
"stagingSettings": {
"linkedServiceName": "AzureStorageLinkedService",
"path": "adfstagingcopydata"
},
"dataIntegrationUnits": 32
}
}
]
Az Amazon Redshift adattípus-leképezése
Az adatok Amazon Redshiftből történő másolásakor az alábbi leképezéseket használja az Amazon Redshift adattípusaiból a szolgáltatáson belül használt köztes adattípusokra. A séma- és adattípus-leképezések segítségével megtudhatja , hogy a másolási tevékenység hogyan rendeli le a forrásséma és az adattípust a fogadóhoz.
Amazon Redshift adattípus | Köztes szolgáltatás adattípusa |
---|---|
BIGINT | Int64 |
LOGIKAI | Sztring |
CHAR | Sztring |
DÁTUM | DateTime |
DECIMÁLIS | Decimális |
DUPLA PONTOSSÁG | Dupla |
EGÉSZ | Int32 |
VALÓDI | Egyszeres |
SMALLINT | Int16 |
SZÖVEG | Sztring |
TIMESTAMP | DateTime |
VARCHAR | Sztring |
Keresési tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a keresési tevékenységet.
Kapcsolódó tartalom
A másolási tevékenység által forrásként és fogadóként támogatott adattárak listáját a támogatott adattárakban találja.