Teradata-migrálások tervezése és teljesítménye

Cikk
12/13/2023

Ez a cikk egy hétrészes sorozat első része, amely útmutatást nyújt a Teradata-ból az Azure Synapse Analyticsbe való migráláshoz. A cikk középpontjában a tervezés és a teljesítmény ajánlott eljárásai kerülnek.

Áttekintés

A Teradata adattárházrendszerek számos meglévő felhasználója szeretné kihasználni a modern felhőkörnyezetek által nyújtott innovációkat. A szolgáltatásként nyújtott infrastruktúra (IaaS) és a szolgáltatásként nyújtott platform (PaaS) felhőkörnyezetek lehetővé teszik az infrastruktúra-karbantartáshoz és a platformfejlesztéshez hasonló feladatokat a felhőszolgáltatónak.

Tipp.

Az Azure-környezet a képességek és eszközök átfogó készletét tartalmazza, nem csupán egy adatbázist.

Bár a Teradata és az Azure Synapse Analytics egyaránt olyan SQL-adatbázis, amely nagymértékben párhuzamos feldolgozási (MPP) technikákat használ a rendkívül nagy adatmennyiségek nagy lekérdezési teljesítményének eléréséhez, a megközelítésben van néhány alapvető különbség:

Az örökölt Teradata-rendszereket gyakran telepítik a helyszínen, és saját hardvert használnak, míg az Azure Synapse felhőalapú, és Azure Storage- és számítási erőforrásokat használ.
Mivel a tárolási és számítási erőforrások különállóak az Azure-környezetben, és rugalmas skálázási képességgel rendelkeznek, ezek az erőforrások egymástól függetlenül felfelé vagy lefelé skálázhatók.
Szükség szerint szüneteltetheti vagy átméretezheti az Azure Synapse-t az erőforrás-használat és a költségek csökkentése érdekében.
A Teradata-konfiguráció frissítése jelentős feladat, amely extra fizikai hardvert és esetleg hosszadalmas adatbázis-újrakonfigurálást vagy újratöltést is magában foglal.

A Microsoft Azure egy globálisan elérhető, rendkívül biztonságos, skálázható felhőkörnyezet, amely magában foglalja az Azure Synapse-t, valamint a támogató eszközök és képességek ökoszisztémáját. A következő diagram az Azure Synapse ökoszisztémáját foglalja össze.

Chart showing the Azure Synapse ecosystem of supporting tools and capabilities.

Az Azure Synapse a legkiválóbb relációs adatbázis-teljesítményt nyújt olyan technikákkal, mint az MPP és az automatizált gyorsítótárazás több szintje a gyakran használt adatokhoz. Ezeknek a technikáknak az eredményeit olyan független teljesítménymutatókban tekintheti meg, mint amilyen például a GigaOm által nemrég futtatott módszer, amely összehasonlítja az Azure Synapse-t más népszerű felhőalapú adattárház-ajánlatokkal. Az Azure Synapse-környezetbe migrált ügyfelek számos előnnyel járnak, többek között az alábbiakat:

Jobb teljesítmény és ár/teljesítmény.
Nagyobb rugalmasság és rövidebb érték.
Gyorsabb kiszolgálótelepítés és alkalmazásfejlesztés.
Rugalmas méretezhetőség – csak a tényleges használatért kell fizetnie.
Továbbfejlesztett biztonság/megfelelőség.
Csökkentett tárolási és vészhelyreállítási költségek.
Alacsonyabb általános TCO, jobb költségkontroll és egyszerűsített működési kiadások (OPEX).

Az előnyök maximalizálása érdekében migráljon új vagy meglévő adatokat és alkalmazásokat az Azure Synapse platformra. A migrálás számos szervezetben magában foglalja egy meglévő adattárház áthelyezését egy örökölt helyszíni platformról, például a Teradata-ból az Azure Synapse-ba. Magas szinten a migrálási folyamat az alábbi lépéseket tartalmazza:

Előkészítés 🡆

Hatókör definiálása – migrálandó.
Adatok és folyamatok leltárának összeállítása a migráláshoz.
Adatmodell-módosítások definiálása (ha van ilyen).
Forrásadat-kinyerési mechanizmus definiálása.
Azonosítsa a használni kívánt azure-beli és külső eszközöket és funkciókat.
Az új platformon korán betanítsa a személyzetet.
Az Azure-célplatform beállítása.

Migrálás 🡆

Kezdjen kicsi és egyszerű.
Ahol csak lehetséges, automatizálja.
A migrálási erőfeszítések csökkentése érdekében használja az Azure beépített eszközeit és szolgáltatásait.
Táblák és nézetek metaadatainak migrálása.
A karbantartandó előzményadatok migrálása.
Tárolt eljárások és üzleti folyamatok migrálása vagy újrabontása.
ETL/ELT növekményes terhelési folyamatok migrálása vagy újrabontása.

Migrálás után

A folyamat minden szakaszának figyelése és dokumentálása.
A megszerzett tapasztalatokkal sablont hozhat létre a jövőbeli migrálásokhoz.
Szükség esetén újra megtervezi az adatmodellt (új platformteljesítmény és méretezhetőség használatával).
Alkalmazások és lekérdezési eszközök tesztelése.
Mérje fel és optimalizálja a lekérdezési teljesítményt.

Ez a cikk általános információkat és irányelveket tartalmaz a teljesítményoptimalizáláshoz, amikor egy adattárházat egy meglévő Netezza-környezetből az Azure Synapse-ba migrál. A teljesítményoptimalizálás célja, hogy a séma migrálása után az Azure Synapse-ban ugyanazt vagy jobb adatraktár-teljesítményt érje el.

Design considerations

Migrálás hatóköre

Amikor Teradata-környezetből való migrálásra készül, fontolja meg az alábbi migrálási lehetőségeket.

Válassza ki a kezdeti migrálás számítási feladatát

Az örökölt Teradata-környezetek általában idővel fejlődtek, hogy több témakört és vegyes számítási feladatot foglaljanak magukban. Amikor eldönti, hogy hol kezdjen egy migrálási projekttel, válasszon egy területet, ahol a következő lehetőségek közül választhat:

Az Azure Synapse-be való migrálás életképességének igazolása az új környezet előnyeinek gyors biztosításával.
Lehetővé teszi a házon belüli műszaki személyzet számára, hogy releváns tapasztalatokat szerezzen azokkal a folyamatokkal és eszközökkel kapcsolatban, amelyeket más területek migrálásakor fognak használni.
Hozzon létre egy sablont a forrás Teradata-környezetre és a már meglévő eszközökre és folyamatokra vonatkozó további migrálásokhoz.

A Teradata-ból való kezdeti migrálásra jó jelölt, környezeti támogatás az előző elemeket, és:

Online tranzakciófeldolgozási (OLTP) számítási feladat helyett BI/Analytics számítási feladatot implementál.
Van egy adatmodellje, például csillag- vagy hópehelyséma, amely minimális módosítással migrálható.

Tipp.

Hozzon létre egy leltárt az áttelepítendő objektumokról, és dokumentálja az áttelepítési folyamatot.

A kezdeti migrálás során a migrált adatok mennyiségének elég nagynak kell lennie az Azure Synapse-környezet képességeinek és előnyeinek bemutatásához, de nem túl nagy az érték gyors bemutatásához. Az 1–10 terabájtos tartományban jellemző a méret.

A kezdeti migrálási projektnél minimalizálja a kockázatot, az erőfeszítést és a migrálási időt, hogy gyorsan láthassa az Azure-felhőkörnyezet előnyeit, és a migrálás hatókörét csak az adatpiacokra, például egy Teradata-raktár OLAP DB-részére korlátozza. Az átemelési és a fázisalapú migrálási megközelítés egyaránt csak az adatpiacokra korlátozza a kezdeti migrálás hatókörét, és nem foglalkozik a szélesebb körű migrálási szempontokkal, például az ETL-migrálással és az előzményadatok migrálásával. Ezeket a szempontokat azonban a projekt későbbi szakaszaiban is kezelheti, miután a migrált adattároló réteget újra kitöltötte az adatokkal és a szükséges buildelési folyamatokkal.

A migrálás emelése és váltása a fázisos megközelítéssel szemben

A migrálásnak általában két típusa van, függetlenül a tervezett migrálás céljától és hatókörétől: az átemelés és az eltolódás a jelenlegi állapotban, és egy olyan fázisalapú megközelítés, amely magában foglalja a változásokat.

Átemelés

Az átemeléses migrálás során a meglévő adatmodellek, például a csillagséma változatlanul migrálva lesznek az új Azure Synapse-platformra. Ez a megközelítés minimalizálja a kockázatokat és a migrálási időt azáltal, hogy csökkenti az Azure-felhőkörnyezetbe való áttérés előnyeinek eléréséhez szükséges munkát. A lift és a shift migrálása jó választás az alábbi forgatókönyvekhez:

Meglévő Teradata-környezettel rendelkezik, amely egyetlen áttelepítendő adatpiacmal rendelkezik, vagy
Meglévő Teradata-környezete van olyan adatokkal, amelyek már jól megtervezett csillag- vagy hópehelysémában vannak, vagy
A modern felhőkörnyezetbe való áttérés idő- és költségterheléssel jár.

Tipp.

Az emelés és a váltás jó kiindulópont, még akkor is, ha a következő fázisok módosításokat vezetnek be az adatmodellben.

A módosításokat magában foglaló fázisos megközelítés

Ha egy régi adattárház hosszú ideig fejlődött, előfordulhat, hogy újra kell terveznie a szükséges teljesítményszintek fenntartásához. Előfordulhat, hogy újra kell terveznie, hogy támogassa az új adatokat, például az IoT-streameket. Az újratervezési folyamat részeként migráljon az Azure Synapse-be, hogy kihasználhassa a méretezhető felhőkörnyezet előnyeit. A migrálás a mögöttes adatmodell módosítását is magában foglalhatja, például az Inmon-modellről az adattárolóra való áttérést.

A Microsoft azt javasolja, hogy a meglévő adatmodellt az Azure-ba (opcionálisan egy Azure-beli virtuálisgép-teradata-példány használatával) és az Azure-környezet teljesítményének és rugalmasságának használatával helyezhesse át az újratervezési módosításokat. Így az Azure képességeivel anélkül hajthatja végre a módosításokat, hogy az hatással lenne a meglévő forrásrendszerre.

Azure-beli virtuálisgép-teradata-példány használata migrálás részeként

Helyszíni Teradata-környezetből való migráláskor az Azure-ban a felhőalapú tárolás és a rugalmas méretezhetőség segítségével létrehozhat egy Teradata-példányt egy virtuális gépen belül. Ez a megközelítés a Teradata-példányt a cél Azure Synapse-környezettel válogatja össze. A szabványos Teradata-segédprogramok( például a Teradata Parallel Data Transporter) használatával hatékonyan helyezheti át a migrált Teradata-táblák részhalmazát a virtuálisgép-példányra. Ezután minden további migrálási feladat az Azure-környezetben is előfordulhat. Ez a megközelítés számos előnnyel jár:

Az adatok kezdeti replikálása után a forrásrendszert nem érintik a migrálási feladatok.
Az Azure-környezetben ismerős Teradata-felületek, -eszközök és -segédprogramok érhetők el.
Az Azure-környezet elhárítja a helyszíni forrásrendszer és a felhőbeli célrendszer közötti hálózati sávszélesség rendelkezésre állásával kapcsolatos esetleges problémákat.
Az olyan eszközök, mint az Azure Data Factory, meghívhatnak olyan segédprogramokat, mint a Teradata Parallel Transporter, az adatok hatékony és gyors migrálása érdekében.
A migrálási folyamatot teljes egészében az Azure-környezetben vezényelheti és szabályozhatja.

Tipp.

Az Azure-beli virtuális gépek használatával ideiglenes Teradata-példányt hozhat létre a migrálás felgyorsítása és a forrásrendszerre gyakorolt hatás minimalizálása érdekében.

Metaadat-alapú migrálás implementálása az Azure Data Factory használatával

Az Azure-környezet képességeivel automatizálhatja és vezényelheti a migrálási folyamatot. Ez a megközelítés minimálisra csökkenti a meglévő Netezza-környezet teljesítménybeli találatait, amelyek esetleg már a kapacitás közelében futnak.

Az Azure Data Factory egy felhőalapú adatintegrációs szolgáltatás, amely támogatja az adatvezérelt munkafolyamatok létrehozását a felhőben, amelyek koordinálják és automatizálják az adatáthelyezést és az adatátalakítást. A Data Factory használatával olyan adatvezérelt munkafolyamatokat (folyamatokat) hozhat létre és ütemezhet, amelyek különböző adattárakból származó adatokat használnak be. A Data Factory olyan számítási szolgáltatások használatával tudja feldolgozni és átalakítani az adatokat, mint az Azure HDInsight Hadoop, a Spark, az Azure Data Lake Analytics és az Azure Machine Tanulás.

Amikor Data Factory-létesítményeket szeretne használni a migrálási folyamat kezeléséhez, hozzon létre olyan metaadatokat, amelyek felsorolják az összes migrálni kívánt adattáblát és azok helyét.

Tervezési különbségek a Teradata és az Azure Synapse között

Ahogy korábban említettük, a Teradata és az Azure Synapse Analytics-adatbázisok megközelítésében van néhány alapvető különbség, és ezeket a különbségeket a következő szakaszban tárgyaljuk.

Több adatbázis és egyetlen adatbázis és séma

A Teradata-környezet gyakran több különálló adatbázist tartalmaz. Lehetnek például különálló adatbázisok a következőkhöz: adatbetöltési és előkészítési táblák, alapvető raktártáblák és adatpiacok (más néven szemantikai réteg). Az ETL- vagy ELT-folyamatfolyamatok adatbázisközi illesztéseket implementálhatnak, és adatokat helyezhetnek át a különálló adatbázisok között.

Ezzel szemben az Azure Synapse-környezet egyetlen adatbázist tartalmaz, és sémákkal elválasztja a táblákat logikailag különálló csoportokra. Javasoljuk, hogy a cél Azure Synapse-adatbázisban lévő sémák sorozatával utánozza a Teradata-környezetből migrált különálló adatbázisokat. Ha a Teradata-környezet már használ sémákat, előfordulhat, hogy új elnevezési konvenciót kell használnia, amikor a meglévő Teradata-táblákat és nézeteket az új környezetbe helyezi át. Összefűzheti például a meglévő Teradata-sémát és a táblaneveket az új Azure Synapse-táblanévvel, és az új környezet sémaneveit használva megtarthatja az eredeti különálló adatbázisneveket. Ha a sémakonszolidáció elnevezése pontokkal rendelkezik, az Azure Synapse Spark problémákat tapasztalhat. Bár a logikai struktúrák fenntartásához sql-nézeteket használhat az alapul szolgáló táblákon, ennek a megközelítésnek vannak lehetséges hátrányai:

Az Azure Synapse nézetei írásvédettek, ezért az adatok frissítésének az alapul szolgáló alaptáblákon kell végbe mennie.
Előfordulhat, hogy már létezik egy vagy több nézetréteg, és egy további nézetréteg hozzáadása hatással lehet a teljesítményre és a támogatottságra, mert a beágyazott nézetek hibaelhárítása nehéz.

Tipp.

Több adatbázist egyesíthet egyetlen adatbázisba az Azure Synapse-ban, és sémanevek használatával logikailag elválaszthatja a táblákat.

Táblázatokkal kapcsolatos szempontok

Ha táblákat migrál különböző környezetek között, általában csak a nyers adatok és a fizikai migrálást leíró metaadatok. A forrásrendszer más adatbáziselemei, például az indexek általában nem lesznek migrálva, mert szükségtelenek vagy más módon implementálhatók az új környezetben. A forráskörnyezet teljesítményoptimalizálásai( például indexek) jelzik, hogy hová adhat teljesítményoptimalizálást az új környezetben. Ha például egy tábla a forrás Teradata-környezetben nem egyedi másodlagos indexet (NUSI) tartalmaz, amely azt javasolja, hogy egy nem fürtözött indexet hozzon létre az Azure Synapse-ban. Más natív teljesítményoptimalizálási technikák, például a táblareplikáció alkalmazhatóbbak lehetnek, mint a hasonló indexek egyenes létrehozása.

Tipp.

A meglévő indexek a migrált raktárban lévő indexelési jelöltekre utalnak.

Az adatbázis magas rendelkezésre állása

A Teradata a lehetőséggel támogatja a FALLBACK csomópontok közötti adatreplikálást, amely egy adott csomóponton fizikailag található táblasorokat replikál a rendszer egy másik csomópontjára. Ez a megközelítés garantálja, hogy csomóponthiba esetén az adatok nem vesznek el, és a feladatátvételi forgatókönyvek alapja.

Az Azure Synapse Analytics magas rendelkezésre állású architektúrájának célja, hogy az adatbázis az idő 99,9%-ában működjön anélkül, hogy aggódnia kellene a karbantartási műveletek és a kimaradások hatásai miatt. Az SLA-val kapcsolatos további információkért lásd az Azure Synapse Analytics SLA-ját. Az Azure automatikusan kezeli a kritikus karbantartási feladatokat, például a javításokat, a biztonsági mentéseket, valamint a Windows- és SQL-frissítéseket. Az Azure automatikusan kezeli a nem tervezett eseményeket, például a mögöttes hardver, szoftver vagy hálózat hibáit.

Az Azure Synapse-beli adattárolásról automatikusan biztonsági másolatot készít a rendszer pillanatképekkel. Ezek a pillanatképek a visszaállítási pontokat létrehozó szolgáltatás beépített funkciói. You don't have to enable this capability. A felhasználók jelenleg nem törölhetik azokat az automatikus visszaállítási pontokat, amelyeket a szolgáltatás a szolgáltatásszint-szerződések (SLA-k) fenntartására használ a helyreállításhoz.

A dedikált Azure Synapse SQL-készlet a nap folyamán pillanatképeket készít az adattárházról, hogy hét napig elérhető visszaállítási pontokat hozzon létre. Ez a megőrzési időszak nem módosítható. Az Azure Synapse egy nyolc órás helyreállítási pont célkitűzést (RPO) támogat. Az adattárházat az előző hét napban készített pillanatképek bármelyikéből visszaállíthatja az elsődleges régióban. Ha részletesebb biztonsági mentésre van szüksége, használhat egy másik felhasználó által definiált beállítást.

Nem támogatott Teradata-táblatípusok

A Teradata támogatja a speciális táblázattípusokat az idősorokhoz és az időbeli adatokhoz. Az Azure Synapse nem támogatja közvetlenül ezeknek a táblázattípusoknak a szintaxisát és néhány függvényét. Az adatokat azonban migrálhatja egy standard táblába az Azure Synapse-ban, ha megfelelteti a megfelelő adattípusokat, és indexeli vagy particionálja a dátum/idő oszlopot.

Tipp.

Az Azure Synapse standard táblái támogatják a migrált Teradata idősorokat és időbeli adatokat.

A Teradata időbeli lekérdezési funkciókat valósít meg a lekérdezés újraírásával, hogy további szűrőket adjon hozzá egy időbeli lekérdezéshez a vonatkozó dátumtartomány korlátozása érdekében. Ha ezt a funkciót a forrás Teradata-környezetből szeretné migrálni, adja hozzá a további szűrést a releváns időbeli lekérdezésekhez.

Az Azure környezeti támogatás idősorozat-elemzéseket az idősoros adatok nagy léptékű összetett elemzéséhez. Ez a funkció az IoT-adatelemző alkalmazásokra vonatkozik.

AZ SQL DML szintaxisbeli eltérései

Az SQL Data Manipulation Language (DML) szintaxisbeli különbségei vannak a Teradata SQL és az Azure Synapse T-SQL között:

QUALIFY: A Teradata támogatja az operátort QUALIFY . Például:

SELECT col1
FROM tab1
WHERE col1='XYZ'
QUALIFY ROW_NUMBER () OVER (PARTITION by
col1 ORDER BY col1) = 1;

Az Egyenértékű Azure Synapse szintaxisa a következő:

SELECT * FROM (
SELECT col1, ROW_NUMBER () OVER (PARTITION by col1 ORDER BY col1) rn
FROM tab1 WHERE col1='XYZ'
) WHERE rn = 1;

Dátum aritmetika: Az Azure Synapse olyan operátorokkal rendelkezik, mint DATEADD például és DATEDIFF, amelyek felhasználhatók a mezőkön vagy DATETIME a mezőkönDATE. A Teradata támogatja a közvetlen kivonást olyan dátumokon, mint a SELECT DATE1 - DATE2 FROM...
GROUP BY: a GROUP BY sorszámhoz explicit módon adjon meg egy T-SQL-oszlopnevet.

LIKE ANY: A Teradata a következő szintaxist támogatja LIKE ANY :

SELECT * FROM CUSTOMER
WHERE POSTCODE LIKE ANY
('CV1%', 'CV2%', 'CV3%');

Az Azure Synapse szintaxisának megfelelője a következő:

SELECT * FROM CUSTOMER
WHERE
(POSTCODE LIKE 'CV1%') OR (POSTCODE LIKE 'CV2%') OR (POSTCODE LIKE 'CV3%');

A rendszerbeállításoktól függően a Teradata karakter-összehasonlításai alapértelmezés szerint érzéketlenek lehetnek. Az Azure Synapse-ban a karakter-összehasonlítások mindig megkülönböztetik a kis- és nagybetűket.

Függvények, tárolt eljárások, eseményindítók és sorozatok

Amikor egy adattárházat egy érett környezetből, például a Teradata-ból migrál, valószínűleg az egyszerű tábláktól és nézetektől eltérő elemeket kell migrálnia. Ilyenek például a függvények, a tárolt eljárások, az eseményindítók és a sorozatok. Ellenőrizze, hogy az Azure-környezetben lévő eszközök helyettesíthetik-e a függvények, a tárolt eljárások és a szekvenciák funkcióit, mivel általában hatékonyabb a beépített Azure-eszközök használata, mint az Azure Synapse elemeinek újrakódolása.

Az előkészítési fázis részeként hozzon létre egy leltárt az áttelepítendő objektumokról, határozzon meg egy kezelési módszert, és foglalja le a megfelelő erőforrásokat a migrálási tervben.

Az adatintegrációs partnerek olyan eszközöket és szolgáltatásokat kínálnak, amelyek automatizálják a függvények, a tárolt eljárások és a szekvenciák migrálását.

A következő szakaszok a függvények, a tárolt eljárások és a szekvenciák migrálását is ismertetik.

Funkciók

A legtöbb adatbázis-termékhez hasonlóan a Teradata is támogatja a rendszer- és felhasználó által definiált függvényeket az SQL-implementációban. Ha régi adatbázisplatformot migrál az Azure Synapse-ba, a gyakori rendszerfüggvények általában módosítás nélkül migrálhatók. Egyes rendszerfüggvények szintaxisa kissé eltérő lehet, de a szükséges módosítások automatizálhatók.

A Teradata rendszerfüggvények vagy tetszőleges, az Azure Synapse-ban nem megfelelő felhasználó által definiált függvények esetében ezeket a függvényeket egy célkörnyezeti nyelv használatával kell újrakódolni. Az Azure Synapse a Transact-SQL nyelvet használja a felhasználó által definiált függvények implementálásához.

Stored procedures

A legtöbb modern adatbázis-termék támogatja az adatbázisokon belüli tárolási eljárásokat. A Teradata erre a célra biztosítja az SPL nyelvet. A tárolt eljárások általában SQL-utasításokat és eljárási logikát is tartalmaznak, és adatokat vagy állapotot adnak vissza.

Az Azure Synapse támogatja a tárolt eljárásokat a T-SQL használatával, ezért a migrált tárolt eljárásokat ezen a nyelven kell újrakódolnia.

Triggers

Az Azure Synapse nem támogatja az eseményindítók létrehozását, de az eseményindító létrehozása az Azure Data Factory használatával implementálható.

Sorozatok

Az Azure Synapse a Teradata-hoz hasonlóan kezeli a szekvenciákat, és identitásoszlopokkal vagy SQL-kóddal implementálhatja a sorozat következő sorszámát generáló sorozatokat. A sorozat egyedi numerikus értékeket biztosít, amelyeket helyettesítő kulcsértékként használhat az elsődleges kulcsokhoz.

Metaadatok és adatok kinyerása Teradata-környezetből

Adatdefiníciós nyelv (DDL) létrehozása

Az ANSI SQL-szabvány a Data Definition Language (DDL) parancsok alapszintaxisát határozza meg. Egyes DDL-parancsok, például CREATE TABLE és CREATE VIEW– a Teradata és az Azure Synapse esetében is – gyakoriak, de olyan implementációspecifikus funkciókat is biztosítanak, mint az indexelés, a táblaterjesztés és a particionálási lehetőségek.

A meglévő Teradata CREATE TABLE és CREATE VIEW szkriptek szerkesztéséhez egyenértékű definíciókat érhet el az Azure Synapse-ban. Ehhez előfordulhat, hogy módosított adattípusokat kell használnia, és el kell távolítania vagy módosítania a Teradata-specifikus záradékokat, példáulFALLBACK.

A meglévő Teradata-környezetben lévő táblák és nézetek aktuális definícióit meghatározó összes információ azonban a rendszerkatalógus tábláiban marad fenn. Ezek a táblák a legjobb forrásai ennek az információnak, mivel garantáltan naprakészek és teljesek. Előfordulhat, hogy a felhasználó által karbantartott dokumentáció nincs szinkronban az aktuális tábladefiníciókkal.

A Teradata-környezetben a rendszerkatalógus-táblák határozzák meg az aktuális táblát és a nézetdefiníciót. A felhasználó által karbantartott dokumentációtól eltérően a rendszerkatalógus adatai mindig teljesek, és szinkronban lesznek az aktuális tábladefiníciókkal. Ha például DBC.ColumnsVa katalógus nézeteit használja, hozzáférhet a rendszerkatalógus adataihoz, hogy olyan DDL-utasításokat hozzon létre CREATE TABLE , amelyek egyenértékű táblákat hoznak létre az Azure Synapse-ban.

Tipp.

A meglévő Teradata-metaadatok használatával automatizálhatja az Azure Synapse-hez készült DDL-k létrehozását és CREATE VIEW létrehozásátCREATE TABLE.

A rendszerkatalógus adatait feldolgozó külső migrálási és ETL-eszközöket is használhat a hasonló eredmények eléréséhez.

Adatok kinyerése a Teradata-ból

Nyers táblaadatokat a Teradata-táblákból egybesimított fájlokba, például CSV-fájlokba nyerhet ki standard Teradata-segédprogramokkal, például alapszintű Teradata Query (BTEQ), Teradata FastExport vagy Teradata Parallel Transporter (TPT) használatával. A TPT használatával a lehető leghatékonyabban kinyerhet táblázatadatokat. A TPT több párhuzamos FastExport-streamet használ a legmagasabb átviteli sebesség eléréséhez.

Tipp.

Használja a Teradata Parallel Transportert a leghatékonyabb adatkivonathoz.

Hívja meg a TPT-t közvetlenül az Azure Data Factoryből. Ez a javasolt módszer a helyszíni Teradata- és Teradata-példányok adatmigrálásához, amelyek az Azure-környezetben lévő virtuális gépen futnak.

A kinyert adatfájloknak csv, optimalizált soroszlop (ORC) vagy Parquet formátumban kell tagolt szöveget tartalmazniuk.

Az adatok és az ETL Teradata-környezetből való migrálásával kapcsolatos további információkért lásd : Adatmigrálás, ETL és betöltés a Teradata-migrálásokhoz.

Teljesítményjavaslatok a Teradata-migrálásokhoz

A teljesítményoptimalizálás célja az Azure Synapse-ba való migrálás után az adattárház teljesítménye azonos vagy jobb.

Tipp.

A migrálás kezdetén rangsorolja az Azure Synapse hangolási beállításainak ismeretét.

A teljesítményhangolási megközelítés eltérései

Ez a szakasz a Teradata és az Azure Synapse közötti alacsony szintű teljesítmény-finomhangolási megvalósítási különbségeket emeli ki.

Adatterjesztési beállítások

A teljesítmény érdekében az Azure Synapse többcsomópontos architektúrával lett tervezve, és párhuzamos feldolgozást használ. Az Azure Synapse-ban az egyes táblák teljesítményének optimalizálásához az utasítással megadhatja az adatterjesztési lehetőséget az DISTRIBUTION utasításokbanCREATE TABLE. Megadhat például egy kivonatelosztott táblát, amely determinisztikus kivonatoló függvénnyel osztja el a táblasorokat a számítási csomópontok között. A cél a feldolgozási csomópontok között a lekérdezés végrehajtásakor áthelyezett adatok mennyiségének csökkentése.

A nagy méretű táblák és a nagy méretű táblák összekapcsolása esetén a kivonatok egy vagy ideális esetben mindkét táblát elosztják az egyik illesztési oszlopon – amely számos értékkel rendelkezik az egyenletes eloszlás biztosításához. Helyi illesztésfeldolgozást végezhet, mert az összekapcsolni kívánt adatsorok ugyanazon a feldolgozási csomóponton vannak rendezve.

Az Azure Synapse a kis és a nagy tábla közötti helyi illesztéseket is támogatja kis táblareplikáláson keresztül. Vegyük például egy kis dimenziótáblát és egy nagy ténytáblát egy csillagséma-modellben. Az Azure Synapse képes replikálni a kisebb dimenziótáblát az összes csomópontra, így biztosítva, hogy a nagy tábla illesztési kulcsainak értéke egy egyező, helyileg elérhető dimenziósorsal rendelkezzen. A dimenziótáblák replikációjának többletterhelése egy kis dimenziótáblánál viszonylag alacsony. A nagyméretű dimenziótáblák esetében a kivonatelosztási módszer megfelelőbb. Az adatterjesztési lehetőségekről további információt a replikált táblák használatára vonatkozó tervezési útmutatóban és az elosztott táblák tervezésével kapcsolatos útmutatóban talál.

Adatindexelés

Az Azure Synapse számos felhasználó által definiálható indexelési lehetőséget támogat, amelyek eltérnek a Teradata-ban implementált indexelési beállításoktól. Az Azure Synapse különböző indexelési beállításairól további információt a dedikált SQL-készlettáblák indexei című témakörben talál.

A forrás Teradata-környezetben meglévő indexek hasznos jelzést nyújtanak az adathasználatról és az Azure Synapse-környezetben történő indexelésre jelölt oszlopokról.

Data partitioning

Egy vállalati adattárházban a ténytáblák több milliárd sort tartalmazhatnak. A particionálás optimalizálja ezeknek a tábláknak a karbantartási és lekérdezési teljesítményét úgy, hogy külön részekre osztja őket a feldolgozott adatok mennyiségének csökkentése érdekében. Az Azure Synapse-ban az CREATE TABLE utasítás egy tábla particionálási specifikációját határozza meg. Csak a nagyon nagy táblák particionálása, és győződjön meg arról, hogy minden partíció legalább 60 millió sort tartalmaz.

Particionáláshoz táblánként csak egy mezőt használhat. Ez a mező gyakran dátummező, mert számos lekérdezést dátum vagy dátumtartomány szűr. A tábla particionálását a kezdeti betöltés után módosíthatja a CREATE TABLE AS (CTAS) utasítással, hogy újra létrehozza a táblát egy új eloszlással. Az Azure Synapse particionálásának részletes ismertetését lásd : Particionálási táblák dedikált SQL-készletben.

Adattábla statisztikái

Az ETL-/ELT-feladatokra vonatkozó statisztikai lépésekkel gondoskodnia kell arról, hogy az adattáblák statisztikái naprakészek legyenek.

PolyBase vagy COPY INTO adatbetöltéshez

A PolyBase támogatja a nagy mennyiségű adat hatékony betöltését egy adattárházba párhuzamos betöltési streamek használatával. További információ: PolyBase adatbetöltési stratégia.

A COPY INTO támogatja a nagy átviteli sebességű adatbetöltést is, és:

Adatlekérés egy mappában és almappában lévő összes fájlból.
Adatok lekérése több helyről ugyanabban a tárfiókban. Több helyet is megadhat vesszővel tagolt elérési utak használatával.
Azure Data Lake Storage (ADLS) és Azure Blob Storage.
CSV, PARQUET és ORC fájlformátumok.

Workload management

A vegyes számítási feladatok futtatása erőforrás-kihívásokat jelenthet az elfoglalt rendszereken. A sikeres számítási feladatok kezelési sémája hatékonyan kezeli az erőforrásokat, biztosítja a rendkívül hatékony erőforrás-kihasználtságot, és maximalizálja a befektetés megtérülését (ROI). A számítási feladatok besorolása, a számítási feladatok fontossága és a számítási feladatok elkülönítése nagyobb ellenőrzést biztosít a számítási feladatok rendszererőforrás-használatában.

A számítási feladatok kezelési útmutatója ismerteti a számítási feladatok elemzésének, a számítási feladatok fontosságának kezelésének és monitorozásának módszereit, valamint az erőforrásosztály számítási feladatcsoporttá alakításának lépéseit. A számítási feladat figyeléséhez használja az Azure Portalt és a T-SQL-lekérdezéseket a DMV-ken , hogy biztosítsa a megfelelő erőforrások hatékony felhasználását.

További lépések

A Teradata-migrálás ETL-jének és betöltésének megismeréséhez tekintse meg a következő cikket ebben a sorozatban: Adatmigrálás, ETL és betöltés a Teradata-migrálásokhoz.

Teradata-migrálások tervezése és teljesítménye

Áttekintés

Design considerations

Migrálás hatóköre

Válassza ki a kezdeti migrálás számítási feladatát

A migrálás emelése és váltása a fázisos megközelítéssel szemben

Átemelés

A módosításokat magában foglaló fázisos megközelítés

Azure-beli virtuálisgép-teradata-példány használata migrálás részeként

Metaadat-alapú migrálás implementálása az Azure Data Factory használatával

Tervezési különbségek a Teradata és az Azure Synapse között

Több adatbázis és egyetlen adatbázis és séma

Táblázatokkal kapcsolatos szempontok

Az adatbázis magas rendelkezésre állása

Nem támogatott Teradata-táblatípusok

AZ SQL DML szintaxisbeli eltérései

Függvények, tárolt eljárások, eseményindítók és sorozatok

Funkciók

Stored procedures

Triggers

Sorozatok

Metaadatok és adatok kinyerása Teradata-környezetből

Adatdefiníciós nyelv (DDL) létrehozása

Adatok kinyerése a Teradata-ból

Teljesítményjavaslatok a Teradata-migrálásokhoz

A teljesítményhangolási megközelítés eltérései

Adatterjesztési beállítások

Adatindexelés

Data partitioning

Adattábla statisztikái

PolyBase vagy COPY INTO adatbetöltéshez

Workload management

További lépések

További források