Návrh a výkon pro migrace Netezza

Tento článek je první částí sedmidílné série, která obsahuje pokyny k migraci z Netezza na Azure Synapse Analytics. Tento článek se zaměřuje na osvědčené postupy pro návrh a výkon.

Přehled

Kvůli ukončení podpory ibm chce mnoho stávajících uživatelů systémů datových skladů Netezza využívat inovace, které poskytují moderní cloudová prostředí. Cloudová prostředí infrastruktura jako služba (IaaS) a platforma jako služba (PaaS) umožňují delegovat na poskytovatele cloudu úlohy, jako je údržba infrastruktury a vývoj platformy.

Tip

Více než jen databáze – prostředí Azure zahrnuje komplexní sadu funkcí a nástrojů.

I když netezza a Azure Synapse Analytics jsou databáze SQL, které používají techniky MPP (Massively Parallel Processing) k dosažení vysokého výkonu dotazů u mimořádně velkých objemů dat, existují některé základní rozdíly v přístupu:

  • Starší systémy Netezza se často instalují místně a používají proprietární hardware, zatímco Azure Synapse je cloudová a využívá úložiště a výpočetní prostředky Azure.

  • Upgrade konfigurace Netezza je hlavní úkol zahrnující extra fyzický hardware a potenciálně zdlouhavou rekonfiguraci databáze nebo výpis a opětovné načtení. Vzhledem k tomu, že úložiště a výpočetní prostředky jsou v prostředí Azure oddělené a mají možnost elastického škálování, je možné tyto prostředky nezávisle škálovat směrem nahoru nebo dolů.

  • Pokud chcete snížit využití prostředků a náklady, můžete Azure Synapse podle potřeby pozastavit nebo změnit jeho velikost.

Microsoft Azure je globálně dostupné, vysoce zabezpečené a škálovatelné cloudové prostředí, které zahrnuje Azure Synapse a ekosystém podpůrných nástrojů a možností. Následující diagram shrnuje ekosystém Azure Synapse.

Graf znázorňující Azure Synapse ekosystém podpůrných nástrojů a možností

Azure Synapse poskytuje nejlepší výkon relačních databází pomocí technik, jako je MPP, a několika úrovní automatizovaného ukládání do mezipaměti pro často používaná data. Výsledky těchto technik můžete vidět v nezávislých srovnávacích testech, jako je nedávno spuštěný GigaOm, který porovnává Azure Synapse s dalšími oblíbenými nabídkami cloudového datového skladu. Zákazníci, kteří migrují do Azure Synapse prostředí, vidí řadu výhod, mezi které patří:

  • Vylepšený výkon a cena/výkon.

  • Větší agilita a kratší doba potřebná k vytvoření hodnoty.

  • Rychlejší nasazení serveru a vývoj aplikací.

  • Elastická škálovatelnost – platíte jenom za skutečné využití.

  • Vylepšené zabezpečení a dodržování předpisů.

  • Nižší náklady na úložiště a zotavení po havárii

  • Nižší celkové celkové náklady na vlastnictví, lepší řízení nákladů a zjednodušené provozní náklady (OPEX).

Pokud chcete tyto výhody maximalizovat, migrujte nová nebo stávající data a aplikace na platformu Azure Synapse. V mnoha organizacích migrace zahrnuje přesun existujícího datového skladu ze starší místní platformy, jako je Netezza, do Azure Synapse. Na základní úrovni proces migrace zahrnuje tyto kroky:

    Příprava 🡆

  • Definujte rozsah – co se má migrovat.

  • Vytvořte inventář dat a procesů pro migraci.

  • Definujte změny datového modelu (pokud nějaké jsou).

  • Definujte mechanismus extrakce zdrojových dat.

  • Určete vhodné nástroje a funkce Azure a třetích stran, které se mají použít.

  • Vyškolte personál na nové platformě co nejdříve.

  • Nastavte cílovou platformu Azure.

    Migrace 🡆

  • Začněte od začátku od začátku.

  • Všude, kde je to možné, automatizujte.

  • Využijte integrované nástroje a funkce Azure ke snížení úsilí o migraci.

  • Migrace metadat tabulek a zobrazení

  • Migrovat historická data, která se mají udržovat.

  • Migrace nebo refaktoring uložených procedur a obchodních procesů

  • Migrace nebo refaktoring procesů přírůstkového načítání ETL/ELT

    Po migraci

  • Monitorujte a dokumentujte všechny fáze procesu.

  • Získané zkušenosti využijte k vytvoření šablony pro budoucí migrace.

  • V případě potřeby překonstruujte datový model (s využitím výkonu a škálovatelnosti nové platformy).

  • Testování aplikací a nástrojů pro dotazy

  • Proveďte srovnávací testy a optimalizujte výkon dotazů.

Tento článek obsahuje obecné informace a pokyny pro optimalizaci výkonu při migraci datového skladu z existujícího prostředí Netezza do Azure Synapse. Cílem optimalizace výkonu je dosáhnout stejného nebo lepšího výkonu datového skladu v Azure Synapse po migraci schématu.

Na co dát pozor při navrhování

Rozsah migrace

Při přípravě migrace z prostředí Netezza zvažte následující možnosti migrace.

Volba úlohy pro počáteční migraci

Starší prostředí Netezza se obvykle postupem času vyvíjela tak, aby zahrnovala více předmětných oblastí a smíšené úlohy. Při rozhodování, kde začít s projektem migrace, zvolte oblast, ve které budete moct:

  • Prokažte životaschopnost migrace na Azure Synapse rychlým poskytováním výhod nového prostředí.

  • Umožněte svým interním technickým pracovníkům získat relevantní zkušenosti s procesy a nástroji, které budou používat při migraci do jiných oblastí.

  • Vytvořte šablonu pro další migrace, která je specifická pro zdrojové prostředí Netezza a aktuální nástroje a procesy, které už existují.

Vhodný kandidát pro počáteční migraci z prostředí Netezza podporuje předchozí položky a:

  • Implementuje úlohu BI/Analytics, a ne úlohu OLTP (Online Transaction Processing).

  • Má datový model, například hvězdicové nebo sněhové vločkové schéma, který je možné migrovat s minimálními úpravami.

Tip

Vytvořte inventář objektů, které je potřeba migrovat, a zdokumentujte proces migrace.

Objem migrovaných dat při počáteční migraci by měl být dostatečně velký, aby ukázal možnosti a výhody prostředí Azure Synapse, ale ne příliš velký na to, aby bylo možné rychle prokázat hodnotu. Typická je velikost v rozsahu 1–10 terabajtů.

U počátečního projektu migrace minimalizujte rizika, úsilí a dobu migrace, abyste rychle viděli výhody cloudového prostředí Azure. Přístupy migrace metodou "lift and shift" i fázovaná migrace omezují rozsah počáteční migrace pouze na datová tržiště a neřeší širší aspekty migrace, jako je migrace ETL a migrace historických dat. Tyto aspekty ale můžete řešit v pozdějších fázích projektu, jakmile se migrovaná vrstva datového tržiště znovu naplní daty a požadovanými procesy sestavení.

Migrace metodou "lift and shift" vs. fázovaný přístup

Obecně platí, že existují dva typy migrace bez ohledu na účel a rozsah plánované migrace: metodu "lift and shift" tak, jak je, a fázovaný přístup, který zahrnuje změny.

Metoda „lift and shift“

Při migraci metodou lift and shift se stávající datový model, jako je hvězdicové schéma, migruje beze změny na novou platformu Azure Synapse. Tento přístup minimalizuje riziko a dobu migrace tím, že snižuje množství práce potřebné k realizaci výhod přechodu do cloudového prostředí Azure. Migrace metodou "lift and shift" je vhodná pro tyto scénáře:

  • Máte existující prostředí Netezza s jedním datovým tržištěm, které chcete migrovat, nebo
  • Máte existující prostředí Netezza s daty, která už jsou v dobře navrženém hvězdicovém nebo vločkovém schématu, nebo
  • Přechod na moderní cloudové prostředí je pod časovým a nákladovým tlakem.

Tip

Metodou "lift and shift" je dobrým výchozím bodem, a to i v případě, že následné fáze implementují změny datového modelu.

Fázovaný přístup, který zahrnuje změny

Pokud se starší datový sklad vyvíjí dlouhou dobu, možná ho budete muset přepracovat, aby se zachovaly požadované úrovně výkonu. Možná budete muset také přepracovat podporu nových dat, jako jsou streamy Internetu věcí (IoT). V rámci procesu přepracování migrujte na Azure Synapse, abyste získali výhody škálovatelného cloudového prostředí. Migrace může také zahrnovat změnu v podkladovém datovém modelu, například přechod z modelu Inmon na trezor dat.

Microsoft doporučuje přesunout stávající datový model tak, jak je, do Azure a využít výkon a flexibilitu prostředí Azure k provedení změn přepracování. Díky tomu můžete pomocí možností Azure provádět změny, aniž by to mělo vliv na stávající zdrojový systém.

Použití Azure Data Factory k implementaci migrace založené na metadatech

Proces migrace můžete automatizovat a orchestrovat s využitím možností prostředí Azure. Tento přístup minimalizuje dosažení výkonu ve stávajícím prostředí Netezza, které se už může blížit kapacitě.

Azure Data Factory je cloudová služba pro integraci dat, která podporuje vytváření pracovních postupů řízených daty v cloudu, které orchestrují a automatizují přesun a transformaci dat. Pomocí služby Data Factory můžete vytvářet a plánovat pracovní postupy řízené daty (kanály), které ingestují data z různorodých úložišť dat. Data Factory může zpracovávat a transformovat data pomocí výpočetních služeb, jako jsou Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics a Azure Machine Learning.

Pokud plánujete používat zařízení služby Data Factory ke správě procesu migrace, vytvořte metadata se seznamem všech tabulek dat, které se mají migrovat, a jejich umístění.

Rozdíly v návrhu mezi netezza a Azure Synapse

Jak už bylo zmíněno dříve, existují některé základní rozdíly v přístupu mezi databázemi Netezza a Azure Synapse Analytics a tyto rozdíly jsou popsány dále.

Více databází vs. jedna databáze a schémata

Prostředí Netezza často obsahuje několik samostatných databází. Mohou existovat například samostatné databáze pro: tabulky příjmu a přípravy dat, tabulky základního skladu a datová tržiště (někdy označované jako sémantická vrstva). Procesy kanálů ETL nebo ELT můžou implementovat propojení mezi databázemi a přesouvat data mezi samostatnými databázemi.

Naproti tomu prostředí Azure Synapse obsahuje jednu databázi a používá schémata k oddělení tabulek do logicky oddělených skupin. K napodobení samostatných databází migrovaných z prostředí Netezza doporučujeme použít řadu schémat v cílové databázi Azure Synapse. Pokud prostředí Netezza již používá schémata, možná budete muset při přesunu existujících tabulek a zobrazení Netezza do nového prostředí použít novou konvenci vytváření názvů. Můžete například zřetězení existujícího schématu Netezza a názvů tabulek do nového Azure Synapse názvu tabulky a použít názvy schémat v novém prostředí k zachování původních samostatných názvů databází. Pokud má názvy sloučení schématu tečky, může mít Azure Synapse Spark problémy. I když můžete k údržbě logických struktur použít zobrazení SQL nad podkladovými tabulkami, tento přístup má potenciální nevýhody:

  • Zobrazení v Azure Synapse jsou jen pro čtení, takže všechny aktualizace dat musí probíhat v podkladových základních tabulkách.

  • Možná už existuje jedna nebo více vrstev zobrazení a přidání další vrstvy zobrazení může ovlivnit výkon a možnosti podpory, protože řešení potíží s vnořenými zobrazeními je obtížné.

Tip

Zkombinujte více databází do jedné databáze v rámci Azure Synapse a použijte názvy schémat k logickému oddělení tabulek.

Důležité informace o tabulce

Při migraci tabulek mezi různými prostředími se obvykle fyzicky migrují jenom nezpracovaná data a metadata, která je popisují. Jiné databázové prvky ze zdrojového systému, například indexy, se obvykle nemigrují, protože můžou být zbytečné nebo se v novém prostředí implementují odlišně.

Optimalizace výkonu ve zdrojovém prostředí, jako jsou indexy, označují, kam byste mohli přidat optimalizaci výkonu v novém prostředí. Pokud například dotazy ve zdrojovém prostředí Netezza často používají mapy zón, znamená to, že by se měl v rámci Azure Synapse vytvořit nes clusterovaný index. Jiné nativní techniky optimalizace výkonu, jako je replikace tabulek, můžou být vhodnější než vytvoření indexu podobného typu.

Tip

Existující indexy označují kandidáty pro indexování v migrovaném skladu.

Nepodporované typy databázových objektů Netezza

Funkce specifické pro Netezza mohou být často nahrazeny funkcemi Azure Synapse. Některé databázové objekty Netezza se ale v Azure Synapse přímo nepodporují. Následující seznam nepodporovaných databázových objektů Netezza popisuje, jak můžete dosáhnout ekvivalentní funkce v Azure Synapse.

  • Mapy zón: V systému Netezza se mapy zón automaticky vytvářejí a udržují pro následující typy sloupců a používají se v době dotazu k omezení množství dat, která se mají kontrolovat:

    • INTEGER sloupce o délce 8 bajtů nebo méně.
    • Dočasné sloupce, například DATE, TIMEa TIMESTAMP.
    • CHAR sloupce, pokud jsou součástí materializovaného zobrazení a jsou uvedené v klauzuli ORDER BY .

    Pomocí nástroje, který je součástí sady nástrojů NZ Toolkit, můžete zjistit, které sloupce obsahují mapy nz_zonemap zón. Azure Synapse nezahrnuje mapy zón, ale podobných výsledků můžete dosáhnout pomocí jiných typů indexů definovaných uživatelem nebo dělení.

  • Clusterované základní tabulky (CBT): V Netezza se CBT běžně používají pro tabulky faktů, které můžou obsahovat miliardy záznamů. Skenování tak velké tabulky vyžaduje značnou dobu zpracování, protože k získání příslušných záznamů může být potřeba úplná kontrola tabulky. Uspořádání záznamů podle omezujících CBT umožňuje netezza seskupit záznamy ve stejném nebo blízkém rozsahu. Tento proces také vytvoří mapy zón, které zlepšují výkon tím, že snižují množství dat, která je potřeba kontrolovat.

    V Azure Synapse můžete dosáhnout podobného efektu dělením nebo použitím jiných indexů.

  • Materializovaná zobrazení: Netezza podporuje materializovaná zobrazení a doporučuje používat jedno nebo více materializovaných zobrazení pro velké tabulky s mnoha sloupci, pokud se v dotazech pravidelně používá jenom několik sloupců. Materializovaná zobrazení jsou systémem automaticky aktualizována při aktualizaci dat v základní tabulce.

    Azure Synapse podporuje materializovaná zobrazení se stejnými funkcemi jako Netezza.

Mapování datového typu Netezza

Většina datových typů Netezza má v Azure Synapse přímý ekvivalent. Následující tabulka ukazuje doporučený přístup k mapování datových typů Netezza na Azure Synapse.

Datový typ Netezza datový typ Azure Synapse
BIGINT BIGINT
BINÁRNÍ VARYING(n) VARBINARY(n)
BOOLEAN BIT
BYTEINT TINYINT
CHARACTER VARYING(n) VARCHAR(n)
CHARACTER(n) ZNAK(n)
DATE (Datum) DATE(date)
DECIMAL(p,s) DECIMAL(p,s)
DVOJITÁ PŘESNOST FLOAT
FLOAT(n) FLOAT(n)
CELÉ ČÍSLO INT
INTERVAL Datové typy INTERVAL nejsou v Azure Synapse aktuálně přímo podporované, ale je možné je vypočítat pomocí dočasných funkcí, jako je DATEDIFF.
PENÍZE PENÍZE
NÁRODNÍ ZNAK VARYING(n) NVARCHAR(n)
NÁRODNÍ ZNAK(n) NCHAR(n)
NUMERIC(p,s) NUMERIC(p,s)
REÁLNÉ REÁLNÉ
SMALLINT SMALLINT
ST_GEOMETRY(n) Prostorové datové typy, jako jsou ST_GEOMETRY, se v současné době v Azure Synapse nepodporují, ale data můžou být uložená jako VARCHAR nebo VARBINARY.
ČAS ČAS
ČAS S ČASOVÝM PÁSMEM DATETIMEOFFSET
ČASOVÉ RAZÍTKO DATETIME

Tip

Vyhodnoťte počet a typ nepodporovaných datových typů během fáze přípravy migrace.

Externí dodavatelé nabízejí nástroje a služby pro automatizaci migrace, včetně mapování datových typů. Pokud se nástroj ETL třetí strany již používá v prostředí Netezza, použijte ho k implementaci všech požadovaných transformací dat.

Rozdíly v syntaxi SQL DML

Mezi netezza SQL a Azure Synapse T-SQL existují rozdíly v syntaxi SQL DML. Tyto rozdíly jsou podrobně popsány v tématu Minimalizace problémů s SQL pro migrace Netezza.

  • STRPOS: v Netezza STRPOS funkce vrátí pozici podřetězec v řetězci. Ekvivalentní funkce v Azure Synapse je CHARINDEX s obráceným pořadím argumentů. Například SELECT STRPOS('abcdef','def')... v netezza je ekvivalentem SELECT CHARINDEX('def','abcdef')... v Azure Synapse.

  • AGE: Netezza podporuje AGE operátor pro poskytnutí intervalu mezi dvěma dočasnými hodnotami, jako jsou časová razítka nebo kalendářní data, například: SELECT AGE('23-03-1956','01-01-2019') FROM.... V Azure Synapse použijte DATEDIFF k získání intervalu, například : SELECT DATEDIFF(day, '1956-03-26','2019-01-01') FROM.... Všimněte si posloupnosti reprezentace kalendářních dat.

  • NOW(): Netezza používá NOW() k reprezentaci CURRENT_TIMESTAMP v Azure Synapse.

Funkce, uložené procedury a sekvence

Při migraci datového skladu z vyspělého prostředí, jako je Netezza, budete pravděpodobně muset migrovat jiné prvky než jednoduché tabulky a zobrazení. Zkontrolujte, jestli nástroje v prostředí Azure můžou nahradit funkce funkcí, uložených procedur a sekvencí, protože použití integrovaných nástrojů Azure je obvykle efektivnější než překódovat tyto prvky pro Azure Synapse.

V rámci přípravné fáze vytvořte inventář objektů, které je potřeba migrovat, definujte metodu pro jejich zpracování a přidělte příslušné prostředky v plánu migrace.

Partneři pro integraci dat nabízejí nástroje a služby, které můžou automatizovat migraci funkcí, uložených procedur a sekvencí.

Následující části podrobněji popisují migraci funkcí, uložených procedur a sekvencí.

Functions

Stejně jako u většiny databázových produktů podporuje Netezza systémové a uživatelem definované funkce v rámci implementace SQL. Při migraci starší databázové platformy do Azure Synapse je obvykle možné migrovat běžné systémové funkce beze změn. Některé systémové funkce můžou mít trochu odlišnou syntaxi, ale všechny požadované změny se dají automatizovat.

U systémových funkcí Netezza nebo libovolných uživatelem definovaných funkcí, které nemají v Azure Synapse žádný ekvivalent, překódujte tyto funkce pomocí cílového jazyka prostředí. Uživatelem definované funkce netezza se kódují v jazycích nzlua nebo C++. Azure Synapse používá jazyk Transact-SQL k implementaci uživatelem definovaných funkcí.

Uložené procedury

Většina moderních databázových produktů podporuje ukládání procedur v rámci databáze. Netezza poskytuje pro tento účel jazyk NZPLSQL, který je založený na Postgres PL/pgSQL. Uložená procedura obvykle obsahuje příkazy SQL i procedurální logiku a vrací data nebo stav.

Azure Synapse podporuje uložené procedury pomocí T-SQL, takže je potřeba překódovat všechny migrované uložené procedury v daném jazyce.

Sekvence

V Netezza je sekvence pojmenovaný databázový objekt vytvořený pomocí CREATE SEQUENCE. Sekvence poskytuje jedinečné číselné hodnoty prostřednictvím NEXT VALUE FOR metody. Vygenerovaná jedinečná čísla můžete použít jako hodnoty náhradního klíče pro primární klíče.

Azure Synapse neimplementuje CREATE SEQUENCE, ale můžete implementovat sekvence pomocí sloupců IDENTITY nebo kódu SQL, který vygeneruje další pořadové číslo v řadě.

Extrakce metadat a dat z prostředí Netezza

Generování jazyka DDL (Data Definition Language)

Standard ANSI SQL definuje základní syntaxi pro příkazy DDL (Data Definition Language). Některé příkazy DDL, například CREATE TABLE a CREATE VIEW, jsou společné pro Netezza i Azure Synapse ale byly rozšířeny tak, aby poskytovaly funkce specifické pro implementaci.

Existující netezza CREATE TABLE a skripty můžete upravit, CREATE VIEW abyste dosáhli ekvivalentních definic v Azure Synapse. K tomu možná budete muset použít upravené datové typy a odebrat nebo upravit klauzule specifické pro Netezza, například ORGANIZE ON.

V prostředí Netezza tabulky systémového katalogu určují aktuální tabulku a definici zobrazení. Na rozdíl od dokumentace spravované uživatelem jsou informace o systémovém katalogu vždy úplné a synchronizované s aktuálními definicemi tabulek. Pomocí nástrojů, jako nz_ddl_tableje , můžete získat přístup k informacím katalogu systému a vygenerovat CREATE TABLE příkazy DDL, které vytvářejí ekvivalentní tabulky v Azure Synapse.

K dosažení podobných výsledků můžete také použít nástroje pro migraci třetích stran a nástroje ETL, které zpracovávají informace o systémovém katalogu.

Extrakce dat z Netezza

Můžete extrahovat nezpracovaná data tabulky z tabulek Netezza do plochých souborů s oddělovači, jako jsou soubory CSV, pomocí standardních nástrojů Netezza, jako jsou nzsql a nzunload, nebo prostřednictvím externích tabulek. Pak můžete komprimovat soubory s plochým oddělovačem pomocí gzipu a nahrát komprimované soubory do Azure Blob Storage pomocí azcopy nebo nástrojů pro přenos dat Azure, jako je Azure Data Box.

Extrahujte data tabulky co nejefektivněji. Použijte přístup k externím tabulkám, protože je to nejrychlejší metoda extrakce. Souběžné provádění několika extrahování za účelem maximalizace propustnosti extrakce dat Následující příkaz SQL provede extrakci externí tabulky:

CREATE EXTERNAL TABLE '/tmp/export_tab1.csv' USING (DELIM ',') AS SELECT * from <TABLENAME>;

Pokud je k dispozici dostatečná šířka pásma sítě, můžete extrahovat data z místního systému Netezza přímo do tabulek Azure Synapse nebo azure Blob Data Storage. K tomu použijte procesy služby Data Factory nebo migraci dat třetích stran nebo produkty ETL.

Tip

K co nejefektivnější extrakci dat použijte externí tabulky Netezza.

Extrahované datové soubory by měly obsahovat text s oddělovači ve formátu CSV, ve formátu ORC (Optimized Row Columnar) nebo Parquet.

Další informace o migraci dat a ETL z prostředí Netezza najdete v tématu Migrace dat, ETL a načítání pro migrace Netezza.

Doporučení k výkonu pro migrace Netezza

Cílem optimalizace výkonu je stejný nebo lepší výkon datového skladu po migraci na Azure Synapse.

Podobnosti v konceptech přístupu k ladění výkonu

Mnoho konceptů ladění výkonu pro databáze Netezza platí pro Azure Synapse databáze. Příklad:

  • Použití distribuce dat ke kolakaci dat-to-be-be-join ke stejnému uzlu zpracování.

  • Pokud chcete ušetřit místo v úložišti a zrychlit zpracování dotazů, použijte pro daný sloupec nejmenší datový typ.

  • Ujistěte se, že sloupce, které se mají spojit, mají stejný datový typ, aby bylo možné optimalizovat zpracování spojení a snížit potřebu transformací dat.

  • Abyste optimalizátoru pomohli vytvořit nejlepší plán provádění, ujistěte se, že jsou statistiky aktuální.

  • Monitorujte výkon pomocí integrovaných databázových funkcí, abyste zajistili, že se prostředky využívají efektivně.

Tip

Určete prioritu obeznámenosti s možnostmi ladění v Azure Synapse na začátku migrace.

Rozdíly v přístupu k ladění výkonu

Tato část popisuje rozdíly implementace ladění výkonu nízké úrovně mezi Netezza a Azure Synapse.

Možnosti distribuce dat

Pro zvýšení výkonu byla Azure Synapse navržena s architekturou s více uzly a používá paralelní zpracování. Pokud chcete optimalizovat výkon tabulek, můžete definovat možnost distribuce dat v CREATE TABLE příkazech pomocí DISTRIBUTION v Azure Synapse a DISTRIBUTE ON netezza.

Na rozdíl od netezza podporuje Azure Synapse místní spojení mezi malou tabulkou a velkou tabulkou prostřednictvím replikace malých tabulek. Představte si například malou tabulku dimenzí a velkou tabulku faktů v modelu hvězdicového schématu. Azure Synapse může replikovat menší tabulku dimenzí napříč všemi uzly, aby se zajistilo, že hodnota libovolného klíče spojení pro velkou tabulku má odpovídající místně dostupný řádek dimenze. Režie replikace tabulky dimenzí je u malé tabulky dimenzí relativně nízká. U velkých tabulek dimenzí je vhodnější přístup k distribuci hodnot hash. Další informace o možnostech distribuce dat najdete v tématu Pokyny k návrhu pro použití replikovaných tabulek a Pokyny k návrhu distribuovaných tabulek.

Indexování dat

Azure Synapse podporuje několik uživatelsky definovatelných možností indexování, které mají jinou operaci a využití než mapy zón spravovaných systémem v Netezza. Další informace o různých možnostech indexování v Azure Synapse najdete v tématu Indexy ve vyhrazených tabulkách fondu SQL.

Stávající mapy zón spravovaných systémem ve zdrojovém prostředí Netezza poskytují užitečné informace o využití dat a kandidátských sloupcích pro indexování v prostředí Azure Synapse.

Dělení dat

V podnikovém datovém skladu můžou tabulky faktů obsahovat miliardy řádků. Dělení optimalizuje výkon údržby a dotazů těchto tabulek tím, že je rozdělí do samostatných částí, aby se snížilo množství zpracovávaných dat. V Azure Synapse CREATE TABLE definuje příkaz specifikaci dělení tabulky.

Pro dělení můžete použít pouze jedno pole pro každou tabulku. Toto pole je často pole s datem, protože mnoho dotazů je filtrovaných podle data nebo rozsahu dat. Po počátečním načtení je možné změnit dělení tabulky pomocí CREATE TABLE AS příkazu (CTAS) a znovu vytvořit tabulku s novou distribucí. Podrobné informace o dělení v Azure Synapse najdete v tématu Dělení tabulek ve vyhrazeném fondu SQL.

Statistika tabulky dat

Měli byste zajistit aktuální statistiky v tabulkách dat tím, že v kroku statistiky vytvoříte úlohy ETL/ELT.

PolyBase nebo COPY INTO pro načítání dat

PolyBase podporuje efektivní načítání velkých objemů dat do datového skladu pomocí paralelních načítacích datových proudů. Další informace najdete v tématu Strategie načítání dat PolyBase.

Funkce COPY INTO také podporuje příjem dat s vysokou propustností a:

  • Načítání dat ze všech souborů v rámci složky a podsložek

  • Načítání dat z více umístění ve stejném účtu úložiště Více umístění můžete zadat pomocí cest oddělených čárkami.

  • Azure Data Lake Storage (ADLS) a Azure Blob Storage.

  • Formáty souborů CSV, PARQUET a ORC.

Správa úloh

Spouštění smíšených úloh může v zaneprázdněných systémech představovat problémy s prostředky. Úspěšné schéma správy úloh efektivně spravuje prostředky, zajišťuje vysoce efektivní využití prostředků a maximalizuje návratnost investic (ROI). Klasifikace úloh, důležitost úloh a izolace úloh poskytují větší kontrolu nad tím, jak úlohy využívají systémové prostředky.

Průvodce správou úloh popisuje techniky analýzy úloh, správu a monitorování důležitosti úloh a kroky pro převod třídy prostředků na skupinu úloh. Pomocí Azure Portal a dotazů T-SQL na zobrazení dynamické správy monitorujte úlohy, abyste zajistili efektivní využití příslušných prostředků.

Další kroky

Další informace o ETL a načítání pro migraci Netezza najdete v dalším článku této série: Migrace dat, ETL a načítání pro migrace Netezza.