Pokročilé možnosti konfigurace v Azure Synapse Link
Azure Synapse Link nabízí několik způsobů, jak zapisovat a číst vaše data, aby se vešly do různých analytických scénářů.
Poznámka
Azure Synapse Link for Dataverse byl dříve známý jako Export do datového jezera. Služba byla s účinností od května 2021 přejmenována a bude i nadále exportovat data do Azure Data Lake a také do Azure Synapse Analytics.
Tento článek se věnuje následujícím tématům:
- Místní aktualizace vs. zápisy pouze pro přidání.
- Uživatelsky určené rozdělení dat.
Místní aktualizace vs. zápisy pouze pro přidání
Během psaní dat tabulky Dataverse do datového jezera Azure na základě hodnoty createdOn, což je datum a čas, kdy byl záznam vytvořen, si můžete vybrat ze dvou různých nastavení. Jsou to Aktualizace na místě a Pouze připojit.
Výchozí nastavení (pro tabulky, kde je createdOn) je provést místní aktualizaci nebo upsert (aktualizaci nebo vložení) přírůstkových dat v cíli. Pokud je změna nová a odpovídající řádek v jezeře neexistuje, v případě vytvoření jsou cílové soubory zkontrolovány a změny jsou vloženy do odpovídajícího oddílu souboru v jezeře. Pokud je změnou aktualizace a v jezeře existuje řádek, je odpovídající soubor v jezeře aktualizován, nikoli vložen, s přírůstkovými daty. Jinými slovy, výchozí nastavení pro všechny změny CUD v tabulce Dataverse, kde createdOn je k dispozici, je provést aktualizaci na místě v cíli, v Azure Data Lake.
Výchozí chování místní aktualizace můžete přepnout pomocí volitelného nastavení s názvem Pouze připojit. Místo Aktualizace na místě v režimu Pouze připojit jsou přírůstková data z tabulky Dataverse připojena k odpovídajícímu oddílu souborů v jezeře. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Pokročilé > Zobrazit pokročilé nastavení konfigurace. Pro tabulky Dataverse se zapnutým Pouze připojit, jsou všechny změny CUD postupně připojeny k odpovídajícím cílovým souborům v jezeře. Když zvolíte tuto možnost, použije se výchozí strategie rozdělení disku Rok, a když jsou data zapsána do datového jezera, jsou rozdělena na roční bázi. Pouze připojit je také výchozí nastavení pro tabulky Dataverse, které nemají hodnotu createdOn.
Níže uvedená tabulka popisuje, jak jsou řádky zpracovávány v jezeře proti událostem CUD pro každou z možností zápisu dat.
| Událost | Aktualizace na místě | Jen připojit |
|---|---|---|
| Vytvoření | Řádek je vložen do souboru oddílu a je založen na hodnotě createdOn na řádku. |
Řádek je přidán na konec souboru oddílu a je založen na hodnotě createdOn záznamu. |
| Aktualizovat | Pokud řádek existuje v souboru oddílu, je nahrazen nebo aktualizován aktualizovanými daty. Pokud neexistuje, vloží se do souboru. | Řádek je spolu s aktualizovanou verzí přidán na konec souboru oddílu. |
| Odstranění | Pokud řádek v souboru oddílu existuje, je ze souboru odstraněn. | Řádek je s isDeleted column = True přidán na konec souboru oddílu. |
Poznámka
Pro tabulky Dataverse, kde je povoleno Pouze připojit, smazání řádku ve zdroji nesmaže ani neodstraní řádek v jezeře. Místo toho se odstraněný řádek připojí jako nový řádek v jezeře a sloupec isDeleted se nastaví na True.
Zde je několik podrobností o tom, kdy použít jednu z možností.
- Zavedená aktualizace: Tato možnost je výchozí nastavení a doporučuje se pouze v případě, že se chcete připojit přímo k datům v jezeře a potřebujete aktuální stav (nikoli historii nebo postupné změny). Soubor obsahuje celou datovou sadu a lze jej použít prostřednictvím Power BI nebo zkopírováním celého souboru dat pro potrubí ETL (Extract, Transfer, Load).
- Pouze připojit: Tuto možnost vyberte, pokud se nepřipojujete přímo k datům v jezeře a chcete přírůstkově kopírovat data do jiného cíle pomocí kanálů ETL. Tato možnost poskytuje historii změn umožňujících scénáře AI a ML.
Přepnutím možnosti Zobrazit pokročilé nastavení konfigurace v části Upřesnit v Azure Synapse Link for Dataverse můžete přizpůsobit strategii datových oddílů a vybrat možnosti zápisu do datového jezera Azure.

Rozdělení dat
Když zapisujete data tabulky Dataverse do Azure Data Lake Storage pomocí Azure Synapse Link, tabulky jsou rozděleny (místo jednoho souboru) v jezeře na základě hodnoty createdOn každého řádku ve zdroji. Výchozí strategie dělení je podle měsíce a data se v Azure Data Lake rozdělují na základě měsíců.
Na základě objemu tabulky Dataverse a distribuci dat si můžete vybrat rozdělení dat podle roku. U této možnosti platí , že když jsou data tabulky Dataverse zapsána do Azure Data Lake, budou rozdělena podle roků na základě hodnoty createdOn na každém řádku ve zdroji. U tabulek bez sloupce createdOn jsou řádky dat rozděleny do souborů po pěti milionech záznamů. Toto je nastavení podle tabulky a je k dispozici jako zaškrtávací políčko pod Rozšířená > Zobrazit rozšířená nastavení konfigurace.
Další podrobnosti s příklady, jak se s daty nakládá v jezeře s roční nebo měsíční strategií rozdělení:

Viz také
Azure Synapse Link for Dataverse
Poznámka
Můžete nám sdělit, jaké máte jazykové preference pro dokumentaci? Zúčastněte se krátkého průzkumu. (upozorňujeme, že tento průzkum je v angličtině)
Průzkum bude trvat asi sedm minut. Nejsou shromažďovány žádné osobní údaje (prohlášení o zásadách ochrany osobních údajů).
Váš názor
Odeslat a zobrazit názory pro