Správa zdrojového kódu v Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Ve výchozím nastavení Azure Data Factory autoři uživatelského rozhraní (UX) přímo na službu Data Factory. Toto prostředí má následující omezení:

  • Služba Data Factory nezahrnuje úložiště pro ukládání entit JSON pro vaše změny. Jediným způsobem, jak změny uložit, je prostřednictvím tlačítka publikovat vše a všechny změny se publikují přímo ve službě Data Factory.
  • Služba Data Factory není optimalizovaná pro spolupráci a správu verzí.
  • Šablona Azure Resource Manager nutná k nasazení Data Factory sama o sobě není zahrnutá.

aby se zajistilo lepší prostředí pro vytváření, Azure Data Factory vám umožní nakonfigurovat úložiště Git buď pomocí Azure Repos nebo GitHub. Git je systém správy verzí, který zjednodušuje sledování změn a spolupráci. V tomto článku se dozvíte, jak nakonfigurovat a pracovat v úložišti Git společně s důrazem na osvědčené postupy a Průvodce odstraňováním potíží.

Poznámka

přidali jsme GitHubou veřejnou podporu pro azure Gov, azure čína. Přečtěte si blog o oznámení.

Další informace o tom, jak se Azure Data Factory integruje s Git, najdete v níže uvedeném videu kurzu na 15 minutách:

Výhody integrace Gitu

Níže je uveden seznam některých výhod integrace Gitu do prostředí pro vytváření obsahu:

  • Správa zdrojového kódu: Vzhledem k tomu, že se vaše úlohy datové továrny stanou rozhodující, byste měli svůj objekt pro vytváření integrovat do Gitu a využít přitom několik výhod správy zdrojového kódu, jako jsou tyto:
    • Schopnost sledovat nebo auditovat změny.
    • Možnost vrátit změny, které zavedly chyby.
  • Částečné uložení: Při vytváření ve službě Data Factory nemůžete uložit změny jako koncept a všechny publikace musí předat ověření Data Factory. Bez ohledu na to, jestli vaše kanály nejsou dokončené, nebo pokud nechcete přijít o změny, pokud dojde k chybě počítače, integrace Git umožňuje přírůstkové změny prostředků služby Data Factory bez ohledu na stav, ve kterém se nacházejí. Konfigurace úložiště Git vám umožní uložit změny, takže budete moct publikovat jenom v případě, že jste své změny sami otestovali.
  • Spolupráce a řízení: Pokud máte více členů týmu přispívajících ke stejné továrně, můžete chtít, aby vaše ostatními týmu vzájemně spolupracovaly prostřednictvím procesu revize kódu. Můžete také nastavit továrnu tak, že ne každý přispěvatel má stejné oprávnění. Někteří členové týmu můžou povolit změny jenom přes Git a jenom někteří lidé v týmu můžou publikovat změny v továrně.
  • Lepší CI/CD: Pokud nasazujete do více prostředí s nepřetržitým procesem doručování, integrace Git usnadňuje určité akce. Mezi tyto akce patří:
    • Nakonfigurujte svůj kanál pro vydávání verzí tak, aby se automaticky aktivoval, jakmile se ve vašem vývojovém objektu pro vývoj provádí nějaké změny.
    • Přizpůsobení vlastností ve vaší továrně, které jsou k dispozici jako parametry v šabloně Správce prostředků. Může být užitečné zachovat jenom požadovanou sadu vlastností jako parametry a mít vše dalšího pevně kódovaného kódu.
  • Lepší výkon: Průměrná továrna s integrací Git se za víc než jedním vytvářením ve službě Data Factory načítá víckrát. Zlepšení výkonu je způsobeno tím, že se prostředky stahují prostřednictvím Gitu.

Poznámka

Při konfiguraci úložiště Git je v uživatelském prostředí Azure Data Factory zakázáno vytváření obsahu přímo pomocí služby Data Factory. Změny provedené prostřednictvím PowerShellu nebo sady SDK se publikují přímo ve službě Data Factory a nezadávají se do Gitu.

Připojení do úložiště Git

existují čtyři různé způsoby, jak připojit úložiště Git k datové továrně pro Azure Repos i GitHub. Po připojení k úložišti Git můžete zobrazit a spravovat konfiguraci v centru pro správu v části Konfigurace Gitu v části Správa zdrojového kódu .

Konfigurační Metoda 1: Domovská stránka

Na domovské stránce Azure Data Factory vyberte v horní části nastavit úložiště kódu .

Konfigurace úložiště kódu z domovské stránky

Konfigurační Metoda 2: plátno pro vytváření obsahu

Na plátně pro vytváření Azure Data Factory UX vyberte Data Factory rozevírací nabídku a pak vyberte nastavit úložiště kódu.

Konfigurace nastavení úložiště kódu z vytváření obsahu

Konfigurační Metoda 3: Centrum správy

V uživatelském prostředí ADF se můžete dostat do centra správy. V části Správa zdrojového kódu vyberte Konfigurace Gitu . Pokud nemáte připojené žádné úložiště, klikněte na Konfigurovat.

Konfigurace nastavení úložiště kódu z centra pro správu

Konfigurační Metoda 4: během vytváření továrny

Při vytváření nové datové továrny v Azure Portal můžete na kartě Konfigurace Git nakonfigurovat informace o úložišti Git.

Poznámka

Při konfiguraci Gitu na webu Azure Portal musí být nastavení, jako je název projektu a název úložiště, ručně zadáno jako součást rozevíracího seznamu.

Konfigurace nastavení úložiště kódu z webu Azure Portal

Vytváření s využitím integrace Gitu s Azure Repos

vytváření vizuálního obsahu pomocí Azure Repos integrace gitu podporuje správu zdrojového kódu a spolupráci pro práci na kanálech služby data factory. datovou továrnu můžete přidružit k Azure Repos úložiště organizace Git pro správu zdrojového kódu, spolupráci, správu verzí atd. jediná Azure Repos organizace Git může mít víc úložišť, ale Azure Repos úložiště Git se dá přidružit jenom k jednomu objektu pro vytváření dat. pokud nemáte Azure Repos organizaci nebo úložiště, vytvořte prostředky podle těchto pokynů .

Poznámka

skripty a datové soubory můžete ukládat do Azure Repos úložiště Git. Soubory však budete muset odeslat ručně, aby bylo možné Azure Storage. kanál služby data factory automaticky neodesílá skript nebo datové soubory uložené v úložišti Git Azure Repos do Azure Storage.

nastavení Azure Repos

Konfigurace nastavení úložiště kódu

podokno konfigurace zobrazuje následující Azure Repos nastavení úložiště kódu:

Nastavení Popis Hodnota
Typ úložiště typ úložiště kódu Azure Repos.
Azure DevOps Git nebo GitHub
Azure Active Directory Název vašeho tenanta Azure AD. <your tenant name>
Azure Repos organizace název vaší Azure Repos organizace název vaší Azure Repos organizace najdete na adrese https://{organization name}.visualstudio.com . k vašemu Azure Repos vaší organizaci se můžete přihlásit, abyste měli přístup k profilu Visual Studio a viděli vaše úložiště a projekty. <your organization name>
Názevprojektu název projektu Azure Repos. název projektu Azure Repos můžete najít na adrese https://{organization name}.visualstudio.com/{project name} . <your Azure Repos project name>
Úložiště váš Azure Repos název úložiště kódu. Azure Repos projekty obsahují úložiště Git pro správu zdrojového kódu při zvětšování projektu. Můžete vytvořit nové úložiště nebo použít existující úložiště, které už je v projektu. <your Azure Repos code repository name>
Větev pro spolupráci vaše větev Azure Repos spolupráci, která se používá k publikování. Ve výchozím nastavení je to main . Toto nastavení změňte pro případ, že chcete publikovat prostředky z jiné větve. <your collaboration branch name>
Publikovat větev Větev publikování je větev v úložišti, kde se ukládají a aktualizují související šablony ARM. Ve výchozím nastavení je to adf_publish . <your publish branch name>
Kořenová složka kořenová složka ve větvi Azure Repos spolupráci. <your root folder name>
Importovat stávající prostředky Data Factory do úložiště určuje, jestli se mají importovat stávající prostředky služby data factory z plátna pro vytváření uživatelského rozhraní, do úložiště Git Azure Repos. Zaškrtněte políčko pro import prostředků datové továrny do přidruženého úložiště Git ve formátu JSON. Tato akce exportuje jednotlivé prostředky jednotlivě (tj. propojené služby a datové sady jsou exportovány do samostatných JSON). Pokud toto políčko není zaškrtnuté, existující prostředky se neimportují. Vybráno (výchozí)
Vytvořit větev pro import prostředku Určuje, do které větve se importují prostředky služby Data Factory (kanály, datové sady, propojené služby atd.). Prostředky můžete importovat do jedné z následujících větví: a. Spolupráce b. Vytvořte nový soubor c. Použít existující

Poznámka

Pokud používáte protokol Microsoft Edge v rozevíracím seznamu účet služby Azure DevOps nevidíte žádné hodnoty, přidejte web https://*.visualstudio.com do seznamu důvěryhodných webů.

Použití jiného tenanta Azure Active Directory tenanta

Úložiště Azure Repos Git může být v jiném Azure Active Directory tenantovi. Pokud chcete zadat jiného tenanta Azure AD, musíte mít oprávnění správce pro předplatné Azure, které používáte. Další informace najdete v tématu Změna správce předplatného.

Důležité

Pokud se chcete Azure Active Directory jinému uživateli, přihlášený uživatel musí být součástí této služby Active Directory.

Použití osobních účet Microsoft

Pokud chcete použít osobní účet Microsoft pro integraci s Gitem, můžete své osobní úložiště Azure propojit s Active Directory vaší organizace.

  1. Přidejte osobní účet Microsoft do Active Directory vaší organizace jako hosta. Další informace najdete v tématu Přidání Azure Active Directory uživatelů spolupráce B2B v Azure Portal.

  2. Přihlaste se k Azure Portal pomocí svého osobního účet Microsoft. Pak přejděte do služby Active Directory vaší organizace.

  3. Přejděte do části Azure DevOps, kde se teď zobrazí vaše osobní Azure DevOps. Vyberte toto repo a připojte se ke službě Active Directory.

Po provedení těchto kroků konfigurace bude vaše osobní úložiště k dispozici při nastavení integrace Gitu v uživatelském Data Factory úložiště.

Další informace o připojení Azure Repos k Active Directory vaší organizace najdete v tématu Připojení vaší Azure DevOps k Azure Active Directory.

Vytváření s využitím integrace GitHubu

Vizuální vytváření s GitHub podporuje řízení zdrojového kódu a spolupráci pro práci na kanálech datové továrny. Datovou továrnu můžete přidružit k úložišti GitHub pro řízení zdrojového kódu, spolupráci a vytváření verzí. Jeden GitHub úložiště může mít více úložišť, ale úložiště GitHub může být přidružené pouze k jedné datové továrně. Pokud nemáte účet nebo úložiště GitHub, vytvořte prostředky podle těchto pokynů.

Integrace GitHub s Data Factory podporuje jak veřejné GitHub (to znamená https://github.com ), tak GitHub Enterprise. Můžete použít veřejná i privátní GitHub úložiště s Data Factory, pokud máte oprávnění ke čtení a zápisu do úložiště v GitHub.

Pokud chcete nakonfigurovat GitHub úložiště, musíte mít oprávnění správce pro předplatné Azure, které používáte.

GitHub nastavení

GitHub nastavení úložiště

V podokně konfigurace se zobrazí následující GitHub úložiště:

Nastavení Popis Hodnota
Typ úložiště Typ úložiště Azure Repos kódu. GitHubu
Použití GitHub Enterprise Zaškrtávací políčko pro výběr GitHub Enterprise Nevybrané (výchozí)
GitHub Enterprise URL Kořenová GitHub Enterprise URL (musí být HTTPS pro místní GitHub Enterprise serveru). Příklad: https://github.mydomain.com. Vyžaduje se jenom v případě GitHub Enterprise je vybraná možnost Použít GitHub Enterprise. <your GitHub enterprise url>
GitHub účet Název GitHub účtu. Tento název najdete na adrese https: / /github.com/{název účtu}/{název úložiště}. Když přejdete na tuto stránku, zobrazí se výzva, abyste GitHub přihlašovací údaje OAuth do GitHub účtu. <your GitHub account name>
Název úložiště Název GitHub vašeho kódu. GitHub účty obsahují úložiště Git pro správu zdrojového kódu. Můžete vytvořit nové úložiště nebo použít existující úložiště, které už je ve vašem účtu. <your repository name>
Větev spolupráce Vaše GitHub spolupráce, která se používá k publikování. Ve výchozím nastavení je hlavní. Pokud chcete publikovat prostředky z jiné větve, změňte toto nastavení. <your collaboration branch>
Kořenová složka Kořenová složka ve vaší GitHub větvi pro spolupráci. <your root folder name>
Import existujících Data Factory do úložiště Určuje, jestli se mají existující prostředky datové továrny importovat z plátna pro vytváření uživatelského rozhraní do GitHub úložiště. Zaškrtněte políčko pro import prostředků datové továrny do přidruženého úložiště Git ve formátu JSON. Tato akce exportuje jednotlivé prostředky (to znamená, že propojené služby a datové sady se exportují do samostatných sítí JSO). Pokud toto políčko není zaškrtnuté, stávající prostředky se neimportuje. Selected (výchozí)
Větev, do které se má prostředek importovat Určuje, do které větve se naimportuje prostředky datové továrny (kanály, datové sady, propojené služby atd.). Prostředky můžete importovat do jedné z následujících větví: a. Spolupráce b. Vytvořte nový soubor c. Použít existující

GitHub organizace

Připojení k GitHub organizaci vyžaduje, aby organizace udělovat oprávnění k Azure Data Factory. Aby se mohla datová továrna připojit, musí uživatel s oprávněními SPRÁVCE v organizaci provést následující kroky.

První připojení GitHub k novému připojení v Azure Data Factory

Pokud se ke službě GitHub z Azure Data Factory poprvé, postupujte podle těchto kroků a připojte se k GitHub organizaci.

  1. V podokně konfigurace Git zadejte název organizace do pole GitHub účtu. Zobrazí se výzva k GitHub přihlášení.
  2. Přihlaste se pomocí přihlašovacích údajů uživatele.
  3. Budete vyzváni k autorizaci Azure Data Factory jako aplikaci s názvem AzureDataFactory. Na této obrazovce uvidíte možnost udělit ADF oprávnění pro přístup k organizaci. Pokud nevidíte možnost udělit oprávnění, požádejte správce o ruční udělení oprávnění prostřednictvím GitHub.

Jakmile budete postupovat podle těchto kroků, vaše továrna se bude moct připojit k veřejným i privátním úložištím ve vaší organizaci. Pokud se nemůžete připojit, zkuste vymazat mezipaměť prohlížeče a zkusit to znovu.

Už jste připojení GitHub pomocí osobního účtu

Pokud jste se už připojili k GitHub a udělili jste přístup k osobnímu účtu pouze oprávnění, při udělování oprávnění organizaci postupujte podle následujících kroků.

  1. Přejděte na GitHub a otevřete Nastavení.

    Otevření GitHub souborů

  2. Vyberte Aplikace. Na kartě Autorizované aplikace OAuth by se měla zobrazit služba AzureDataFactory.

    Výběr aplikací OAuth

  3. Vyberte aplikaci a udělte aplikaci přístup k vaší organizaci.

    Udělení přístupu

Jakmile budete postupovat podle těchto kroků, vaše továrna se bude moct připojit k veřejným i privátním úložištím ve vaší organizaci.

Známá GitHub omezení

  • Skripty a datové soubory můžete ukládat do GitHub úložiště. Soubory ale musíte nahrát ručně, abyste je Azure Storage. Kanál Data Factory automaticky nenahraje skript nebo datové soubory uložené v úložišti GitHub do Azure Storage.

  • GitHub Enterprise verze starší než 2.14.0 v prohlížeči Microsoft Edge nefunguje.

  • GitHub integrace s nástroji Data Factory vizuálního vytváření funguje pouze v obecně dostupné verzi Data Factory.

Správa verzí

Systémy správy verzí (označované také jako Správa zdrojového kódu) umožňují vývojářům spolupracovat na kódu a sledovat změny, které jsou provedeny v základu kódu. Správa zdrojového kódu je důležitým nástrojem pro projekty s více vývojáři.

Vytváření větví funkcí

každé Azure Repos úložiště Git, které je přidružené k datové továrně, má větev pro spolupráci. ( main je výchozí branou pro spolupráci). Uživatelé můžou také vytvářet větve funkcí kliknutím na + Nová větev v rozevíracím seznamu větev.

Vytvořit novou větev

Jakmile se zobrazí podokno nová větev, zadejte název vaší větve funkce a vyberte větev, kterou chcete vyvodit z činnosti.

Snímek obrazovky ukazující, jak vytvořit větev na základě soukromé větve.

Až budete připraveni sloučit změny z větve funkcí do vaší větve pro spolupráci, klikněte na rozevírací seznam větev a vyberte vytvořit žádost o získání dat. tato akce vás provede Azure Repos Git, kde můžete vyvolávat žádosti o přijetí změn, provádět revize kódu a sloučit změny ve větvi pro spolupráci. ( main výchozí). Do služby Data Factory se povoluje pouze publikování z vaší větve pro spolupráci.

Vytvořit novou žádost o získání dat

Konfigurovat nastavení publikování

Ve výchozím nastavení služba Data Factory generuje šablony Správce prostředků publikovaných objektů pro vytváření a ukládá je do větve s názvem adf_publish . Chcete-li nakonfigurovat vlastní větev publikování, přidejte publish_config.json soubor do kořenové složky ve větvi pro spolupráci. Při publikování tento soubor přečte ADF, vyhledá pole publishBranch a uloží všechny správce prostředků šablony do zadaného umístění. Pokud větev neexistuje, vytvoří se data Factory automaticky. A příklad toho, jak tento soubor vypadá:

{
    "publishBranch": "factory/adf_publish"
}

Azure Data Factory může mít současně jen jednu větev publikování. Když zadáte novou větev publikování, Data Factory neodstraní předchozí větev publikování. Pokud chcete odebrat předchozí větev publikování, odstraňte ji ručně.

Poznámka

publish_config.jsonPři načtení objektu pro vytváření načte data Factory jenom soubor. Pokud už máte v portálu načtenou továrnu, aktualizujte prohlížeč, aby se změny projevily.

Publikování změn kódu

Po sloučení změn ve větvi pro spolupráci ( main výchozí nastavení) klikněte na publikovat a ručně publikujte změny kódu v hlavní větvi služby Data Factory.

Publikování změn ve službě Data Factory

Otevře se boční podokno, kde ověříte, že je větev publikování a nedokončené změny správná. Po ověření změn potvrďte publikování kliknutím na tlačítko OK .

Potvrďte správnou větev publikování.

Důležité

Hlavní větev nepředstavuje zástupce toho, co je ve službě Data Factory nasazené. Hlavní větev musí být publikovaná ručně ve službě Data Factory.

Osvědčené postupy pro integraci Git

Oprávnění

Obvykle nechcete, aby každý člen týmu měl oprávnění k aktualizaci Data Factory. Doporučuje se následující nastavení oprávnění:

  • Všichni členové týmu by měli mít oprávnění ke čtení Data Factory.
  • Pro publikování do Data Factory by mělo být povoleno pouze vybrat sadu osob. Aby to bylo možné, musí mít roli přispěvatel Data Factory ve skupině prostředků , která obsahuje data Factory. Další informace o oprávněních najdete v tématu role a oprávnění pro Azure Data Factory.

Doporučuje se nepovoluje přímá vrácení se změnami do větve pro spolupráci. Toto omezení může zabránit chybám, protože každé vrácení se změnami projde procesem revize žádosti o přijetí změn popsaným v tématu vytváření větví funkcí.

Používání hesel z Azure Key Vault

Doporučuje se použít Azure Key Vault k uložení připojovacích řetězců nebo hesel nebo ověřování spravované identity pro Data Factory propojených služeb. Z bezpečnostních důvodů Data Factory neukládá tajné klíče do Gitu. Jakékoli změny propojených služeb obsahujících tajné klíče, jako jsou hesla, se okamžitě publikují do služby Azure Data Factory.

Použití Key Vault nebo ověřování MSI také usnadňuje průběžnou integraci a nasazování, protože nebudete muset zadávat tyto tajné klíče během nasazování šablon Správce prostředků.

Řešení potíží s integrací Gitu

Zastaralá větev publikování

Níže jsou uvedeny některé příklady situací, které mohou způsobit zastaralou větev publikování:

  • Uživatel má více větví. V jedné větvi funkce odstranili propojenou službu, která není integrace přidružená (neintegrace propojené služby se publikují hned bez ohledu na to, jestli jsou v Gitu nebo ne), a nikdy nesloučí větev funkcí do větve pro spolupráci.
  • Uživatel změnil datovou továrnu pomocí sady SDK nebo PowerShellu.
  • Uživatel přesunul všechny prostředky do nové větve a pokusil se o publikování poprvé. Propojené služby by se měly vytvářet ručně při importu prostředků.
  • Uživatel nahraje propojenou službu bez integrace nebo Integration Runtime JSON ručně. Odkazují na tento prostředek z jiného prostředku, jako je datová sada, propojená služba nebo kanál. Propojená služba, která není integrace vytvořená prostřednictvím uživatelského rozhraní, se publikuje hned, protože přihlašovací údaje musí být šifrované. Pokud nahrajete datovou sadu odkazující na tuto propojenou službu a pokusíte se ji publikovat, bude ji uživatelské prostředí umožňovat, protože existuje v prostředí Git. Bude odmítnuta v době publikování, protože ve službě Data Factory neexistuje.

Pokud větev publikování není synchronizována s hlavní větví a obsahuje zastaralé prostředky navzdory nedávnému publikování, můžete použít kterékoli z následujících řešení:

Možnost 1: použití funkce přepsat živý režim

Publikuje nebo Přepisuje kód z vaší větve pro spolupráci do živého režimu. Bere v úvahu kód v úložišti jako zdroj pravdy.

Tok kódu: větev spolupráce – > živý režim

vynutit publikování kódu z větve spolupráce

Možnost 2: odpojení a opětovné připojení úložiště Git

Importuje kód z živého režimu do větve pro spolupráci. Považuje kód v živém režimu jako zdroj pravdy.

Tok kódu: živý režim – > větev pro spolupráci

  1. Odebrat aktuální úložiště Git
  2. Překonfigurujte Git se stejnými nastaveními, ale ujistěte se, že je vybraná možnost importovat existující data Factory prostředky do úložiště , a zvolit nové větve .
  3. Vytvořte žádost o přijetí změn, aby se změny sloučily do větve spolupráce.

Dle potřeby vyberte obě metody.

Všechny prostředky, které se zobrazují jako nové při publikování

Při publikování se všechny prostředky můžou zobrazovat jako nové, i když byly dřív publikované. K tomu může dojít v případě, že se vlastnost lastCommitId resetuje na vlastnosti repoConfiguration objektu factory buď opětovným nasazením šablony pro výrobu ARM, nebo aktualizací vlastnosti Factory repoConfiguration prostřednictvím PowerShellu nebo REST API. Pokračováním publikování prostředků dojde k vyřešení problému, ale k tomu, abyste se nemuseli objevovat znovu, se vyhnete aktualizaci vlastnosti Factory repoConfiguration .

Přepnout na jiné úložiště Git

Pokud chcete přepnout na jiné úložiště Git, přejděte na stránku konfigurace Git v centru správy pod správou zdrojových kódů. Vyberte Odpojit.

Ikona Git

Zadejte název datové továrny a kliknutím na Potvrdit odeberte úložiště Git přidružené k vaší datové továrně.

Odebere přidružení k aktuálnímu úložišti Git.

Po odebrání přidružení s aktuálním úložištěm můžete nakonfigurovat nastavení Gitu tak, aby používalo jiné úložiště, a pak do nového úložiště importovat existující Data Factory prostředky.

Důležité

Odebráním konfigurace git z datové továrny se neodstraňují cokoli z úložiště. Objekt pro vytváření bude obsahovat všechny publikované prostředky. Můžete pokračovat v úpravě továrny přímo na službu.

Další kroky