Koncepty příjmu dat analyzátoru CSV

Soubor CSV (hodnoty oddělené čárkami) je textový soubor oddělený čárkami, který slouží k ukládání dat ve strukturovaném formátu tabulky.

Sada DAG analyzátoru sdíleného svazku clusteru umožňuje zákazníkovi načíst data do Microsoft Azure Data Manageru pro energetické instance na základě vlastního schématu, tedy schématu, které neodpovídá známému schématu OSDU® (WKS). Zákazníci musí před načtením dat vytvořit a zaregistrovat vlastní schéma pomocí služby Schema.

Dag analyzátoru CSV implementuje přístup ELT (Extrakce načtení a transformace) k načítání dat, tj. data se nejprve extrahují ze zdrojového systému ve formátu CSV a načtou se do Azure Data Manageru pro energii. Pak je možné ho transformovat na známé schéma OSDU® pomocí mapovací služby.

Co dělá příjem clusteru?

Sada DAG analyzátoru sdíleného svazku clusteru umožňuje zákazníkům načíst data sdíleného svazku clusteru do Microsoft Azure Data Manageru pro energetické instance. Analyzuje každý řádek souboru CSV a vytvoří záznam metadat úložiště. Zajišťuje schema validation , aby data sdíleného svazku clusteru odpovídala registrovanému vlastnímu schématu. Automaticky provádí type coercion sloupce na základě definice datového typu schématu. unique id Generuje pro každý řádek záznamu CSV kombinováním zdroje, typu entity a řetězce kódovaného base64 vytvořeným zřetězením přirozených klíčů v datech. unit conversion Provádí převodem deklarovaného rámce referenčních informací na odpovídající trvalý odkaz pomocí služby Jednotky. CRS conversion Provádí se pro prostorově pracující sloupce založené na informacích o rámci odkazu (FoR), které jsou přítomné ve schématu. relationships Vytvoří metadata deklarovaná ve zdrojovém schématu. Nakonec se jedná persists o záznam metadat pomocí služby Storage.

Komponenty ingestování sdíleného svazku clusteru

Pracovní postup DAG analyzátoru sdíleného svazku clusteru se skládá z následujících služeb:

  • Souborová služba usnadňuje správu souborů v instanci Azure Data Manageru pro energii. Umožňuje uživateli bezpečně nahrávat, zjišťovat a stahovat soubory z datové platformy.
  • Služba schémat usnadňuje správu schémat v instanci Azure Data Manageru pro energii. Umožňuje uživateli vytvářet, načítat a vyhledávat schémata v datové platformě.
  • Služba úložiště usnadňuje ukládání informací o metadatech pro entity domény ingestované do datové platformy. Vyvolává také události změn záznamů úložiště, které umožňují podřízeným službám provádět operace s přijatými záznamy metadat.
  • Služba jednotek usnadňuje správu a převod jednotek.
  • Služba pracovních postupů usnadňuje správu pracovních postupů v instanci Azure Data Manageru pro energii. Je to služba obálky nad orchestračním motorem Airflow.

Diagram komponent ingestování csv

Snímek obrazovky s diagramem komponent příjmu clusteru

Pracovní postup příjmu dat analyzátoru CSV

Aby mohl uživatel spustit pracovní postup DAG analyzátoru sdíleného svazku clusteru, musí mít platný autorizační token a odpovídající přístup k následujícím službám: Search, Storage, Schema, File Service, Entitlement, Legal a Workflow.

Následující diagram pracovního postupu znázorňuje pracovní postup DAG analyzátoru sdíleného svazku clusteru: Snímek obrazovky s diagramem sekvence příjmu clusteru

Pokud chcete spustit pracovní postup DAG analyzátoru sdíleného svazku clusteru, musí uživatel nejprve vytvořit a zaregistrovat schéma pomocí služby pracovního postupu. Po vytvoření schématu pak uživatel použije službu File k nahrání souboru CSV do Microsoft Azure Data Manageru pro energetické instance a také vytvoří záznam úložiště obecného typu souboru. Souborová služba pak uživateli poskytne ID souboru, které se použije při aktivaci pracovního postupu analyzátoru sdíleného svazku clusteru pomocí služby Workflow. Služba Pracovního postupu poskytuje ID spuštění, které může uživatel použít ke sledování stavu spuštění pracovního postupu analyzátoru sdíleného svazku clusteru.

OSDU® je ochranná známka the Open Group.

Další kroky

Přejděte k kurzu analyzátoru CSV a zjistěte, jak provést příjem dat analyzátoru CSV.