Dane w kliencie usługi Azure Purview Data Catalog danych

Ten artykuł zawiera omówienie źródła danych w usłudze Azure Purview Data Catalog. Opisano w nim również sposób integracji systemów danych z wykazem w celu przechwytywania danych obydwego. Program Purview może przechwytywać dane w różnych częściach majątku danych organizacji oraz na różnych poziomach przygotowywania, takich jak:

  • Całkowicie nieprzetworzone dane przetworzone z różnych platform
  • Przekształcone i przygotowane dane
  • Dane używane przez platformy wizualizacji.

Przypadki użycia

Pochodzenie danych jest szeroko zrozumiałe jako cykl życia, który obejmuje pochodzenie danych i miejsce, w którym są przesuwane w czasie w obrębie całej infrastruktury danych. Jest on używany w różnych scenariuszach wstecz, takich jak rozwiązywanie problemów, śledzenie głównej przyczyny w potokach danych i debugowanie. Dane te są również używane do analizy jakości danych, zgodności i scenariuszy "what if" często nazywanych analizą wpływu. Dane pochodzenia są reprezentowane wizualnie w celu pokazania danych przechodzących ze źródła do miejsca docelowego, w tym sposobu przekształcania danych. Biorąc pod uwagę złożoność większości środowisk danych przedsiębiorstwa, te widoki mogą być trudne do zrozumienia bez konsolidacji lub maskowania peryferyjnych punktów danych.

Środowisko pozysłowe w usłudze Azure Purview Data Catalog

Purview Data Catalog będzie łączyć się z innymi systemami przetwarzania danych, magazynowania i analizy w celu wyodrębnienia informacji o pokładzie. Informacje te są łączone w celu reprezentowania ogólnego, specyficznego dla scenariusza interfejsu sieciowego w katalogu.

end-end, pokazujący dane skopiowane z magazynu obiektów blob na całej drodze do Power BI nawigacyjnego

Majątek danych może obejmować systemy wykonujące wyodrębnianie, przekształcanie danych (systemy ETL/ELT), systemy analizy i wizualizacji. Każdy z systemów przechwytuje rozbudowane metadane statyczne i operacyjne, które opisują stan i jakość danych w granicach systemów. Celem poszczególnych elementów w wykazie danych jest wyodrębnianie metadanych dotyczących przemieszczania, przekształcania i działania z każdego systemu danych na najniższym możliwym poziomie ziarna.

Poniższy przykład to typowy przypadek użycia danych przenoszących się między wieloma systemami, w którym Data Catalog się z każdym z systemów w celu ich połączenia.

  • Data Factory kopiuje dane ze strefy wstępnej/pierwotnej do strefy docelowej w chmurze.
  • Systemy przetwarzania danych, takie jak Synapse, usługi Databricks przetwarzały i przekształcały dane ze strefy docelowej do strefy curated przy użyciu notesów.
  • Dalsze przetwarzanie danych do modeli analitycznych w celu uzyskania optymalnej wydajności i agregacji zapytań.
  • Systemy wizualizacji danych będą korzystać z zestawów danych i przetwarzać je za pośrednictwem ich meta modelu w celu utworzenia pulpitu nawigacyjnego usługi BI, ML eksperymentów i tak dalej.

Poziom szczegółowości danych

W poniższej sekcji przedstawiono szczegółowe informacje o szczegółowości, z których informacje o pokładzie są zbierane przez program Purview. Ten poziom szczegółowości może się różnić w zależności od systemów danych obsługiwanych w programie Purview.

Pochodzenia na poziomie jednostki: źródła > proces > docelowych

  • Element pochodzenia jest reprezentowany jako graf, zwykle zawiera jednostki źródłowe i docelowe w systemach magazynu danych, które są połączone przez proces wywoływany przez system obliczeniowy.
  • Systemy danych łączą się z wykazem danych w celu wygenerowania i zgłoszenia unikatowego obiektu odwołującego się do obiektu fizycznego bazowego systemu danych, na przykład: SQL Procedura składowana, notesy i tak dalej.
  • Elementy o wysokiej wierności z dodatkowymi metadanymi, takie jak własność, są przechwytywane w celu pokazania pochodzenia w czytelnym dla człowieka formacie dla jednostek & docelowych. na przykład: pozysłowanie na poziomie tabeli programu Hive zamiast partycji lub na poziomie pliku.

Pozysłowy na poziomie kolumny lub atrybutu

Zidentyfikuj atrybuty jednostki źródłowej, która jest używana do tworzenia lub tworzenia atrybutów w jednostce docelowej. Nazwa atrybutu źródłowego może zostać zachowana lub zmieniona w celu. Systemy takie jak ADF mogą wykonać jedną kopię ze środowiska lokalnego do chmury. Na przykład: Table1/ColumnA -> Table2/ColumnA.

Stan wykonywania procesu

Aby obsługiwać scenariusze analizy głównej przyczyny i jakości danych, przechwytujemy stan wykonywania zadań w systemach przetwarzania danych. To wymaganie nie ma nic wspólnego z zastępowaniem możliwości monitorowania innych systemów przetwarzania danych. Ani celem nie jest ich zastąpienie.

Podsumowanie

Składowa jest krytyczną funkcją programu Purview Data Catalog do obsługi scenariuszy jakości, zaufania i inspekcji. Celem wykazu danych jest zbudowanie niezawodnej struktury, w której wszystkie systemy danych w środowisku mogą naturalnie łączyć się i raportować ich skład. Gdy metadane są dostępne, wykaz danych może ze sobą łączyć metadane dostarczane przez systemy danych w celu zasilania przypadków użycia ładu danych.

Następne kroki