Co to jest produkt danych?

Każda aplikacja tworzy i przechowuje dane tymczasowo lub trwale. Wiele aplikacji tworzy również i zapisuje dane do celów zarządzania operacyjnego, takich jak rejestrowanie błędów i monitorowanie kondycji. Scentralizowane zespoły danych używają procesów ETL do wykorzystywania i przetwarzania danych, które tworzą te aplikacje. Zespoły operacji aplikacji często mają dodatkowe przepływy przetwarzania danych na potrzeby monitorowania kondycji aplikacji i stanu kluczowego wskaźnika wydajności.

Tradycyjne podejście kaskadowe zespołów i obowiązków związanych z integracją danych nie jest idealne. Może to prowadzić do luk w wiedzy, problemów z własnością i konfliktów komunikacyjnych, które wpływają na jakość, osie czasu i wartość danych dla użytkowników końcowych. Zespoły aplikacji są odpowiedzialne za wydajność i powodzenie aplikacji. W swojej pracy muszą wprowadzać zmiany w procesach podrzędnych należących do innych zespołów, ale te zmiany często nie są zgodne z planem. Na przykład może się okazać, że tak zwana niewielka zmiana nadrzędna znacząco zmienia trend kluczowego wskaźnika wydajności. Tego rodzaju problemy z danymi mogą mieć wpływ na możliwość podejmowania krytycznych decyzji.

Podejście siatki danych zapobiega tym problemom przez przyjęcie koncepcji danych jako produktu. Właściciele aplikacji i zespoły aplikacji traktują dane jako w pełni zawarty produkt, za który są odpowiedzialni, a nie za produkt uboczny niektórych procesów, którymi zarządzają inni. Zadania obsługujące zarówno aplikacje, jak i dane analityczne znajdują się w obszarach odpowiedzialności domeny.

Produkty danych są tworzone specjalnie na potrzeby użycia analitycznego. Zdefiniowali i uzgodnili kształty, interfejsy zużycia oraz cykle konserwacji i odświeżania, z których wszystkie zostały udokumentowane.

Produkty danych są przetwarzane zasoby danych domeny/zestawy danych współużytkowane z procesami podrzędnymi za pośrednictwem interfejsów w ramach celu slo. O ile nie jest to wymagane, dane pierwotne powinny być przetwarzane, ukształtowane, oczyszczone, zagregowane i znormalizowane w celu spełnienia uzgodnionych standardów jakości przed udostępnieniem ich do użytku.

W poniższych sekcjach opisano typowe cechy, które mają dobre produkty danych.

Charakterystyka produktu danych

Dobrze zaprojektowane produkty danych to:

Możliwe do odnalezienia, zrozumiałe i godne zaufania: Zespoły ds. domen zapewniają możliwość odnajdywania i zrozumienia, udostępniając i aktualizując informacje o każdym produkcie danych, jego danych, jego znaczeniu, formacie kształtu danych i cyklu odświeżania. Komunikują one zmiany w danych lub kształtach odbiorców podrzędnych w odpowiednim czasie. Interfejsy zapewniają wiarygodność, zapewniając zgodność z poprzednimi wersjami dla kształtów produktów danych.

Adresowalne, natywnie dostępne i bezpieczne: Zdefiniowane procesy lokalizowania i uzyskiwania dostępu do każdego produktu danych zapewniają adresowość. Obowiązują niezbędne środki bezpieczeństwa dla różnych wymagań dostępu. Mentalność własności domeny danych zmienia się z danych strażników na obsługę danych przy użyciu dobrze zdefiniowanych środków ostrożności dotyczących zabezpieczeń. Oferowane interfejsy dostępu są dobrze udokumentowane i mogą się różnić w różnych technologiach. Najczęściej używane interfejsy dla natywnie dostępnych produktów danych obejmują interfejsy API, użytkowników bazy danych, tabele lub widoki oraz pliki z niezbędnymi prawami dostępu.

Współdziałanie, prawdziwe i cenne: Dane zapewniają współdziałanie zgodnie ze zdefiniowanymi typowymi standardami, takimi jak te same wartości, zawsze o tej samej nazwie i typie danych. Na przykład kolumna zawierająca dane identyfikacyjne klienta może mieć tytuł CustomerID w każdym produkcie danych, a jego dane mogą być zawsze liczbą całkowitą lub użyć snake_case lub camelCase w każdym wystąpieniu. Produkty danych zapewniają klientom wartość i mogą być również używane jako nadrzędne źródła dla nowych produktów danych w tych samych lub różnych domenach. Nie można jednak po prostu przenosić i kopiować tego samego produktu danych w wielu miejscach. Każdy produkt danych pochodzący z poprzedniego produktu danych powinien dostarczać nową wartość i informacje konsumentom podrzędnym. Produkty danych muszą również zawsze dostarczać prawdziwe, błędne dane.

Dobrze zaprojektowane, dobrze utrzymane produkty danych i ich interfejsy pomagają organizacjom uniknąć duplikowania danych i mogą pomóc w utworzeniu natywnego pojedynczego źródła prawdy.

Zalecenia dotyczące projektowania produktów danych

Aby spełnić wymagania dotyczące obsługi danych, zespoły domeny muszą zdobyć nowy zestaw umiejętności i korzystać z nowych narzędzi i platform.

W pełni wyposażyć zespoły ds. aplikacji domenowych w celu tworzenia aplikacji danych i tworzenia lub udostępniania produktów danych. Zespoły mogą tworzyć produkty danych przy użyciu znanego stosu technologii. Wolisz również mieć własne wystąpienie platformy Spark lub aparat potoku, jeśli jest to możliwe. Na przykład duża domena, która obsługuje wiele produktów danych, może zdecydować się na przetwarzanie i obsługę produktów danych z własnych Azure Synapse Analytics. Mniejsze organizacje i mniejsze domeny dużych przedsiębiorstw mogą zdecydować się na opracowywanie i uruchamianie aplikacji danych na udostępnionej platformie, takiej jak centralnie zlokalizowana Azure Data Factory, Azure Synapse Analytics lub Azure Databricks.

Upewnij się, że produkty danych mają wspólne cechy opisane w tym artykule, repozytorium pochodzenia odzwierciedla pochodzenie aplikacji danych, a implementacja i dostęp są zarządzane.

Diagram przedstawiający możliwe logiczne układy aplikacji danych w domenach i strefach docelowych.

Wskazówki dotyczące produktu i aplikacji danych dla platformy Azure

Możesz ustawić wszystkie możliwe podejścia do środowiska aplikacji danych w strefach docelowych danych platformy Azure, jeśli zespoły aplikacji domeny używają udostępnionej platformy i zestawu usług.

Diagram przedstawiający grupę zasobów data-application-rg z kontekstu aplikacji danych i grupę zasobów shared-application-rg z kontekstu usług podstawowych.

Trzy różne szablony wzorców aplikacji danych dla stref docelowych danych platformy Azure można znaleźć w produktach danych analizy w skali chmury na platformie Azure — przykładowe aplikacje danych.

Następne kroki