Existuje mnoho možností pro práci s geoprostorová data nebo informace, které zahrnují geografickou komponentu. Běžně dostupný je například software a standardy geografického informačního systému (GIS). Tyto technologie mohou ukládat, zpracovávat a poskytovat přístup k geoprostorových datům. Často je ale obtížné nakonfigurovat a udržovat systémy, které pracují s geoprostorová data. Potřebujete také odborné znalosti pro integraci těchto systémů s jinými systémy.
Tento článek popisuje spravovatelné řešení pro zpřístupnění velkých objemů geoprostorových dat pro analýzy. Tento přístup je založený na referenční architektuře pokročilé analýzy a používá tyto služby Azure:
- Azure Databricks s knihovnami GIS Spark zpracovává data.
- Azure Database for PostgreSQL dotazy na data, která uživatelé žádají prostřednictvím rozhraní API.
- Azure Data Explorer rychlé průzkumné dotazy.
- Azure Mapy vytváří vizuály geoprostorových dat ve webových aplikacích.
- Funkce vizuálu azure Mapy Power BI vizuálu Power BI poskytuje přizpůsobené sestavy.
Potenciální případy použití
Toto řešení se týká mnoha oblastí:
- Zpracování, ukládání a poskytování přístupu k velkým objemem rastrových dat, jako jsou mapy nebo data o klimatu.
- Identifikace geografické pozice systémových entit plánování podnikových zdrojů (ERP)
- Kombinování dat o poloze entity s referenčními daty GIS
- Ukládání Internet věcí (IoT) z přesouvacích zařízení
- Spouštění analytických geoprostorových dotazů
- Vkládání kurátorovaných a kontextových geoprostorových dat do webových aplikací
Architektura
Diagram obsahuje několik šedých polí, z nichž každá má jiný popisek. Popisky jsou zleva doprava: Ingestování, Příprava, Načtení, Obsloužení a Vizualizace a prozkoumávání. V posledním poli pod ostatními je popisek Monitor a zabezpečení. Každé pole obsahuje ikony, které představují různé služby Azure. Očíslované šipky spojují pole způsobem popsaným v popisu diagramu.
Data IoT vstupují do systému:
- Azure Event Hubs ingestuje datové proudy dat IoT. Data obsahují souřadnice nebo jiné informace, které identifikují umístění zařízení.
- Event Hubs používá Azure Databricks pro počáteční zpracování datového proudu.
- Event Hubs ukládá data v Azure Data Lake Storage.
Data GIS vstupují do systému:
Azure Data Factory ingestuje rastrová data GIS a vektorová data GIS libovolného formátu.
- Rastrová data se skládají z mřížek hodnot. Každá hodnota pixelů představuje charakteristiku, jako je teplota nebo zvýšení zeměpisné oblasti.
- Vektorová data představují konkrétní geografické vlastnosti. Vrcholy neboli diskrétní geometrická umístění tvoří vektory a definují tvar každého prostorového objektu.
Data Factory data v Data Lake Storage.
Clustery Spark ve Azure Databricks k transformaci a normalizaci dat používají knihovny geoprostorového kódu.
Data Factory načte připravená vektorová a rastrová data do Azure Database for PostgreSQL. Řešení používá s touto databází rozšíření PostGIS.
Data Factory načte připravená vektorová a rastrová data do Azure Data Explorer.
Azure Database for PostgreSQL ukládá data GIS. Rozhraní API zřizuje tato data ve standardizovaných formátech:
- GeoJSON je založený na JavaScript Object Notation (JSON). GeoJSON představuje jednoduché geografické vlastnosti a jejich neprostorové vlastnosti.
- Dobře známý text (WKT) je jazyk pro značky textu, který představuje objekty vektorové geometrie.
- Vektorové dlaždice jsou pakety geografických dat. Jejich jednoduchý formát zlepšuje výkon mapování.
Mezipaměť Redis zlepšuje výkon tím, že poskytuje rychlý přístup k datům.
Funkce Web Apps funguje Azure App Service s Azure Mapy při vytváření vizuálů dat.
Uživatelé analyzují data pomocí Azure Data Explorer. Funkce GIS tohoto nástroje vytvářejí přehledné vizualizace. Mezi příklady patří vytváření bodových grafů z geoprostorových dat.
Power BI poskytuje přizpůsobené sestavy a business intelligence (BI). Vizuál Azure Mapy pro Power BI zvýrazní roli dat o poloze v obchodních výsledcích.
Během celého procesu:
- Azure Monitor shromažďuje informace o událostech a výkonu.
- Log Analytics spouští dotazy na protokoly monitorování a analyzuje výsledky.
- Azure Key Vault zabezpečení hesel, připojovacích řetězců a tajných kódů.
Komponenty
Event Hubs je plně spravovaná streamovací platforma pro velké datové proudy. Tato platforma jako služba (PaaS) nabízí model rozdělených zákazníků. Tento model může používat více aplikací ke zpracování datového proudu současně.
Data Factory je integrační služba, která pracuje s daty z různorodých úložišť dat. Tuto plně spravovanou platformu bez serveru můžete použít k vytváření, plánování a orchestraci pracovních postupů transformace dat.
Azure Databricks je platforma pro analýzu dat. Jeho plně spravované clustery Spark zpracovávají velké datové proudy z více zdrojů. Azure Databricks můžete ve velkém měřítku transformovat geoprostorová data pro použití v analýzách a vizualizacích dat.
Data Lake Storage je škálovatelné a zabezpečené datové jezero pro vysoce výkonné analytické úlohy. Tato služba může spravovat více petabajtů informací a současně udržovat stovky gigabitů propustnosti. Data obvykle pochází z několika heterogenních zdrojů a mohou být strukturovaná, částečně strukturovaná nebo nestrukturovaná.
Azure Database for PostgreSQL je plně spravovaná relační databázová služba založená na komunitní verzi open source databázového stroje PostgreSQL.
PostGIS je rozšíření databáze PostgreSQL, které se integruje se servery GIS. PostGIS může spouštět SQL polohy, které se týkají geografických objektů.
Redis je open source úložiště dat v paměti. Mezipaměti Redis uchová často dostupná data v paměti serveru. Mezipaměti pak mohou rychle zpracovávat velké objemy aplikačních požadavků, které tato data používají.
Power BI je kolekce softwarových služeb a aplikací. Pomocí nástroje Power BI připojit nesouvisející zdroje dat a vytvářet jejich vizuály.
Vizuál Azure Mapy pro Power BI poskytuje způsob, jak vylepšit mapy prostorovými daty. Pomocí tohoto vizuálu můžete zobrazit, jak data o poloze ovlivňují obchodní metriky.
App Service a její Web Apps poskytují rozhraní pro vytváření, nasazování a škálování webových aplikací. Platforma App Service integrovanou údržbu infrastruktury, opravy zabezpečení a škálování.
Rozhraní API pro data GIS v Azure Mapy ukládat a načítat mapová data ve formátech, jako jsou GeoJSON a vektorové dlaždice.
Azure Data Explorer je rychlá, plně spravovaná služba pro analýzu dat, která může pracovat s velkými objemy dat. Tato služba se původně zaměřovala na časové řady a analytiku protokolů. Nyní také zpracovává různorodé datové proudy z aplikací, webů, zařízení IoT a dalších zdrojů. Geoprostorové funkce v Azure Data Explorer nabízí možnosti pro vykreslování mapových dat.
Monitorování shromažďuje data o prostředích a zdrojích Azure. Tyto diagnostické informace jsou užitečné pro zachování dostupnosti a výkonu. Monitor tvoří dvě datové platformy:
- Azure Monitor zaznamenává a ukládá data protokolů a výkonu.
- Azure Monitor Metriky shromažďuje číselné hodnoty v pravidelných intervalech.
Log Analytics je Azure Portal, který spouští dotazy na data protokolů monitorování. Log Analytics také poskytuje funkce pro grafy a statistickou analýzu výsledků dotazů.
Key Vault a řídí přístup k tajným kódům, jako jsou tokeny, hesla a klíče rozhraní API. Key Vault také vytváří a řídí šifrovací klíče a spravuje certifikáty zabezpečení.
Alternativy
Místo vývoje vlastních rozhraní API zvažte použití Novák. Tento otevřený zdrojový dlaždicový server zpřístupňuje k webovým aplikacím vektorové dlaždice. Napsané v Rust, Martin se připojí k tabulkám PostgreSQL. Můžete ho nasadit jako kontejner.
Pokud vaším cílem je poskytnout standardizované rozhraní pro data v GIS, zvažte použití serveru. Toto rozhraní Open Framework implementuje standardní protokoly Open Geospatial Consortium (OGC) , jako je například Služba webové funkce (WFS). Integruje se také s běžnými prostorovými zdroji dat. Jako kontejner můžete na virtuálním počítači nasadit svůj server. Když jsou přizpůsobené webové aplikace a průzkumné dotazy sekundární, nabízí server přímý způsob, jak publikovat geoprostorové údaje.
K dispozici jsou různé knihovny Spark pro práci se geoprostorovémi daty na Azure Databricks. Toto řešení používá tyto knihovny:
Existují však i další řešení pro zpracování a škálování geoprostorové úlohy pomocí Azure Databricks.
Vektorové dlaždice poskytují účinný způsob, jak zobrazit data v GIS na mapách. Toto řešení používá PostGIS k dynamickému dotazování vektorových dlaždic. Tento přístup funguje dobře pro jednoduché dotazy a sady výsledků, které obsahují dobře pod 1 000 000 záznamů. V následujících případech ale může být vhodnější jiný přístup:
- Dotazy jsou výpočty nákladné.
- Vaše data se často nemění.
- Zobrazujete velké sady dat.
V těchto situacích zvažte použití Tippecanoe ke generování vektorových dlaždic. Tippecanoe můžete spustit jako součást toku zpracování dat, a to buď jako kontejner, nebo pomocí Azure Functions. Výsledné dlaždice můžete zpřístupnit prostřednictvím rozhraní API.
Podobně jako Event Hubs může Azure IoT Hub ingestovat velké objemy dat. Ale IoT Hub taky nabízí možnosti obousměrné komunikace se zařízeními. Pokud obdržíte data přímo ze zařízení, ale také odesílat příkazy a zásady zpátky do zařízení, zvažte IoT Hub místo Event Hubs.
Chcete-li řešení zjednodušit, vynechejte tyto komponenty:
- Průzkumník dat Azure
- Power BI
Požadavky
následující požadavky na základě Well-Architected architektury Microsoft Azurese vztahují na toto řešení:
Aspekty dostupnosti
Event Hubs riziko selhání rozšíří napříč clustery.
- Pomocí oboru názvů se zapnutými zónami dostupnosti rozšíříte riziko mezi třemi fyzicky oddělenými zařízeními.
- Zvažte použití funkce geograficky Event Hubs pro zotavení po havárii. Tato funkce replikuje celou konfiguraci oboru názvů z primárního do sekundárního oboru názvů.
Podívejte se na funkce kontinuity podnikových aplikací, které Azure Database for PostgreSQL nabídky. Tyto funkce zahrnují řadu cílů obnovení.
Diagnostika App Service vás upozorní na problémy v aplikacích, jako je například výpadek. Pomocí této služby můžete identifikovat, řešit potíže a řešit problémy, jako jsou výpadky.
Zvažte použití App Service k zálohování souborů aplikace. Ale buďte opatrní s zálohovanými soubory, které zahrnují nastavení aplikace v prostém textu. Tato nastavení mohou obsahovat tajné klíče jako připojovací řetězce.
Aspekty zabezpečení
Implementace tohoto řešení splňuje tyto podmínky:
- Zpracuje až 10 000 000 datových sad za den. Datové sady zahrnují události Batch nebo streamování.
- Ukládá 100 000 000 datových sad do databáze Azure Database for PostgreSQL.
- Dotazuje se na 1 000 000 nebo méně datových sad současně. Maximálně 30 uživatelů spouští dotazy.
Prostředí používá tuto konfiguraci:
- Cluster Azure Databricks se čtyřmi F8s_V2 pracovních uzlů.
- Paměťově optimalizovaná instance Azure Database for PostgreSQL.
- Plán App Service se dvěma standardními instancemi S2.
Vezměte v úvahu tyto faktory, abyste zjistili, které úpravy se mají udělat pro vaši implementaci:
- Míra přijímání dat
- Objem dat:
- Váš svazek dotazu.
- Počet paralelních dotazů, které potřebujete podporovat.
Součásti Azure můžete škálovat nezávisle:
Event Hubs se automaticky škálují podle potřeb využití. Ale proveďte kroky pro správu jednotek propustnosti a Optimalizujte oddíly.
Data Factory zpracovává velké objemy dat. Jeho Architektura bez serveru podporuje paralelismus na různých úrovních.
Azure Database for PostgreSQL nabízí vysoce výkonné horizontální škálování.
V případě potřeby změňte velikost clusterů Azure Databricks.
Azure Průzkumník dat může během několika minut elastickě škálovat na terabajty dat.
Funkce automatického škálování monitoru také poskytuje funkce škálování. Tuto funkci můžete nakonfigurovat tak, aby bylo možné přidat prostředky pro zvýšení zátěže. Může taky odebrat prostředky a ušetřit tak peníze.
Důležité informace o zabezpečení
Chraňte data vektorové dlaždice. Vektorové dlaždice vkládají souřadnice a atributy pro více entit v jednom souboru. Pokud vytvoříte vektorové dlaždice, použijte vyhrazenou sadu dlaždic pro každou úroveň oprávnění v systému řízení přístupu. S tímto přístupem mají přístup k datovému souboru této úrovně jenom uživatelé v každé úrovni oprávnění.
Pro zvýšení zabezpečení použijte Key Vault v těchto situacích:
Informace o tom, jak App Service pomáhá zabezpečit webové aplikace, najdete v tématu zabezpečení v Azure App Service . Zvažte také tyto body:
Ceny
- Pokud chcete odhadnout náklady na implementaci tohoto řešení, přečtěte si ukázkový profil nákladů. Tento profil se používá pro jednu implementaci prostředí popsanou v tématu týkajícím se škálovatelnosti. Nezahrnuje náklady na Azure Průzkumník dat.
- Pokud chcete upravit parametry a prozkoumat náklady na spuštění tohoto řešení ve vašem prostředí, použijte cenovou kalkulačku Azure.
Další kroky
Pokud chcete začít s implementací tohoto řešení, podívejte se na tyto informace:
Související architektury
- Analýzy velkých objemů dat s využitím Azure Data Exploreru
- Konsorcium dat o stavu v Azure
- DataOps pro moderní datový sklad
- Interaktivní analýzy Azure Data Exploreru
Související příručky
- Porovnání produktů a technologií strojového učení od Microsoftu Azure Databricks
- Architektura operací strojového učení (MLOps) pro horizontální navýšení kapacity životního cyklu strojového učení pomocí Azure Machine Learning
- Průvodce rozhodováním Azure Machine Learningu pro optimální výběr nástrojů
- Monitorování Azure Databricks
Informace o zpracování geoprostorových dat
- Funkce pro dotazování PostGIS pro vektorové dlaždice
- Funkce pro načítání rastrů PostGIS
- Geoprostorové funkce Azure Průzkumník dat
- Zdroje dat pro vektorové dlaždice v Azure Maps
- Přístupy ke zpracování geoprostorových dat v datacihlách
Související prostředky
- Připojení WFS Azure Maps.
- Zpracování OpenStreetMap dat pomocí Sparku.
- Prozkoumejte způsoby, jak Zobrazit data pomocí Azure Maps.