Pozyskiwanie i przetwarzanie danych IoT w czasie rzeczywistym w przemyśle samochodowymIngestion and processing of real-time automotive IoT data

Ten przykładowy scenariusz kompiluje potoku pozyskiwania i przetwarzania danych w czasie rzeczywistym w celu pozyskiwania i przetwarzania komunikatów z urządzeń IoT (w postaci ogólnych czujników) na platformie analitycznej Big Data na platformie Azure.This example scenario builds a real-time data ingestion and processing pipeline to ingest and process messages from IoT devices (in general sensors) into a big data analytic platform in Azure. Platformy do pozyskiwania i przetwarzania danych telematycznych są kluczem do tworzenia połączonych rozwiązań samochodowych.Vehicle telematics ingestion and processing platforms are the key to create connected car solutions. Ten konkretny scenariusz został zaumotywowany przez systemy pozyskiwania i przetwarzania telematycznego samochodu.This specific scenario is motivated by the car telematics ingestion and processing systems. Wzorce projektowe są jednak istotne dla wielu branż korzystających z czujników do zarządzania i monitorowania złożonych systemów w branżach, takich jak inteligentne budynki, komunikacja, produkcja, sprzedaż detaliczna i opieka medyczna.However, the design patterns are relevant for many industries using sensors to manage and monitor complex systems in industries such as smart buildings, communications, manufacturing, retail, and healthcare.

W tym przykładzie pokazano potoku pozyskiwania i przetwarzania danych w czasie rzeczywistym dla komunikatów z urządzeń IoT zainstalowanych w pojazdach.This example demonstrates a real-time data ingestion and processing pipeline for messages from IoT devices installed in vehicles. Tysiące i miliony komunikatów (lub zdarzeń) są generowane przez urządzenia i czujniki IoT.Thousands and millions of messages (or events) are generated by the IoT devices and sensors. Przechwytując i analizując te komunikaty, możemy odszyfrować cenne informacje i podjąć odpowiednie działania.By capturing and analyzing these messages, we can decipher valuable insights and take appropriate actions. Na przykład w przypadku samochodów wyposażonych w urządzenia telematyczne, jeśli możemy przechwycić komunikaty urządzenia (IoT) w czasie rzeczywistym, będziemy mogli monitorować na bieżąco lokalizacje pojazdów, planować zoptymalizowane trasy, zapewniać pomoc dla sterowników i obsługiwać branże związane z telematycznych takie jak Autoubezpieczenie.For example, with cars equipped telematics devices, if we can capture the device (IoT) messages in real time, we would be able to monitor the live location of vehicles, plan optimized routes, provide assistance to drivers, and support telematics-related industries such as auto insurance.

Na potrzeby tego przykładu Wyobraź sobie firmę produkcyjną samochodu, która chce utworzyć system w czasie rzeczywistym w celu pozyskiwania i przetwarzania komunikatów z urządzeń telematycznych.For this example demonstration, imagine a car manufacturing company that wants to create a real-time system to ingest and process messages from telematics devices. Cele firmy obejmują:The company's goals include:

  • Pozyskiwanie i przechowywanie danych w czasie rzeczywistym z czujników i urządzeń.Ingest and store data in real time from vehicles sensors and devices.
  • Analizowanie komunikatów w celu zrozumienia lokalizacji pojazdu i innych informacji emitowanych przez różne typy czujników (na przykład czujników związanych z silnikiem i czujników związanych ze środowiskiem).Analyze the messages to understand vehicle location, and other information emitted through different types of sensors (such as engine-related sensors and environment-related sensors).
  • Przechowaj dane po analizie dla innego przetwarzania podrzędnego, aby zapewnić szczegółowe informacje umożliwiające podejmowanie działań (na przykład w przypadku sytuacji, w których agencje ubezpieczeń mogą chcieć wiedzieć, co się stało w trakcie wypadków itp.).Store the data after analysis for other downstream processing to provide actionable insights (For example, in accident scenarios, insurance agencies may be interested to know what happened during an accident etc.)

Odpowiednie przypadki użyciaRelevant use cases

Inne odpowiednie przypadki użycia obejmują:Other relevant use cases include:

  • Powiadomienia i alerty dotyczące konserwacji pojazdu.Vehicle maintenance reminders and alerting.
  • Usługi oparte na lokalizacji dla pasażerów pojazdu (czyli SOS).Location-based services for the vehicle passengers (that is, SOS).
  • Pojazdy autonomiczne (samodzielny).Autonomous (self-driving) vehicles.

ArchitekturaArchitecture

Przegląd architektury składników dla tego scenariusza

W typowej implementacji potoku przetwarzania danych Big Data przepływy danych od lewej do prawej.In a typical big data processing pipeline implementation, the data flows from left to right. W tym potoku przetwarzania danych Big Data w czasie rzeczywistym dane są przepływane przez rozwiązanie w następujący sposób:In this real-time big data processing pipeline, the data flows through the solution as follows:

  1. Zdarzenia generowane przez źródła danych IoT są wysyłane do warstwy pozyskiwania strumienia za pośrednictwem usługi Azure HDInsight Kafka jako strumień komunikatów.Events generated from the IoT data sources are sent to the stream ingestion layer through Azure HDInsight Kafka as a stream of messages. Usługa HDInsight Kafka przechowuje strumienie danych w tematach przez konfigurowalny czas.HDInsight Kafka stores streams of data in topics for a configurable amount of time.
  2. Konsument Kafka, Azure Databricks, pobiera wiadomość w czasie rzeczywistym z tematu Kafka, aby przetwarzać dane na podstawie logiki biznesowej i wysyłać je do obsługi warstwy magazynu.Kafka consumer, Azure Databricks, picks up the message in real time from the Kafka topic, to process the data based on the business logic and can then send to Serving layer for storage.
  3. Usługi magazynu podrzędnego, takie jak Azure Cosmos DB, Azure SQL Data Warehouse lub Azure SQL DB, będą następnie źródłem danych dla warstwy prezentacji i akcji.Downstream storage services, like Azure Cosmos DB, Azure SQL Data warehouse, or Azure SQL DB, will then be a data source for presentation and action layer.
  4. Analitycy biznesowi mogą używać Power BI firmy Microsoft do analizowania danych z magazynu.Business analysts can use Microsoft Power BI to analyze warehoused data. Inne aplikacje mogą być również wbudowane w obsługę warstwy.Other applications can be built on the serving layer as well. Można na przykład uwidocznić interfejsy API na podstawie danych warstwy usług używanych przez inne firmy.For example, we can expose APIs based on the service layer data for third-party uses.

SkładnikiComponents

Zdarzenia generowane przez urządzenie IoT (dane lub wiadomości) są pozyskiwane, przetwarzane, a następnie przechowywane do dalszej analizy, prezentacji i akcji, korzystając z następujących składników platformy Azure:IoT device-generated events (data or messages) are ingested, processed, and then stored for further analysis, presentation, and action, using the following Azure components:

  • Apache Kafka w usłudze HDInsight znajduje się w warstwie pozyskiwania.Apache Kafka on HDInsight is in the ingestion layer. Dane są zapisywane w temacie Kafka przy użyciu interfejsu API producenta Kafka.The data is written into the Kafka topic using a Kafka producer API.
  • Azure Databricks znajduje się w warstwie transformacji i analizy.Azure Databricks is located in the transformation and analytics layer. Notesy datacegły implementują interfejs API konsumenta Kafka, aby odczytywać dane z tematu Kafka.Databricks notebooks implement a Kafka consumer API to read the data from the Kafka topic.
  • Azure Cosmos DB, Azure SQL Databasei Azure Synapse Analytics znajdują się w warstwie magazynowej, w której Azure Databricks mogą zapisywać dane za pośrednictwem łączników danych.Azure Cosmos DB, Azure SQL Database, and Azure Synapse Analytics are in the Serving storage layer, where Azure Databricks can write the data via data connectors.
  • Azure Synapse to rozproszony system do przechowywania i analizowania dużych zestawów danych.Azure Synapse is a distributed system for storing and analyzing large datasets. Użycie ogromnego przetwarzania równoległego (MPP) jest odpowiednie do uruchamiania analizy o wysokiej wydajności.Its use of massive parallel processing (MPP) makes it suitable for running high-performance analytics.
  • Power BI to zestaw narzędzi do analizy biznesowej, który umożliwia analizowanie danych i udostępnianie szczegółowych informacji.Power BI is a suite of business analytics tools to analyze data and share insights. Power BI może badać model semantyczny przechowywany w Analysis Services lub bezpośrednio wykonywać zapytania dotyczące usługi Azure Synapse.Power BI can query a semantic model stored in Analysis Services, or it can query Azure Synapse directly.
  • Azure Active Directory (Azure AD) uwierzytelnia użytkowników podczas nawiązywania połączenia z Azure Databricks.Azure Active Directory (Azure AD) authenticates users, when connecting to Azure Databricks. Jeśli utworzymy moduł w Analysis Services na podstawie modelu opartego na danych usługi Azure Synapse, możemy używać usługi Azure AD do nawiązywania połączenia z serwerem Analysis Services za pośrednictwem Power BI.If we would build a cube in Analysis Services based on the model based on Azure Synapse data, we could use Azure AD to connect to the Analysis Services server through Power BI. Data Factory może także używać usługi Azure AD do uwierzytelniania w usłudze Azure Synapse za pomocą nazwy głównej usługi lub tożsamość usługi zarządzanej (MSI).Data Factory can also use Azure AD to authenticate to Azure Synapse via a service principal or Managed Service Identity (MSI).
  • App Services platformy Azure, w której aplikacja interfejsu API może być używana do udostępniania danych innym firmom na podstawie danych przechowywanych w warstwie obsługującej.Azure App Services, in particular API App can be used to expose data to third parties, based on the data stored in the Serving Layer.

AlternatywyAlternatives

Składniki architektury opisane poniżej dla alternatywnych technologii

Bardziej uogólniony Potok danych Big Data można zaimplementować przy użyciu innych składników platformy Azure.A more generalized big data pipeline could be implemented using other Azure components.

Zagadnienia do rozważeniaConsiderations

Technologie w tej architekturze zostały wybrane w oparciu o skalę wymaganą do przetwarzania zdarzeń, umowy SLA usług, zarządzania kosztami i prostoty zarządzania składnikami.The technologies in this architecture were chosen based on the scale needed to process events, the SLA of the services, the cost management and ease of management of the components.

  • Zarządzane Kafka usługi HDInsight zawiera umowę SLA na 99,9%, która jest zintegrowana z usługą Azure Managed Disks.Managed HDInsight Kafka comes with a 99.9% SLA is integrated with Azure managed disks.
  • Azure Databricks jest zoptymalizowany od podstaw w celu zapewnienia wydajności i efektywności kosztowej w chmurze.Azure Databricks is optimized from the ground up for performance and cost-efficiency in the cloud. Databricks Runtime dodaje kilka kluczowych możliwości do Apache Spark obciążeń, które mogą zwiększyć wydajność i obniżyć koszty nawet o 10 100x w przypadku uruchamiania na platformie Azure, w tym:The Databricks Runtime adds several key capabilities to Apache Spark workloads that can increase performance and reduce costs by as much as 10-100x when running on Azure, including:
  • Azure Databricks integruje się głęboko z bazami danych i magazynami platformy Azure: Azure Synapse, Azure Cosmos DB, Azure Data Lake Storagei Azure Blob StorageAzure Databricks integrates deeply with Azure databases and stores: Azure Synapse, Azure Cosmos DB, Azure Data Lake Storage, and Azure Blob Storage
    • Automatyczne skalowanie i autokończenie klastrów Spark w celu automatycznego minimalizowania kosztów.Autoscaling and autotermination for Spark clusters to automatically minimize costs.
    • Optymalizacje wydajności, takie jak buforowanie, indeksowanie i zaawansowane optymalizacje zapytań, które mogą zwiększyć wydajność nawet o 10-krotność w przypadku tradycyjnych wdrożeń Apache Spark w środowiskach w chmurze lub lokalnych.Performance optimizations including caching, indexing, and advanced query optimization, which can improve performance by as much as 10-100x over traditional Apache Spark deployments in cloud or on-premises environments.
    • Integracja z usługą Azure Active Directory umożliwia uruchamianie przy użyciu usługi Azure Databricks kompletnych rozwiązań bazujących na platformie Azure.Integration with Azure Active Directory enables you to run complete Azure-based solutions using Azure Databricks.
    • Dostęp oparty na rolach w Azure Databricks umożliwia precyzyjne uprawnienia użytkowników do notesów, klastrów, zadań i danych.Role-based access in Azure Databricks enables fine-grained user permissions for notebooks, clusters, jobs, and data.
    • Jest dostarczany z umowy SLA klasy korporacyjnej.Comes with Enterprise-grade SLAs.
  • Azure Cosmos DB to wielomodelowa, globalnie rozproszona baza danych firmy Microsoft.Azure Cosmos DB is Microsoft’s globally distributed, multi-model database. Usługa Azure Cosmos DB powstała od podstaw z myślą o dystrybucji globalnej i skalowaniu w poziomie.Azure Cosmos DB was built from the ground up with global distribution and horizontal scale at its core. Oferuje gotową do użycia dystrybucję globalną w dowolnej liczbie regionów świadczenia usługi Azure przez przezroczyste skalowanie i replikowanie danych wszędzie tam, gdzie są Twoi użytkownicy.It offers turnkey global distribution across any number of Azure regions by transparently scaling and replicating your data wherever your users are. Można elastycznie skalować przepływność oraz magazyn na całym świecie i płacić tylko za potrzebne przepływność oraz magazyn.You can elastically scale throughput and storage worldwide, and pay only for the throughput and storage you need.
  • Architektura masowego przetwarzania równoległego platformy Azure Synapse zapewnia skalowalność i wysoką wydajność.The massively parallel processing architecture of Azure Synapse provides scalability and high performance.
  • Usługa Azure Synapse gwarantuje, że umowy SLA i zalecane rozwiązania mające na celu osiągnięcie wysokiej dostępności.Azure Synapse has guaranteed SLAs and recommended practices for achieving high availability.
  • Gdy działania związane z analizą są niskie, firma może skalować usługę Azure Synapse na żądanie, zmniejszając lub nawet zatrzymując obliczenia w niższych kosztach.When analysis activity is low, the company can scale Azure Synapse on demand, reducing or even pausing compute to lower costs.
  • Model zabezpieczeń usługi Azure Synapse zapewnia zabezpieczenia połączeń, uwierzytelnianie i autoryzację za pośrednictwem usługi Azure AD lub uwierzytelniania SQL Server i szyfrowania.The Azure Synapse security model provides connection security, authentication, and authorization via Azure AD or SQL Server authentication, and encryption.

CennikPricing

Zapoznaj się z tematem cennik Azure Databricks, Cennik usługi Azure HDInsight, przykład cen dla scenariusza magazynowania danych za pośrednictwem kalkulatora cen platformy Azure.Review Azure Databricks pricing, Azure HDInsight pricing, pricing sample for a data warehousing scenario via the Azure pricing calculator. Dostosuj wartości, aby zobaczyć, jak Twoje wymagania wpływają na koszty.Adjust the values to see how your requirements affect your costs.

  • Azure HDInsight to w pełni zarządzana usługa w chmurze, która umożliwia łatwe, szybkie i ekonomiczne przetwarzanie dużych ilości danychAzure HDInsight is a fully managed cloud service that makes it easy, fast, and cost-effective to process massive amounts of data
  • Azure Databricks oferuje dwa odrębne obciążenia na kilku wystąpieniach maszyn wirtualnych dostosowane do przepływu pracy analizy danych — obciążenie Inżynieria danych ułatwia inżynierom danych Tworzenie i wykonywanie zadań, a obciążenie analiza danych ułatwia analitykom danych łatwe Eksplorowanie, wizualizowanie, manipulowanie i udostępnianie danych oraz szczegółowych informacji.Azure Databricks offers two distinct workloads on several VM Instances tailored for your data analytics workflow — the Data Engineering workload makes it easy for data engineers to build and execute jobs, and the Data Analytics workload makes it easy for data scientists to explore, visualize, manipulate, and share data and insights interactively.
  • Azure Cosmos DB gwarantuje opóźnienia o pojedynczej liczbie milisekund w 99 percentylu w dowolnym miejscu na świecie, oferuje wiele dobrze zdefiniowanych modeli spójności w celu dostosowania wydajności i gwarantuje wysoką dostępność dzięki możliwościom wielomultihostinguowym, — wszystko to, co obejmuje wiodące w branży kompleksowe umowy dotyczące poziomu usług (umowy SLA).Azure Cosmos DB guarantees single-digit-millisecond latencies at the 99th percentile anywhere in the world, offers multiple well-defined consistency models to fine-tune performance, and guarantees high availability with multi-homing capabilities — all backed by industry leading comprehensive service level agreements (SLAs).
  • Usługa Azure Synapse umożliwia niezależne skalowanie poziomów obliczeniowych i magazynu.Azure Synapse allows you to scale your compute and storage levels independently. Opłaty za zasoby obliczeniowe są naliczane za godzinę, a na żądanie można skalować lub wstrzymywać te zasoby.Compute resources are charged per hour, and you can scale or pause these resources on demand. Zasoby magazynu są rozliczane za terabajt, dzięki czemu Twoje koszty zwiększą się w miarę pozyskiwania większej ilości danych.Storage resources are billed per terabyte, so your costs will increase as you ingest more data.
  • Analysis Services jest dostępna w warstwach Deweloper, podstawowa i standardowa.Analysis Services is available in developer, basic, and standard tiers. Ceny wystąpień są wyceniane na podstawie jednostek przetwarzania zapytań (jednostek qpu) i dostępnej pamięci.Instances are priced based on query processing units (QPUs) and available memory. Aby zapewnić obniżenie kosztów, należy zminimalizować liczbę wykonywanych zapytań, ilość przetwarzanych danych oraz częstotliwość ich uruchamiania.To keep your costs lower, minimize the number of queries you run, how much data they process, and how often they run.
  • Power BI oferuje różne opcje produktu dla różnych wymagań.Power BI has different product options for different requirements. Power BI Embedded udostępnia opcję opartą na platformie Azure na potrzeby osadzania funkcji Power BI w aplikacjach.Power BI Embedded provides an Azure-based option for embedding Power BI functionality inside your applications. W powyższym przykładzie cen uwzględniono wystąpienie Power BI Embedded.A Power BI Embedded instance is included in the pricing sample above.

Następne krokiNext Steps

  • Zapoznaj się z architekturą referencyjną analizy w czasie rzeczywistym , która obejmuje przepływ potoku danych Big Data.Review the Real-time analytics reference architecture that includes big data pipeline flow.
  • Zapoznaj się z informacjami o architekturze zaawansowanej analizy danych Big Data , aby uzyskać wgląd w to, jak różne składniki platformy Azure mogą pomóc w tworzeniu potoku danych Big Data.Review the Advanced analytics on big data reference architecture to get a peek on how different Azure components can help build a big data pipeline.
  • Przeczytaj dokumentację dotyczącą przetwarzania w czasie rzeczywistym , aby uzyskać szybki przegląd sposobu, w jaki różne składniki platformy Azure pomagają w przetwarzaniu strumieni danych w czasie rzeczywistym.Read the Real time processing Azure documentation to get a quick view of how different Azure components help in processing streams of data in real time.
  • Poznaj kompleksowe wskazówki dotyczące architektury dla potoków danych, magazynowania danych, przetwarzania analitycznego online (OLAP) i danych Big Data w przewodniku dotyczącym architektury danych platformy Azure.Find comprehensive architectural guidance on data pipelines, data warehousing, online analytical processing (OLAP), and big data in the Azure Data Architecture Guide.