Análisis de datos para flotas de pruebas automotrices

Azure Blob Storage
Explorador de datos de Azure
Azure Event Hubs
Azure Functions
Azure IoT Hub

Los OEM automotrices necesitan soluciones para minimizar el tiempo entre realizar las versiones de prueba y obtener datos de diagnóstico de la versión de prueba para los ingenieros de Investigación y Desarrollo. A medida que los vehículos se vuelven más automatizados, los ciclos de vida de software son más cortos y los bucles de comentarios digitales deben ser más rápidos. La nueva tecnología puede democratizar el acceso a los datos y proporcionar a los ingenieros de investigación y desarrollo información casi en tiempo real sobre los datos de diagnóstico de la versión de prueba. El uso compartido seguro de datos puede mejorar la colaboración entre los OEM y los proveedores, lo que reduce aún más los ciclos de desarrollo.

Esta carga de trabajo de ejemplo se relaciona con los escenarios de ingesta de datos de la versión de prueba por lotes y telemetría. La carga de trabajo se centra en la plataforma de datos que procesa los datos de diagnóstico y los conectores para la visualización y los informes.

Architecture

Diagram that shows the analytics dataflow for automotive streaming data and files.

Descargue un archivo de PowerPoint con todos los diagramas de este artículo.

Flujo de datos

  1. Azure IoT Hub ingiere datos de telemetría activos y sin procesar (A) y carga archivos de datos grabados (B) desde el vehículo.

  2. IoT Hub envía la telemetría activa (A) a una aplicación de Azure Functions que descodifica la telemetría a notación de objetos JavaScript (JSON) y la envía a Azure Event Hubs.

    IoT Hub envía los archivos de datos registrados (B) a Azure Blob Storage. Una carga de archivos completada desencadena una aplicación de Functions que descodifica los datos y escribe el archivo descodificado en Blob Storage en un formato de valores separados por comas (CSV) adecuado para la ingesta.

  3. Azure Data Explorer ingiere datos de telemetría JSON descodificados de Event Hubs (A) en una tabla de telemetría sin procesar e ingiere los archivos CSV (B) descodificados de Blob Storage.

  4. Azure Data Explorer usa la Update función para expandir los datos JSON en un formato de fila adecuado y enriquecer los datos. Por ejemplo, los clústeres de función ubican los datos de ubicación para admitir el análisis geoespacial.

  5. Los científicos de datos y los ingenieros de investigación y desarrollo usan funcionalidades de Lenguaje de consulta Kusto (KQL) para crear casos de uso de análisis que almacenan como funciones definidas por el usuario. Las funciones de KQL incluyen agregaciones, análisis de series temporales, agrupación en clústeres geoespaciales, ventanas y complementos de aprendizaje automático (ML).

  6. Power BI usa la consulta dinámica para crear visualizaciones con las consultas definidas por el usuario. El complemento de origen de datos de Grafana para Azure Data Explorer usa las consultas definidas por el usuario para actualizaciones casi en tiempo real.

  7. Una aplicación Azure App Service usa Azure Maps funcionalidades de representación de orígenes de datos para visualizar los resultados de consulta definidos por el usuario que usan el formato GeoJSON.

  8. Azure API Management proporciona acceso a archivos de datos sin procesar almacenados desde vehículos y una API de configuración que administra directivas de recopilación de datos de terceros.

Esquema de Azure Data Explorer

Diagram that shows the Azure Data Explorer functions and methods for extracting, expanding, and enriching data.

  1. La Update() función usa métodos como:

    • mv-expand() para expandir valores complejos almacenados en estructuras JSON en filas con señales individuales.
    • geo_point_to_h3cell() o geo_point_to_geohash() para convertir la latitud y longitud en geohashes para el análisis geoespacial.
    • todouble() y tostring() para convertir valores extraídos de objetos JSON dinámicos en los tipos de datos adecuados.
  2. La vista Fleet Metadata Last Known Values combina otras vistas como parte de la ingesta para proporcionar contexto. Los metadatos de la flota histórica son útiles si los nuevos casos de uso requieren el reprocesamiento de la telemetría sin procesar.

  3. Si es necesario, una vista materializada de señales desduplicada usa take_any() para desduplicar señales.

  4. La vista Señales de los últimos valores conocidos utiliza arg_max() en la marca de tiempo para los informes en tiempo real.

  5. La vista materializada de señales reduce el muestreo de señales mediante el uso de contenedores predefinidos, como cada hora y diario, para simplificar los informes en toda la flota.

  6. Funciones de complemento almacenadas, como DetectAnomaly() buscar anomalías en la serie de datos. Los complementos de ML, como el clúster automático, buscan patrones comunes de atributos discretos.

  7. La GetGeospatial() función genera archivos GeoJSON que contienen señales agrupadas por geohashes.

Componentes

Las siguientes tecnologías clave implementan esta carga de trabajo:

Alternativas

Azure Batch es una buena alternativa para la descodificación de archivos compleja. Este escenario implica un gran número de archivos de más de 300 megabytes que requieren algoritmos de descodificación diferentes basados en la versión o el tipo de archivo.

Diagram that shows an alternative Azure Batch method for decoding complex files.

  1. La carga de un archivo de datos grabado en Blob Storage desencadena una aplicación de Functions para programar la descodificación.
  2. La aplicación functions crea un trabajo por lotes, teniendo en cuenta el tipo de archivo, el tamaño y el algoritmo de descodificación necesarios. La aplicación selecciona una máquina virtual (VM) adecuada del grupo e inicia el trabajo.
  3. Cuando se complete el trabajo, Batch vuelve a escribir el archivo descodificado resultante en Blob Storage. Este archivo debe ser adecuado para la ingesta directa en un formato que admite Azure Data Explorer.
  4. La carga de un archivo de señal descodificado en Blob Storage desencadena una función que ingiere los datos en Azure Data Explorer. Esta función crea la tabla y la asignación de datos si es necesario e inicia el proceso de ingesta.
  5. Azure Data Explorer ingiere directamente los archivos de datos de Blob Storage.

Este procedimiento ofrece las siguientes ventajas:

  • Azure Functions y los grupos de Batch pueden controlar las tareas de procesamiento de datos escalables de forma sólida y eficaz.
  • Los grupos de Batch proporcionan información sobre el procesamiento de estadísticas, colas de tareas y estado del grupo de lotes. Puede visualizar el estado, detectar problemas y volver a ejecutar tareas con errores.
  • La combinación de Azure Functions y Azure Batch admite el procesamiento plug-and-play en contenedores de Docker.

Detalles del escenario

Los OEM automotrices utilizan grandes flotas de vehículos prototipos y de prueba para probar y comprobar todo tipo de funciones del vehículo. Los procedimientos de prueba son costosos, ya que los conductores y vehículos reales deben participar, y ciertos escenarios específicos de pruebas de carreteras reales deben pasar varias veces. Las pruebas de integración son especialmente importantes para evaluar las interacciones entre componentes eléctricos, electrónicos y mecánicos en sistemas complejos.

Para validar las funciones del vehículo y analizar anomalías y errores, los gigabytes de datos de diagnóstico deben capturarse desde la unidad de control electrónico (ECU), los nodos de equipo, los buses de comunicación de vehículos, como la red de área de controlador (CAN) y Ethernet, y los sensores. En el pasado, los servidores de registradores de datos pequeños de los vehículos almacenaban datos de diagnóstico localmente como base de datos maestra (MDF), extensión de fusión multimedia (MFX), CSV o archivos JSON. Una vez completadas las versiones de prueba, los servidores cargaron datos de diagnóstico en centros de datos, que los procesaron y los proporcionaron a los ingenieros de investigación y desarrollo para el análisis. Este proceso puede tardar horas o a veces días. Los escenarios más recientes usan patrones de ingesta de telemetría como flujos de datos sincrónicos basados en Message Queuing (MQTT) o cargas de archivos casi en tiempo real.

Posibles casos de uso

  • La administración de vehículos evalúa el rendimiento y los datos recopilados por vehículo en varios escenarios de prueba.
  • La validación del sistema y componente usa datos recopilados del vehículo para comprobar que el comportamiento de los componentes del vehículo se encuentra dentro de los límites operativos entre viajes.
  • La detección de anomalías localiza patrones de desviación de un valor de sensor en relación con su patrón de línea base típico en tiempo real.
  • El análisis de la causa principal usa complementos de ML, como algoritmos de agrupación en clústeres, para identificar los cambios en la distribución de valores en varias dimensiones.
  • El mantenimiento predictivo combina varios orígenes de datos, datos de ubicación enriquecidos y telemetría para predecir el tiempo de los componentes en caso de error.
  • La evaluación de la sostenibilidad utiliza el comportamiento de los conductores y el consumo de energía para evaluar el impacto ambiental de las operaciones del vehículo.

Consideraciones

Estas consideraciones implementan los pilares del Azure Well-Architected Framework, que es un conjunto de principios rectores que puede utilizar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Confiabilidad

La confiabilidad garantiza que la aplicación pueda cumplir los compromisos contraídos con los clientes. Para más información, consulte Resumen del pilar de fiabilidad.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Es importante comprender la división de responsabilidad entre el OEM automotriz y Microsoft. En el vehículo, el OEM posee toda la pila, pero a medida que los datos se mueven a la nube, algunas responsabilidades se transfieren a Microsoft. La plataforma como servicio (PaaS) de Azure proporciona seguridad integrada en la pila física, incluido el sistema operativo. Puede aplicar las siguientes funcionalidades sobre los componentes de seguridad de la infraestructura.

Todas estas características ayudan a los OEM de automoción a crear un entorno seguro para sus datos de telemetría del vehículo. Para más información, consulte Seguridad en Azure Data Lake Store.

Optimización de costos

La optimización de costes busca formas de reducir los gastos innecesarios y mejorar la eficiencia operativa. Para más información, vea Información general del pilar de optimización de costos.

Esta solución usa los procedimientos siguientes para ayudar a optimizar los costos:

  • Configure correctamente las cachés activas y el almacenamiento en frío para las tablas Raw y Signals. La caché de datos activas se almacena en RAM o SSD y proporciona un rendimiento mejorado. Sin embargo, los datos en frío son 45 veces más baratos. Establezca una directiva de caché activa adecuada para su caso de uso, como 30 días.
  • Configure una directiva de retención en las tablas Raw y Signals. Determine cuándo los datos de señal ya no son relevantes, por ejemplo después de 365 días, y establezca la directiva de retención en consecuencia.
  • Tenga en cuenta qué señales son de interés para el análisis.
  • Use vistas materializadas al consultar los últimos valores conocidos de las señales, las señales desduplicadas y las señales desactivadas. Las vistas materializadas consumen menos recursos que realizar agregaciones de tabla de origen en cada consulta.
  • Tenga en cuenta las necesidades de análisis de datos en tiempo real. La configuración de la ingesta de streaming para la tabla de telemetría en vivo permite la latencia de menos de un segundo entre la ingesta y la consulta, pero a un costo mayor de más ciclos de CPU.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar de forma eficaz para satisfacer las demandas del usuario. Para obtener más información, vea Resumen del pilar de eficiencia del rendimiento.

  • Si el número y el tamaño de los archivos de datos registrados son mayores que 1000 archivos o 300 MB al día, considere la posibilidad de usar Azure Batch para la descodificación.
  • Considere la posibilidad de realizar cálculos y análisis comunes después de ingerirlos y almacenarlos en tablas adicionales.

Implementación de este escenario

Para implementar Azure Data Explorer e ingerir archivos MDF, puede seguir el tutorial paso a paso que muestra cómo implementar una instancia gratuita, analizar archivos MDF e ingerir y realizar algunas consultas básicas.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Otros colaboradores:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes