Episodio

Macrodatos, multivariante, ingeniería de características basada en ventanas mediante Microsoft R Server

Los datos de IoT se caracterizan por señales de tiempo largas registradas desde varios sensores al mismo tiempo. Estos sensores se usan para supervisar sistemas complejos y el aprendizaje automático se pueden usar para comprender patrones complejos de datos de sensor (denominados características) y su asociación con eventos de interés, como errores o comportamientos anómalos del sistema (etiquetas de predicción).

Debido al largo período de tiempo y la naturaleza enriquecida y compleja de la información de IoT, el aspecto importante que debe capturarse para la predicción es la relación multivariante entre distintos sensores, en lugar de estadísticas de sensores aislados. La ingeniería de características basada en ventanas de tiempo multivariante es un paso fundamental para crear soluciones avanzadas de modelado predictivo para sistemas IoT, pero es difícil de implementar en casos de macrodatos mediante herramientas estándar de asignación y reducción centradas en filas, como Hive.

Aquí se describe cómo se puede usar microsoft R Server (MRS) para realizar varios métodos de ingeniería de características multivariante complejos para macrodatos mediante el empleo de un patrón de ingeniería de software reutilizable que expone el contenido de la ventana actual para el procesamiento personalizado y también permite la comunicación entre diferentes fragmentos de datos según sea necesario.

Por ejemplo, este marco flexible se usa para preprocesar señales aplicando operadores basados en ventanas para extraer estadísticas de señal como minima local, máximos y cuantiles, condicionados por la amplitud de una segunda señal binaria. Estas características basadas en ventanas de tiempo multivariante proporcionan una vista más compleja de los datos que las estadísticas univariadas globales calculadas con consultas de Hive estándar. Este patrón de procesamiento genérico para datos de IoT se puede ampliar de forma sencilla a varias señales de amplitud continuas que son relevantes para problemas específicos individuales.

El código que se usa para crear este experimento estará disponible pronto en el repositorio de Github.