Episódio

Big Data, Multivariate, Engenharia de Recursos baseada em janelas usando Microsoft R Server

Os dados ioT são caracterizados por sinais de longo tempo gravados a partir de vários sensores ao mesmo tempo. Estes sensores são utilizados para monitorizar sistemas intrincados e a aprendizagem automática pode ser usada para entender padrões complexos de dados de sensores (chamadas características) e sua associação com eventos de interesse como falhas ou comportamentos anormais do sistema (rótulos de previsão).

Devido às gravações de longo período de tempo e à natureza rica e complexa da informação ioT, o aspeto importante que precisa de ser capturado para previsão é a relação multivariada entre diferentes sensores, em vez de estatísticas de sensores isolados. A engenharia de recursos baseada em janelas de tempo multivariados é um passo fundamental para a construção de soluções avançadas de modelação preditiva para sistemas IoT, mas é difícil de implementar em casos de Big Data usando ferramentas padrão de mapa/redução de linhas como a Hive.

Discutimos aqui como o servidor Microsoft R (MRS) pode ser usado para executar vários métodos de engenharia de recursos multivariados complexos para big data, utilizando um padrão reutilizável de engenharia de software que expõe o conteúdo da janela atual para o processamento personalizado, e também permite a comunicação entre diferentes pedaços de dados conforme necessário.

A título de exemplo, este quadro flexível é então utilizado para pré-processar sinais através da aplicação de operadores baseados em janelas para extrair estatísticas de um sinal como o minima local, maxima e quantiles, condicionados pela amplitude de um segundo sinal binário. Tais funcionalidades baseadas em janelas de tempo multivariadas proporcionam uma visão mais complexa dos dados do que as estatísticas univariadas globais calculadas com consultas padrão de Hive. Este padrão genérico de processamento de dados IoT pode ser estendido de forma simples a múltiplos sinais de amplitude contínua que são relevantes para problemas específicos individuais.

O código usado para criar esta experiência estará em breve disponível no repositório de Github.