Episódio

Big Data, Multivariado, Engenharia de Recursos Baseada em Janelas usando o Microsoft R Server

Os dados de IoT são caracterizados por sinais de longo tempo gravados de vários sensores ao mesmo tempo. Tais sensores são utilizados para monitorar sistemas complexos e o aprendizado de máquina pode ser usado para entender padrões complexos de dados de sensores (chamados recursos) e sua associação com eventos de interesse, como falhas ou comportamentos anormais do sistema (rótulos de previsão).

Devido às gravações de longo período de tempo e à natureza rica e complexa das informações de IoT, o aspeto importante que precisa ser capturado para previsão é a relação multivariada entre diferentes sensores, em vez de estatísticas de sensores isolados. A engenharia de recursos baseada em janelas de tempo multivariadas é uma etapa fundamental para a criação de soluções avançadas de modelagem preditiva para sistemas IoT, mas é difícil de implementar em casos de Big Data usando ferramentas padrão de Map/Reduce focadas em linha, como o Hive.

Discutimos aqui como o servidor Microsoft R (MRS) pode ser usado para executar vários métodos complexos de engenharia de recursos multivariados para big data, empregando um padrão de engenharia de software reutilizável que expõe o conteúdo da janela atual para processamento personalizado e também permite a comunicação entre diferentes blocos de dados, conforme necessário.

Como exemplo, esta estrutura flexível é então usada para pré-processar sinais, aplicando operadores baseados em janela para extrair estatísticas de um sinal, como mínimos locais, máximos e quantis, condicionados pela amplitude de um segundo sinal binário. Esses recursos baseados em janelas de tempo multivariadas fornecem uma visão mais complexa dos dados do que as estatísticas univariadas globais calculadas com consultas padrão do Hive. Esse padrão de processamento genérico para dados de IoT pode ser estendido diretamente a vários sinais de amplitude contínua que são relevantes para problemas específicos individuais.

O código usado para criar este experimento estará disponível em breve no repositório Github.