Episodio

Big Data, Multivariate, Progettazione delle funzionalità basate su finestre usando Microsoft R Server

I dati IoT sono caratterizzati da segnali di tempo lunghi registrati da più sensori contemporaneamente. Tali sensori vengono usati per monitorare sistemi complessi e machine learning possono essere usati per comprendere modelli complessi di dati del sensore (denominati funzionalità) e la loro associazione a eventi di interesse come errori o comportamenti anomali del sistema (etichette di stima).

A causa di registrazioni lunghi periodi di tempo e la natura complessa delle informazioni IoT, l'aspetto importante che deve essere acquisito per la stima è la relazione multivariata tra sensori diversi, anziché le statistiche dei sensori isolati. La progettazione delle funzionalità basate su finestre temporali multivariate è un passaggio fondamentale per la creazione di soluzioni di modellazione predittiva avanzate per i sistemi IoT, ma è difficile implementare nei casi Big Data usando strumenti map/reduce standard come Hive.

Viene illustrato in che modo microsoft R server (MRS) può essere usato per eseguire diversi metodi di progettazione di funzionalità multivariati complessi per Big Data usando un modello di progettazione software riutilizzabile che espone il contenuto della finestra corrente per l'elaborazione personalizzata e consente anche la comunicazione tra blocchi di dati diversi in base alle esigenze.

Ad esempio, questo framework flessibile viene quindi usato per pre-elaborare i segnali applicando operatori basati su finestre per estrarre una statistica del segnale come minimo locale, massima e quantile, condizionale dall'ampiezza di un secondo segnale binario. Tali funzionalità basate su finestre temporali multivariate offrono una visualizzazione più complessa dei dati rispetto alle statistiche univariate globali calcolate con query Hive standard. Questo modello di elaborazione generico per i dati IoT può essere esteso in modo semplice a più segnali di ampiezza continua rilevanti per singoli problemi specifici.

Il codice usato per creare questo esperimento sarà presto disponibile nel repository Github.