Studio del modello di soluzione Cortana Intelligence per la manutenzione predittiva nel settore aerospaziale e in altri campi

Riepilogo

La manutenzione predittiva è una delle applicazioni dell'analisi predittiva più richieste, che offre indiscutibili vantaggi tra cui un risparmio significativo in termini di costi. Questo studio ha lo scopo di fornire un riferimento per le soluzioni di manutenzione predittiva, con particolare attenzione ai principali casi d'uso. È concepito per offrire al lettore una descrizione dei più comuni scenari aziendali di manutenzione predittiva, delle sfide legate ai problemi aziendali idonei per queste soluzioni, dei dati richiesti per risolvere questi problemi aziendali, delle tecniche di modellazione predittiva per creare soluzioni con questi dati e delle procedure consigliate con architetture delle soluzioni di esempio. Descrive anche le specifiche dei modelli predittivi sviluppati, come la progettazione delle funzioni, lo sviluppo del modello e la valutazione delle prestazioni. In sostanza, questo studio sintetizza le linee guida aziendali e analitiche per sviluppare e distribuire nel modo corretto le soluzioni di manutenzione predittiva. Queste linee guida sono concepite per assistere i destinatari nella creazione di una soluzione iniziale con Cortana Intelligence Suite e in particolare Azure Machine Learning come punto di partenza di una strategia di manutenzione predittiva a lungo termine. La documentazione relativa a Cortana Intelligence Suite e Azure Machine Learning è disponibile nelle pagine Cortana Analytics e Azure Machine Learning.

Suggerimento

Per una guida tecnica all'implementazione di questo modello di soluzione, vedere Guida tecnica del modello di soluzione Cortana Intelligence per la manutenzione predittiva nel settore aerospaziale e in altri campi. Per scaricare un diagramma che fornisce una panoramica architetturale di questo modello, vedere Architettura del modello di soluzione Cortana Intelligence per la manutenzione predittiva nel settore aerospaziale e in altri campi.

Panoramica dello studio e destinatari

Questo studio è organizzato a beneficio dei destinatari tecnici e non tecnici con conoscenze e interessi diversi nell'ambito della manutenzione predittiva. Lo studio illustra sia gli aspetti a livello generale dei diversi tipi di soluzioni di manutenzione predittiva che i dettagli della modalità di implementazione. Il contenuto è concepito per soddisfare le esigenze dei destinatari interessati solo a conoscere l'ambito della soluzione e il tipo di applicazioni e di coloro che mirano a implementare queste soluzioni e quindi sono interessati ai relativi dettagli tecnici.

La maggior parte del contenuto di questo studio non presuppone una precedente conoscenza o esperienza nel campo dell'analisi scientifica dei dati. Alcune parti dello studio richiederanno tuttavia una certa familiarità con i concetti dell'analisi scientifica dei dati per poter seguire i dettagli dell'implementazione. Per sfruttare appieno il materiale disponibile in quelle sezioni, sono necessarie competenze introduttive nel campo dell'analisi scientifica dei dati.

La prima parte dello studio include un'introduzione alle applicazioni di manutenzione predittiva, una descrizione di come qualificare una soluzione di manutenzione predittiva, una raccolta di casi d'uso comuni con dettagli relativi al problema aziendale, i dati riguardanti questi casi d'uso e i vantaggi aziendali dell'implementazione di queste soluzioni di manutenzione predittiva. Queste sezioni non richiedono alcuna conoscenza tecnica nel campo dell'analisi predittiva.

Nella seconda metà dello studio sono descritti i tipi di tecniche di modellazione predittiva per le applicazioni di manutenzione predittiva e la modalità di implementazione di questi modelli tramite esempi dei casi d'uso illustrati nella prima metà dello studio. Questi aspetti sono illustrati attraverso i passaggi di pre-elaborazione dei dati, come l'assegnazione di etichette ai dati e la progettazione delle funzioni, la selezione del modello, l'esecuzione di training/test e le procedure consigliate per la valutazione delle funzioni. Queste sezioni sono destinate a destinatari con conoscenze tecniche.

Manutenzione predittiva in IoT

Il tempo di inattività non pianificato delle attrezzature può avere un impatto distruttivo per le aziende. È fondamentale mantenere in funzione le attrezzature sul campo per massimizzare l'utilizzo e le prestazioni, riducendo inoltre il costoso tempo di inattività non pianificato. Semplicemente, attendere che si verifichi l'errore non è concepibile nell'attuale scenario delle operazioni aziendali. Per rimanere competitive, le aziende sono alla ricerca di nuovi metodi per ottimizzare le prestazioni degli asset usando i dati raccolti da vari canali. Un metodo importante per analizzare queste informazioni consiste nell'utilizzare le tecniche di analisi predittiva che si avvalgono di schemi cronologici per prevedere i risultati futuri. Una delle più comuni di queste soluzioni è detta manutenzione predittiva che può essere definita, tra l'altro, come la previsione della possibilità di errore di un asset nel prossimo futuro, in modo da consentire il monitoraggio degli asset per identificare in modo proattivo gli errori e intervenire prima che si verifichino. Queste soluzioni rilevano gli schemi di errore per determinare quali asset sono soggetti al maggior rischio. L'identificazione preventiva dei problemi consente di distribuire una quantità limitata di risorse di manutenzione in modo più conveniente e di migliorare la qualità e i processi della supply chain.

Con la diffusione delle applicazioni IoT (Internet of Things), la manutenzione predittiva ha suscitato sempre più interesse nel settore, perché le tecnologie di raccolta ed elaborazione dei dati sono migliorate al punto da generare, trasmettere e analizzare ogni tipo di dati in batch o in tempo reale. Queste tecnologie facilitano lo sviluppo e la distribuzione di soluzioni con soluzioni di analisi avanzate, dove le soluzioni di manutenzione predittiva offrono presumibilmente i maggiori vantaggi.

I problemi aziendali nell'ambito della manutenzione predittiva comprendono un elevato rischio operativo, a causa degli errori imprevisti e delle limitate informazioni dettagliate sulla causa radice dei problemi negli ambienti aziendali complessi. Si può classificare la maggior parte di questi problemi e farli rientrare nelle domande aziendali seguenti:

  • Qual è la probabilità che un componente dell'apparecchiatura si guasti nel prossimo futuro?
  • Qual è la vita utile rimanente dell'apparecchiatura?
  • Quali sono le cause dei guasti e quali azioni di manutenzione si dovranno eseguire per risolvere questi problemi?

Usando la manutenzione predittiva per rispondere alle domande seguenti, le aziende possono:

  • Ridurre il rischio operativo e aumentare il tasso di redditività degli asset individuando i guasti prima che si verifichino
  • Ridurre le inutili operazioni di manutenzione temporizzate e controllare il costo della manutenzione
  • Migliorare complessivamente l'immagine del marchio, eliminare la cattiva pubblicità e la conseguente perdita di vendite a causa dell'abbandono da parte dei clienti
  • Ridurre i costi di magazzino riducendo i livelli di inventario grazie alla previsione del punto di riordino
  • Individuare gli schemi connessi ai diversi problemi di manutenzione

La manutenzione predittiva può fornire indicatori di prestazioni chiave, ad esempio lo stato di integrità per monitorare la condizione degli asset in tempo reale, una stima dell'intervallo di validità rimanente degli asset, le attività di manutenzione proattiva consigliate e le date degli ordini stimate per la sostituzione delle parti.

Criteri di qualificazione per la manutenzione predittiva

È importante sottolineare che non tutti i casi d'uso o i problemi aziendali possono essere risolti efficacemente dalla manutenzione predittiva. Tra i criteri di qualificazione importanti occorre valutare se il problema è di natura predittiva, se esiste un chiaro piano d'azione per prevenire gli errori quando vengono rilevati anticipatamente e, ancora più importante, se sono disponibili dati con un livello di qualità sufficiente per supportare il caso d'uso. In questo caso, si esamineranno i requisiti dei dati per la compilazione di una soluzione di manutenzione predittiva efficiente.

Quando si compilano modelli predittivi, si usano dati cronologici per eseguire il training del modello che quindi può identificare gli schemi nascosti, anche nei dati futuri. Il training di questi modelli viene eseguito con esempi individuati in base alle relative funzioni e all'obiettivo della stima. Il modello con training dovrà eseguire stime in base all'obiettivo osservando solo le funzioni dei nuovi esempi. È fondamentale che il modello acquisisca la relazione tra le funzioni e l'obiettivo della stima. Per eseguire il training di un modello di Machine Learning efficace, sono necessari dati con training che includano funzioni con un'effettiva capacità predittiva rispetto all'obiettivo della stima, vale a dire che i dati dovranno essere pertinenti allo scopo della stima per ottenere stime corrette.

Ad esempio, se l'obiettivo è quello di stimare i guasti delle ruote del treno, i dati con training dovranno contenere funzioni correlate alle ruote, ad esempio telemetria che riflette lo stato integrità delle ruote, chilometraggio, carico del vagone e così via. Se tuttavia l'obiettivo consiste nello stimare gli errori del motore di training, sarà probabilmente necessario un altro set di dati di training con funzioni relative al motore. Prima di compilare modelli predittivi, l'esperto aziendale dovrà comprendere il requisito di pertinenza dei dati e fornire la conoscenza del dominio necessaria per selezionare i subset di dati rilevanti per l'analisi.

Quando si qualifica l'idoneità di un problema aziendale per una soluzione di manutenzione predittiva, occorre trovare tre origini dati essenziali:

  1. Cronologia dei guasti: in genere, nelle applicazioni di manutenzione predittiva gli eventi di errore sono molto rari. Quando tuttavia si compilano modelli predittivi che stimano i guasti, è necessario che l'algoritmo apprenda lo schema operativo normale, oltre allo schema dei guasti attraverso il processo di training. Di conseguenza, è fondamentale che i dati di training contengano un numero sufficiente di esempi in entrambe le categorie per apprendere questi due schemi diversi. Per questo motivo, è necessario che i dati contengano un numero sufficiente di eventi di errore. Gli eventi di errore si possono trovare nei record di manutenzione e nella cronologia della sostituzione di parti oppure è possibile usare le anomalie nei dati di training come guasti identificati dagli esperti del dominio.
  2. Cronologia di manutenzione/riparazione: un'origine di dati essenziale per le soluzioni di manutenzione predittiva è la cronologia di manutenzione dettagliata degli asset, che contiene informazioni sui componenti sostituiti, sulle attività di manutenzione preventiva eseguite e così via. È estremamente importante acquisire questi eventi perché tutti incidono sugli schemi di riduzione delle prestazioni e l'assenza di queste informazioni può causare risultati fuorvianti.
  3. Condizioni delle macchine: per stimare quanti altri giorni (ore, chilometri, transazioni e così via) dura una macchina prima che si verifichi un guasto, si presuppone che il relativo stato integrità diminuisca con il tempo. È quindi necessario che i dati contengano funzioni variabili nel tempo che acquisiscono schemi di aging o qualsiasi anomalia che possa causare una riduzione delle prestazioni. Nelle applicazioni IoT i dati di telemetria dai diversi sensori costituiscono un buon esempio. Per stimare se una macchina possa incorrere in un guasto entro un intervallo di tempo, i dati dovrebbero idealmente acquisire il trend in calo durante questo intervallo prima dell'evento di errore effettivo.

È anche necessario che i dati siano direttamente correlati alle condizioni operative dell'asset obiettivo della stima. La decisione relativa all'obiettivo si basa sia sulle esigenze aziendali che sulla disponibilità dei dati. Prendendo come esempio la stima dei guasti delle ruote del treno, è possibile stimare "se il guasto riguarderà la ruota" o "se interesserà tutto il treno". Il primo è relativo a un componente specifico, mentre il secondo riguarda il treno. Il secondo è una questione più generale che richiede molti più elementi dati sparsi rispetto al primo, rendendo più difficile la compilazione di un modello. Al contrario, cercare di stimare i guasti delle ruote osservando semplicemente i dati sulle condizioni del treno a livello generale potrebbe non essere fattibile, perché non contengono informazioni a livello di componente. In generale, è più pratico stimare eventi di errore specifici rispetto a quelli più generali.

Ecco una domanda comune che di solito viene posta solita in merito ai dati della cronologia degli errori "Quanti eventi di errore sono necessari per eseguire il training di un modello e quanti sono considerati "sufficienti"? Non esiste una risposta netta a questa domanda, perché in molti scenari di analisi predittiva è la qualità dei dati che di solito definisce quale sia la quantità accettabile. Se il set di dati non include funzioni rilevanti per la stima dei guasti, anche se sono disponibili molti eventi di errore, potrebbe risultare impossibile compilare un modello di dati appropriato. Tuttavia, secondo una regola generale, più sono gli eventi di errore, migliore è il modello e una stima approssimativa della quantità di esempi di errore richiesti è una misura che dipende molto dal contesto e dai dati. Questo problema viene trattato nella sezione per la gestione dei set di dati sbilanciati dove si propongono metodi per affrontare il problema di della mancanza di una quantità sufficiente di guasti.

Caso d'uso di esempio

Questa sezione è incentrata su una raccolta di casi d'uso di manutenzione predittiva per diversi settori, ad esempio aerospaziale, dei servizi pubblici e dei trasporti. Ogni sottoparagrafo analizza i casi d'uso raccolti da queste aree e descrive un problema aziendale, i dati riguardanti il problema aziendale e i vantaggi di una soluzione di manutenzione predittiva.

Settore aerospaziale

Caso d'uso 1: Ritardo dei voli e cancellazioni

Problema aziendale e origini dati

Uno dei principali problemi che una compagnia aerea deve affrontare sono i costi significativi associati al ritardo dei voli a causa di problemi meccanici. Se i guasti meccanici non possono essere riparati, i voli potrebbero anche essere cancellati. Questo evento è estremamente costoso, perché i ritardi creano problemi di pianificazione e funzionamento, provocano una cattiva reputazione e l'insoddisfazione dei clienti e molti altri problemi. Le compagnie aeree sono particolarmente interessate alla stima di questi guasti meccanici, per poter ridurre i ritardi dei voli e le cancellazioni. Lo scopo della soluzione di manutenzione predittiva per questi casi consiste nello stimare la probabilità che si verifichino ritardi o cancellazioni di un volo, sulla base di origini dati rilevanti come la cronologia di manutenzione e informazioni sulle rotte dei voli. Le due origini dati principali per questo caso d'uso sono le tratte dei voli e i registri di manutenzione. I dati delle tratte dei voli includono i dettagli delle rotte, ad esempio data e ora della partenza e dell'arrivo, aeroporti di partenza e arrivo e così via. I dati dei registri includono una serie di codici di errore e manutenzione registrati dal personale addetto alla manutenzione.

Valore del modello predittivo per l'azienda

Usando i dati cronologici disponibili, è stato compilato un modello predittivo con un algoritmo di classificazione multipla per stimare il tipo di problema meccanico che causa un ritardo o la cancellazione di un volo nelle prossime 24 ore. Sulla base di questa stima è possibile eseguire le operazioni di manutenzione necessarie per ridurre il rischio durante la revisione di un aereo, evitando così ritardi o cancellazioni. Usando il servizio Web di Azure Machine Learning, i modelli predittivi possono essere facilmente integrati nelle piattaforme operative esistenti delle compagnie aeree.

Caso d'uso 2: Guasto di un componente dell'aereo

Problema aziendale e origini dati

I motori degli aerei sono parti dell'equipaggiamento molto delicate e costose e le sostituzioni di parti del motore sono tra le attività di manutenzione più comuni nel settore del trasporto aereo. Le soluzioni di manutenzione per le compagnie aeree richiedono una gestione accurata della disponibilità, della consegna e della pianificazione delle scorte di componenti. La possibilità di raccogliere informazioni sull'affidabilità dei componenti consente una sostanziale riduzione dei costi di investimento. L'origine dati principale in questo caso d'uso sono i dati di telemetria raccolti da una quantità di sensori dell'aereo che forniscono informazioni sulla condizione dell'aereo stesso. Per identificare quando si sono verificati guasti dei componenti e le sostituzioni eseguite, sono stati usati anche i record di manutenzione.

Valore del modello predittivo per l'azienda

È stato compilato un modello di classificazione multiclasse che stima la probabilità di un guasto causato da un determinato componente nel prossimo mese. Usando queste soluzioni, le compagnie aeree possono ridurre i costi di riparazione dei componenti, migliorare la disponibilità delle scorte di componenti, ridurre i livelli di inventario degli asset correlati e migliorare la pianificazione della manutenzione.

Servizi pubblici

Caso d'uso 1: Guasto dello sportello bancomat

Problema aziendale e origini dati

I dirigenti nei settori a elevato utilizzo di asset affermano spesso che il principale rischio operativo per le aziende sono i guasti imprevisti degli asset. Ad esempio, il guasto di un'apparecchiatura come gli sportelli bancomat nel settore bancario è un problema molto comune che si verifica di frequente. Questi tipi di problemi rendono le soluzioni di manutenzione predittiva molto ambite per gli operatori di queste apparecchiature. In questo caso d'uso il problema della stima consiste nel calcolare la probabilità che una transazione di incasso da un bancomat venga interrotta a causa di un guasto del dispositivo di erogazione del contante, come un inceppamento delle banconote o il guasto di un componente. Le origini dati principali in questo caso sono le letture del sensore che raccoglie le misurazioni mentre vengono erogate le banconote, oltre ai record di manutenzione raccolti nel tempo. I dati del sensore includono le relative letture per ogni transazione completata e per ogni banconota erogata. Le letture del sensore forniscono misurazioni come gli intervalli tra le banconote, lo spessore, la distanza massima di arrivo delle banconote e così via. I dati di manutenzione includono i codice errore e le informazioni sulle riparazioni, I dati di manutenzione includono i codice errore e le informazioni sulle riparazioni, che vengono uste per identificare i casi di errore.

Valore del modello predittivo per l'azienda

Per stimare gli errori nelle transazioni di prelevamento di contante e i guasti dei singoli erogatori di banconote durante una transazione, sono stati compilati due modelli predittivi. La possibilità di stimare in anticipo gli errori delle transazioni consente di intervenire proattivamente sugli sportelli bancomat per evitare che si verifichino errori. Inoltre, grazie alla stima degli errori relativi alle banconote, se è probabile che una transazione si interrompa prima del completamento a causa di un guasto dell'erogatore, potrebbe essere preferibile arrestare il processo e avvisare il cliente che la transazione è incompleta, invece di attendere l'arrivo del servizio di manutenzione dopo che l'errore si è verificato, cosa che può causare una maggiore insoddisfazione del cliente.

Caso d'uso 2: Guasti delle turbine eoliche

Problema aziendale e origini dati

Con la diffusione della consapevolezza ambientale, le turbine eoliche sono diventate una delle principali fonti di produzione energetica e in genere hanno costi che ammontano a milioni di euro. Uno dei principali componenti delle turbine eoliche è il generatore, dotato di molti sensori per il monitoraggio delle condizioni e dello stato delle turbine. Le letture dei sensori contengono informazioni preziose che possono essere usate per compilare un modello predittivo per la stima degli indicatori KPI critici, come il tempo medio tra i guasti (MTBF) per i componenti della turbina eolica. I dati per questo caso d'uso provengono da più turbine eoliche in tre diverse installazioni. Le misurazioni di circa un centinaio di sensori da ogni turbina sono state registrate ogni 10 secondi per un anno. Queste letture includono misure come temperatura, velocità del generatore, potenza della turbina e avvolgimento del generatore.

Valore del modello predittivo per l'azienda

I modelli predittivi sono stati compilati per la stima della vita utile rimanente dei generatori e dei sensori di temperatura. Stimando la probabilità di guasto, i tecnici addetti alla manutenzione possono concentrarsi subito sulle turbine sospette con la più alta probabilità di guasto, a integrazione dei regimi di manutenzione temporizzata. I modelli predittivi forniscono anche informazioni dettagliate sul livello di contributo per diversi fattori alla probabilità che si verifichi un guasto, consentendo all'azienda di comprendere meglio la causa radice dei problemi.

Caso d'uso 3: Guasti degli interruttori automatici

Problema aziendale e origini dati

Le operazioni riguardanti elettricità e gas che includono la produzione, distribuzione e vendita di energia elettrica richiedono una notevole quantità di interventi di manutenzione per assicurare che le linee elettriche siano operative ininterrottamente per garantire la distribuzione di corrente alle abitazioni. Un errore nell'esecuzione di queste operazioni è critico, perché i problemi energetici incidono su quasi ogni entità nell'area in cui si verificano. Gli interruttori automatici sono fondamentali per queste operazioni, perché fanno parte dell'apparecchiatura che interrompe la corrente elettrica in caso di problemi e cortocircuiti per evitare che si verifichino danni alle linee elettriche. Il problema aziendale per questo caso d'uso consiste nello stimare i guasti degli interruttori automatici in base ai registri di manutenzione, alla cronologia dei comandi e alle specifiche tecniche.

Le tre origini dati principali per questo caso sono i registri di manutenzione che includono le azioni correttive, preventive e sistematiche, i dati operativi che includono i comandi automatici e manuali inviati agli interruttori, ad esempio per le azioni di apertura e chiusura, e i dati delle specifiche tecniche relative alle proprietà di ogni interruttore, ad esempio anno di fabbricazione, posizione, modello e così via.

Valore del modello predittivo per l'azienda

Le soluzioni di manutenzione predittiva contribuiscono a ridurre i costi di riparazione e prolungano il ciclo di vita delle apparecchiature come gli interruttori. Questi modelli migliorano anche la qualità della rete elettrica, perché i modelli forniscono avvisi preventivi che riducono i guasti imprevisti con la conseguente riduzione delle interruzioni del servizio.

Caso d'uso 4: Guasti delle porte degli ascensori

Problema aziendale e origini dati

La maggior parte delle grandi aziende produttrici di ascensori ha in genere milioni di ascensori in funzione nel mondo. Per ottenere un vantaggio competitivo, si concentrano sull'affidabilità che costituisce l'aspetto più importante per i clienti. Attingendo al potenziale di Internet delle cose, connettendo gli ascensori nel cloud e raccogliendo dati dai sistemi e dai sensori degli ascensori, possono trasformare i dati in business intelligence di grande valore che migliora ampiamente le operazioni, offrendo un servizio di manutenzione predittiva e precauzionale non ancora disponibile per i concorrenti. Il requisito aziendale per questo caso consiste nel fornire un'applicazione predittiva con una base di conoscenze che possa stimare le cause potenziali dei guasti alle porte. I dati richiesti per questa implementazione sono costituiti da tre parti, ovvero funzioni statiche dell'ascensore, ad esempio identificatori, frequenza della manutenzione contrattuale, tipo di edificio e così via, informazioni sull'utilizzo, ad esempio numero di cicli delle porte, tempi medi di chiusura delle porte, e cronologia dei guasti, ad esempio registrazioni cronologiche dei guasti e relative cause.

Per risolvere il problema della stima, viene compilato un modello di regressione logistica multiclasse tramite Azure Machine Learning, con funzioni statiche integrate e dati di utilizzo come funzioni, oltre alle cause delle registrazioni cronologiche dei guasti come etichette delle classi. Questo modello predittivo viene utilizzato da un'app su un dispositivo mobile, che è usato dai tecnici sul campo per migliorare l'efficienza lavorativa. Quando un tecnico si reca sul posto per riparare un ascensore, può consultare questa app per vedere le cause suggerite e le azioni di manutenzione migliori da seguire per riparare le porte dell'ascensore nel più breve tempo possibile.

Trasporto e logistica

Caso d'uso 1: Guasti dei dischi freno

Problema aziendale e origini dati

I normali criteri di manutenzione dei veicoli includono la manutenzione correttiva e preventiva. La manutenzione correttiva prevede che il veicolo venga riparato dopo che si è verificato un guasto, cosa che può causare un grave inconveniente per l'autista a seguito di un malfunzionamento imprevisto e al tempo sprecato per recarsi da un meccanico. La maggior parte dei veicoli è anche soggetta a criteri di manutenzione preventiva, che richiedono l'esecuzione di determinate ispezioni in base a una pianificazione che non considera le condizioni effettive dei sottosistemi del veicolo. Nessuno di questi approcci è sufficiente per eliminare completamente i problemi. Questo caso d'uso specifico riguarda la stima dei guasti dei dischi freno in base ai dati raccolti tramite i sensori installati nel sistema di pneumatici di un veicolo, che tiene traccia degli schemi di guida cronologici e di altre condizioni a cui è esposto il veicolo. L'origine dati più importante per questo caso è rappresentata dai dati del sensore che misura, ad esempio, le accelerazioni, gli schemi di frenata, le distanze di guida, la velocità e così via. Queste informazioni, abbinate alle altre informazioni statiche, come le caratteristiche del veicolo, consentono di compilare un set di predittori efficace che può essere usato in un modello predittivo. Un altro set di informazioni essenziali sono i dati relativi ai guasti dedotti dal database degli ordini diparti, usato per tenere traccia delle date degli ordini di parti di ricambio e delle quantità mentre i veicoli vengono revisionati presso i concessionari.

Valore del modello predittivo per l'azienda

In questo caso, il valore aziendale di un approccio predittivo è sostanziale. Un sistema di manutenzione predittiva può pianificare una visita al concessionario in base a un modello predittivo. Il modello può basarsi sulle informazioni dei sensori che rappresentano la condizione attuale del veicolo e la cronologia di guida. Questo approccio può ridurre il rischio di guasti imprevisti che possono verificarsi prima della manutenzione periodica successiva. Può anche ridurre la quantità di inutili attività di manutenzione preventiva. L'autista può essere informato proattivamente che entro qualche settimana potrebbe essere necessaria una sostituzione di parti, fornendo queste informazioni al concessionario. Il concessionario può quindi preparare anticipatamente un pacchetto di manutenzione individuale per l'autista.

Caso d'uso 2: Guasti delle porte dei treni della metropolitana

Problema aziendale e origini dati

Uno dei motivi principali dei ritardi e dei problemi delle operazioni di una metropolitana sono i guasti delle porte delle carrozze. La possibilità di stimare che le porte di una carrozza potrebbero avere un guasto oppure di prevedere tra quanti giorni si verificherà il prossimo guasto alle porte costituisce un'informazione preventiva estremamente importante. Offre la possibilità di ottimizzare gli interventi di assistenza alle porte del treno e ridurne il tempo di inattività.

Origini dati

Le tre origini dei dati in questo caso d'uso sono

  • Dati degli eventi dei treni, ovvero i record cronologici degli eventi dei treni
  • Dati di manutenzione , ad esempio tipi di manutenzione, tipi di ordini di lavoro e codici di priorità
  • Record dei guasti
Valore del modello predittivo per l'azienda

Sono stati compilati due modelli per stimare la probabilità di guasti del giorno successivo usando la classificazione binaria e i giorni prima del prossimo guasto usando la regressione. In modo analogo ai casi precedenti, i modelli creano una straordinaria opportunità di miglioramento della qualità del servizio (QoS) e della soddisfazione dei clienti a complemento dei normali regimi di manutenzione.

Preparazione dei dati

Origini dati

Gli elementi di dati comuni per i problemi di manutenzione predittiva possono essere riepilogati come segue:

  • Cronologia dei guasti, ovvero la cronologia dei guasti in una macchina o in un componente della macchina.
  • Cronologia di manutenzione, ovvero la cronologia delle riparazioni di una macchina, ad esempio codici errore, attività di manutenzione precedenti o sostituzione di componenti.
  • Condizioni e utilizzo della macchina, ovvero le condizioni operative di una macchina, ad esempio i dati raccolti dai sensori.
  • Caratteristiche della macchina, ad esempio cilindrata, marca e modello, posizione.
  • Caratteristiche dell'operatore, ad esempio sesso, esperienze precedenti.

È possibile, ed è di solito così, che la cronologia dei guasti sia inclusa nella cronologia di manutenzione, ad esempio sotto forma di codici di errore speciali o date degli ordini delle parti di ricambio. In alcuni casi, i guasti possono essere estratti dai dati di manutenzione. Settori aziendali diversi possono anche avere molte altre origini dati che influenzano gli schemi relativi ai guasti e che qui non sono illustrati in modo esauriente. Questi dovranno essere identificati consultando gli esperti del settore al momento della compilazione dei modelli predittivi.

Ecco alcuni esempi di elementi dati dai casi d'uso precedenti:

Cronologia dei guasti: date di ritardo dei voli, date e tipi di guasti dei componenti dell'aereo, errori delle transazioni di prelievo di contanti dagli sportelli bancomat, guasti delle porte di treni/ascensori, date degli ordini di sostituzione dei dischi dei freni, dati dei guasti delle turbine eoliche ed errori dei comandi degli interruttori automatici.

Cronologia di manutenzione: registri degli errori dei voli, registri degli errori delle transazioni degli sportelli bancomat, record di manutenzione dei treni inclusi tipo di manutenzione, breve descrizione e così via e record di manutenzione degli interruttori.

Condizioni e utilizzo delle macchine: orari e rotte dei voli, dati dei sensori raccolti dai motori dell'aereo, letture dei sensori dalle transazioni bancomat, dati di eventi dei treni, letture di sensori di turbine eoliche, ascensori e veicoli connessi,

Caratteristiche della macchina: specifiche tecniche dell'interruttore come livelli di tensione, georilevazione o caratteristiche del veicolo, come marca, modello, cilindrata, tipo di pneumatici, impianto di produzione e così via.

Considerate le origini dati precedenti, i due tipi di dati principali osservati nel dominio di manutenzione predittiva sono dati temporali e dati statici. Cronologia dei guasti, condizioni della macchina, cronologia delle riparazioni, cronologia dell'utilizzo sono quasi sempre accompagnati da timestamp che indicano l'ora della raccolta di ogni singolo dato. Le caratteristiche della macchina e dell'operatore sono in genere statiche, perché di solito descrivono le specifiche tecniche delle macchine o le proprietà dell'operatore. Queste caratteristiche possono cambiare con il tempo e, in questo caso, dovranno essere gestite come origini dati con timestamp.

Unione di origini dati

Prima di addentrarsi in qualunque tipo di progettazione di funzioni o di processo di aggiunta di etichette, è necessario preparare i dati nel formato richiesto per crearne le funzioni. Lo scopo finale consiste nel generare un record per ogni unità di tempo di ogni asset con le relative funzioni ed etichette da inserire nell'algoritmo di Machine Learning. Per preparare il set di dati finale corretto, è necessario eseguire alcuni passaggi di pre-elaborazione. Il primo consiste nel dividere la durata della raccolta di dati in unità di tempo in cui ogni record a un'unità di tempo per un asset. La raccolta di dati può anche essere divisa in altre unità, ad esempio azioni, tuttavia per semplicità nel resto delle descrizioni si usano le unità di tempo.

L'unità di misura di tempo può essere in secondi, minuti, ore, giorni, mesi, cicli, chilometri o transazioni a seconda dell'efficienza di preparazione dei dati e delle modifiche osservate nelle condizioni dell'asset da un'unità di tempo all'altra o di altri fattori specifici del dominio. In altre parole, l'unità di tempo non deve essere la stessa della frequenza di raccolta di dati, perché in molti casi i dati potrebbero non mostrare alcuna differenza da un'unità all'altra. Ad esempio, se i valori di temperatura vengono raccolti ogni 10 secondi, la selezione di un'unità di tempo di 10 secondi per l'intera analisi aumenta il numero di esempi, senza fornire informazioni aggiuntive. La strategia migliore consiste nell'usare, ad esempio, una media in un'ora.

Ecco gli schemi di dati generici si esempio per le possibili origini dati illustrati nelle sezioni precedenti:

Record di manutenzione: sono i record delle azioni di manutenzione eseguite. I dati di manutenzione non elaborati sono di solito associati a un ID asset e a un timestamp con informazioni sulle attività di manutenzione eseguite a quell'ora. Nel caso di dati non elaborati, le attività di manutenzione devono essere trasformate in colonne di categoria, dove ogni categoria corrisponde a un tipo di azione di manutenzione. Lo schema dei dati di base per i record di manutenzione includerà le colonne per ID asset, ora e azioni di manutenzione.

Record dei guasti: sono record che appartengono all'obiettivo della stima, cioè guasti o motivo del guasto. Possono essere codici errore specifici o eventi di errore definiti da condizioni aziendali specifiche. In alcuni casi i dati includono codici errore multipli, alcuni dei quali corrispondono ai guasti di interesse. Non tutti i guasti sono l'obiettivo di una stima, quindi per costruire le funzioni che possano essere correlate ai guasti vengono in genere usati altri guasti. Lo schema dei dati di base per i record di guasti includerà le colonne per ID asset, ora e guasto o motivo del guasto, se è disponibile un motivo.

Condizioni delle macchine: sono preferibilmente dati di monitoraggio in tempo reale relativi alle condizioni operative dei dati. Ad esempio, i gusti delle porte, i tempi di chiusura e apertura delle porte sono ottimi indicatori della condizione attuale. Lo schema dei dati di base per le condizioni delle macchine includerà colonne per ID asset, ora e valore della condizione.

Dati delle macchine e dell'operatore: questi dati possono essere uniti in uno schema per identificare gli asset gestiti da un dato operatore insieme alle proprietà degli asset e dell'operatore. Ad esempio, un veicolo è solitamente assegnato a un autista con attributi quali età, esperienza di guida e così via. Se questi dati cambiano con il tempo, dovrà essere inclusa anche una colonna per data e ora ed essere gestiti come dati variabili nel tempo per la generazione delle funzioni. Lo schema dei dati di base per le condizioni delle macchine dovrà includere funzioni per ID asset, caratteristiche degli asset, ID operatore e caratteristiche dell'operatore.

La tabella finale prima dell'assegnazione di etichette e la generazione di funzioni può essere creata con un join a sinistra della tabella delle condizioni delle macchine ai record relativi ai guasti nei campi ID asset e ora. La tabella può anche essere unita in join ai record di manutenzione nei campi ID asset e ora e infine con le funzioni relative a macchine e operatore in ID asset. Il primo join a sinistra lascia valori Null per la colonna dei guasti durante il normale funzionamento della macchina, che possono essere attribuiti con un valore indicatore per il funzionamento normale. Questa colonna dei guasti viene usata per creare etichette per il modello predittivo.

Progettazione delle funzioni

Il primo passaggio della modellazione è la progettazione delle funzioni. L'idea di generazione delle funzioni consiste concettualmente nel descrivere e astrarre la condizione di integrità di una macchina in un dato momento usando dati cronologici raccolti fino a quel momento. La sezione successiva fornirà una panoramica del tipo di tecniche che è possibile usare per la manutenzione predittiva e viene eseguita l'assegnazione di etichette per ogni tecnica. L'esatta tecnica da usare dipende dai dati e dal problema aziendale. I metodi di progettazione delle funzioni descritti di seguito possono tuttavia essere usati come linea di base per la creazione delle funzioni. Di seguito verranno descritte le funzioni di ritardo (lag) che dovranno essere create dalle origini dati che includono timestamp e anche funzioni statiche create da origini dati statiche che forniscono esempi dai casi d'uso illustrati.

Funzioni di ritardo

Come già accennato, nella manutenzione preventiva i dati cronologici includono in genere timestamp che indicano l'ora della raccolta di ogni singolo dato. Esistono molti modi per creare funzioni dai dati contenenti dati con timestamp. Questa sezione descrive alcuni di questi metodi usati per la manutenzione predittiva. Non si è tuttavia limitati solo a questi metodi. Poiché la progettazione di funzioni è considerata una della aree più creative della modellazione predittiva, possono esservi molti altri modi per creare funzioni. Qui vengono fornite solo tecniche generali.

Aggregazioni in sequenza

Per ogni record di un asset viene selezionata una finestra con dimensione "W" che corrisponde al numero di unità di tempo per cui si vogliono calcolare le aggregazioni cronologiche. Vengono quindi calcolate le funzioni di aggregazione in sequenza usando i periodi W prima della data di quel record. Esempi di aggregazioni in sequenza possono essere conteggi incrementali, medie, deviazioni standard, outlier basati su deviazioni standard, misure della somma cumulativa (CUSUM), valori minimi e massimi della finestra. Un'altra tecnica interessante consiste nell'acquisire modifiche della tendenza, picchi e modifiche dei livelli usando algoritmi che rilevano le anomalie nei dati mediante algoritmi di rilevamento anomalie.

Per una dimostrazione, vedere la figura 1 dove sono rappresentati i valori di un sensore registrati per un asset per ogni unità di tempo con la linea blu e dove viene contrassegnato il calcolo della funzione media mobile per W=3 per i record in t1 e t2, indicati rispettivamente dai raggruppamenti arancione e verde.

Figura 1. Funzioni di aggregazione in sequenza

Figura 1. Funzioni di aggregazione in sequenza

Come esempi, per i guasti dei componenti di aerei sono stati usati i valori dei sensori dell'ultima settimana, degli ultimi tre giorni e dell'ultimo giorno per creare medie mobili, deviazioni standard e funzioni somma. In modo analogo, per i guasti degli sportelli bancomat sono stati usati valori dei sensori non elaborati e medie mobili, valori mediani, intervallo, deviazioni standard, numero di outlier oltre tre deviazioni standard, funzioni CUSUM superiore e inferiore.

Per la stima dei ritardi dei voli sono stati usati i conteggi dei codici errore dell'ultima settimana per creare le funzioni. Per i guasti delle porte dei treni sono stati usati i conteggi degli eventi dell'ultimo giorno, i conteggi degli eventi delle 2 settimane precedenti e la varianza dei conteggi degli eventi dei 15 giorni precedenti per creare le funzioni di ritardo. Lo stesso conteggio è stato eseguito per gli eventi relativi alla manutenzione.

Anche scegliendo una W molto grande (ad es. anni), è possibile esaminare la cronologia intera di un asset, come il conteggio di tutti i record di manutenzione, degli errori e così via, fino all'ora del record. Questo metodo è stato usato per contare gli errori degli interruttori negli ultimi tre anni. Anche per i guasti dei treni sono stati contati tutti gli eventi di manutenzione per creare una funzione che acquisisse gli effetti della manutenzione a lungo termine.

Aggregazioni a cascata

Per ogni record con etichetta di un asset, si seleziona una finestra per la dimensione "W-k", dove "k" è il valore o la finestra della dimensione "W" per cui si desidera creare le funzioni di ritardo. Si può selezionare "k" come numero elevato per acquisire schemi di degradazione a lungo termine o un numero ridotto per acquisire gli effetti a breve termine. Si usano quindi finestre a cascata k W-k , W-(k-1), …, W-2 , W-1 per creare funzioni di aggregazione per i periodi precedenti la data e l'ora del record (vedere la figura 2). Queste sono anche finestre in sequenza a livello di record per un'unità di tempo che non viene acquisita nella figura 2, ma l'idea è la stessa illustrata nella figura 1 dove t2 viene usato anche per dimostrare l'effetto della sequenza.

Figura 2. Funzioni di aggregazione a cascata

Figura 2. Funzioni di aggregazione a cascata

Come esempio, per le turbine eoliche sono stati usati W=1 e k=3 mesi per creare le funzioni di ritardo per ognuno degli ultimi 3 mesi usando gli outlier superiore e inferiore.

Funzioni statiche

Per le apparecchiature sono disponibili specifiche tecniche come la data di fabbricazione, il numero di modello, la posizione e così via. Mentre le funzioni di ritardo sono prevalentemente di natura numerica, le funzioni statiche diventano solitamente variabili categoriche nei modelli. Come esempio, sono state usate le proprietà degli interruttori come le specifiche per tensione, corrente e potenza, oltre ai tipi di trasformatore, le fonti di alimentazione e così via. Per i guasti dei dischi freni, è stato usato il tipo di cerchione, ad esempio in lega o acciaio, per alcune delle funzioni statistiche.

Durante la generazione della funzione è necessario eseguire altri passaggi importanti, come la gestione dei valori mancanti e la normalizzazione. Esistono numerosi metodi di attribuzione dei valori mancanti e anche per la normalizzazione dei dati, che non vengono illustrati in questo documento. È comunque opportuno provare metodi diversi per vedere se è possibile ottenere un miglioramento delle prestazioni della stima.

La tabella delle funzioni finale, dopo i passaggi di progettazione delle funzioni illustrati nella sezione precedente, dovrebbe essere simile allo schema di dati di esempio seguente quando l'unità di tempo è un giorno:

ID asset Time Colonne delle funzioni Etichetta
1 Giorno 1
1 Giorno 2
... ...
2 Giorno 1
2 Giorno 2
... ...

Tecniche di modellazione

La manutenzione predittiva è un ambito molto avanzato che spesso utilizza domande aziendali avvicinabili da molte angolazioni diverse dalla prospettiva della modellazione predittiva. Le sezioni successive illustrano le principali tecniche che è possibile usare per modellare domande aziendali diverse a cui è possibile rispondere con soluzioni di manutenzione predittiva. Anche se ci sono similitudini, ogni modello ha un modo personalizzato di costruire etichette, che sono descritte in dettaglio. Come risorsa associata, è possibile far riferimento al modello di manutenzione predittiva incluso negli esperimenti di esempio forniti con Azure Machine Learning. I collegamenti al materiale online per questo modello sono disponibili nella sezione delle risorse. Si può vedere in che modo vengono applicate alcune tecniche di progettazione delle funzioni descritte in precedenza e la tecnica di modellazione che viene descritta nelle sezioni successive per stimare i guasti dei motori degli aerei usando Azure Machine Learning.

Classificazione binaria per la manutenzione predittiva

La classificazione binaria per la manutenzione predittiva viene usata per stimare la probabilità che l'apparecchiatura possa guastarsi in un periodo di tempo futuro. Il periodo di tempo viene determinato e si basa sulle regole di business e sui dati disponibili. Alcuni periodi di tempo comuni sono il tempo di anticipo minimo richiesto per l'acquisto delle parti di ricambio destinate a sostituire i componenti che potrebbero danneggiarsi oppure il tempo richiesto per distribuire le risorse di manutenzione per eseguire le routine di manutenzione necessarie per risolvere il problema che potrebbe verificarsi in quel periodo di tempo. Questo periodo verrà chiamato orizzonte temporale futuro "X".

Per usare la classificazione binaria, è necessario identificare due tipi di esempi, che saranno chiamati positivo e negativo. Ogni esempio è un record di un unità di tempo per un asset che descrive concettualmente ed astrae le condizioni operative fino all'unità di tempo tramite la progettazione delle funzioni usando origini dati cronologiche e altre descritte in precedenza. Nel contesto della classificazione binaria per la manutenzione predittiva i tipi positivi denotano gli errori (etichetta 1) e quelli negativi le operazioni normali (etichetta = 0), dove le etichette sono di tipo categorico. Lo scopo è trovare un modello che identifichi la probabilità che ogni nuovo esempio possa avere esito negativo o funzionare normalmente entro le prossime X unità di tempo.

Costruzione delle etichette

Per creare un modello predittivo che risponda alla domanda "qual è la probabilità che l'asset si guasti entro X unità di tempo", l'assegnazione di etichette viene eseguita scegliendo i record X prima dell'errore di un asset e assegnando l'etichetta "possibile guasto" (etichetta = 1), mentre l'etichetta per tutti gli altri record sarà "normale" (etichetta =0). In questo metodo le etichette sono variabili categoriche, vedere la figura 3.

Figura 3. Assegnazione di etichette per la classificazione binaria

Figura 3. Assegnazione di etichette per la classificazione binaria

Per i ritardi e le cancellazioni dei voli viene selezionato X come un giorno per stimare i ritardi nelle prossime 24 ore. A tutti i voli entro 24 ore prima dei guasti viene assegnata l'etichetta 1. Per i guasti degli sportelli bancomat sono stati creati due modelli di classificazione binaria per stimare la probabilità di errori di una transazione nei prossimi 10 minuti e anche la probabilità di errore nelle prossime 100 banconote erogate. A tutte le transazioni eseguite entro gli ultimi 10 minuti dal guasto viene assegnata l'etichetta 1 per il primo modello. A tutte le banconote erogate nelle ultime 100 banconote dal guasto viene assegnata l'etichetta 1 per il secondo modello. Per i guasti degli interruttori l'attività consiste nello stimare la probabilità che il successivo comando dell'interruttore non riesca, nel qual caso verrà scelto X come comando futuro. Per i guasti delle porte del treno è stato creato il modello di classificazione binaria per stimare i guasti entro i prossimi 7 giorni. Per i guasti delle turbine eoliche è stato scelto X come 3 mesi.

I casi delle turbine eoliche e delle porte del treno vengono usati anche per l'analisi di regressione per stimare la vita utile rimanente, usando gli stessi dati con una strategia di assegnazione delle etichette diversa, illustrata nella sezione successiva.

Regressione per la manutenzione predittiva

I modelli di regressione nella manutenzione predittiva vengono usati per calcolare la vita utile rimanente di un asset, definita come la quantità di tempo durante il quale l'asset rimane operativo prima che si verifichi il guasto successivo. Come nella classificazione binaria, ogni esempio è un record che appartiene all'unità di tempo "Y" per un asset. Nel contesto della regressione lo scopo è tuttavia quello di trovare un modello che calcoli la vita utile rimanente di ogni nuovo esempio come numero continuo, che corrisponde al periodo di tempo rimanente prima del guasto. Questo periodo di tempo è definito come multiplo di Y. Ogni esempio ha anche una vita utile rimanente che può essere calcolata misurando la quantità di tempo rimanente per l'esempio stesso prima del guasto successivo.

Costruzione delle etichette

Data la domanda "qual è la vita utile rimanente dell'apparecchiatura? ", è possibile costruire le etichette scegliendo ogni record prima del guasto e assegnando l'etichetta tramite il calcolo del numero di unità di tempo rimanenti prima del guasto successivo. In questo metodo le etichette sono variabili continue, vedere la figura 4.

Figura 4. Assegnazione di etichette per la regressione

Figura 4. Assegnazione di etichette per la regressione

A differenza della classificazione binaria, per la regressione non si possono usare gli asset privi di guasti nei dati per la modellazione, perché l'assegnazione di etichette viene effettuata con riferimento a un punto di errore e il relativo calcolo non è possibile senza sapere per quanto tempo la vita dell'asset è continuata prima del guasto. Questo problema si risolve meglio usando un'altra tecnica statistica detta analisi di sopravvivenza. In questo studio non verrà descritta l'analisi di sopravvivenza, a causa delle potenziali complicazioni che possono insorgere nell'applicare questa tecnica ai casi d'uso della manutenzione predittiva, che prevedono dati variabili nel tempo con intervalli frequenti.

Classificazione multiclasse per la manutenzione predittiva

La classificazione multiclasse per la manutenzione predittiva può essere usata per stimare due risultati futuri. Il primo consiste nell'assegnare un asset a uno dei diversi periodi di tempo per attribuire un intervallo di tempo al guasto per ogni asset. Il secondo consiste nell'identificare la probabilità di guasto in un periodo futuro per via di una delle molteplici cause radice. Questo consente al personale addetto alla manutenzione in possesso di queste informazioni di gestire il problema preventivamente. Un'altra tecnica di modellazione multiclasse è incentrata sulla determinazione della causa radice più probabile di un dato guasto. Questo consente di fornire suggerimenti per le principali azioni di manutenzione da eseguire per riparare un guasto. Disponendo di un elenco classificato di cause radice e delle azioni di riparazione associate,
i tecnici possono eseguire le prime azioni di riparazione dopo i guasti in modo più efficace.

Costruzione delle etichette

Date le due domande "qual è la probabilità che un asset si guasti nelle prossime unità di tempo "aZ" dove "a" è il numero di periodi" e "qual è la probabilità che l'asset si guasti nelle prossime X unità di tempo a causa del problema "Pi" dove "i" è il numero delle possibili cause radice", l'assegnazione di etichette viene eseguita nel modo seguente per queste tecniche.

Per la prima domanda l'assegnazione di etichette viene eseguita scegliendo i record aZ prima del guasto di un asset e assegnando un'etichetta usando intervalli di tempo (3Z, 2Z, Z), mentre l'etichetta di tutti gli altri record sarà "normale" (etichetta =0). In questo metodo l'etichetta è una variabile categorica, vedere la figura 5.

Figura 5. Assegnazione di etichette per la classificazione multiclasse per la stima dell'ora del guasto

Figura 5. Assegnazione di etichette per la classificazione multiclasse per la stima dell'ora del guasto

Per la seconda domanda l'assegnazione di etichette viene eseguita scegliendo i record X prima del guasto di un asset e assegnando un'etichetta "possibile guasto a causa del problema Pi" (etichetta = Pi), mentre l'etichetta di tutti gli altri record sarà "normale" (etichetta =0). In questo metodo le etichette sono variabili categoriche, vedere la figura 6.

Figura 6. Assegnazione di etichette per la classificazione multiclasse per la stima delle cause radice

Figura 6. Assegnazione di etichette per la classificazione multiclasse per la stima delle cause radice

Il modello assegna una probabilità di guasto a causa di ogni problema Pi, oltre alla probabilità che non si verifichi alcun guasto. Queste probabilità possono essere ordinate per grandezza, per consentire la stima dei problemi con la più alta possibilità che si verifichino in futuro. Il caso d'uso dei guasti ai componenti di aereo è stato strutturato come un problema di classificazione multiclasse. Questo consente la stima delle probabilità di guasto dovuto a due diversi componenti della valvola di pressione che si verificano nel corso del prossimo mese.

Per suggerire le azioni di manutenzione dopo i guasti, l'assegnazione dell'etichetta non richiede la selezione di un orizzonte temporale futuro. Questo è dovuto al fatto che il modello non stima il guasto nel futuro, ma solo la causa radice più probabile dopo che il guasto si è già verificato. I guasti delle porte degli ascensori rientrano nel terzo caso, dove lo scopo consiste nello stimare la causa del guasto considerati i dati cronologici in condizioni operative. Questo modello viene quindi usato per stimare le cause radice più probabili dopo che si è verificato un guasto. Un vantaggio chiave di questo modello è che aiuta i tecnici meno esperti a diagnosticare facilmente e risolvere problemi che diversamente richiederebbero anni di esperienza.

Metodi di training, convalida e test nella manutenzione predittiva

Nella manutenzione predittiva, in modo analogo a qualsiasi altra area della soluzione contenente dati con timestamp, la tipica routine di training e test deve considerare gli aspetti variabili nel tempo per una migliore generalizzazione dei dati futuri non visti.

Convalida incrociata

Molti algoritmi di Machine Learning dipendono da una quantità di iperparametri che possono modificare significativamente le prestazioni del modello. I valori ottimali di questi iperparametri non vengono calcolati automaticamente durante il training del modello, ma dovranno essere specificati dai data scientist. Per trovare i valori ottimali degli iperparametri sono disponibili vari modi. Quello più comune è la "convalida incrociata di k sezioni" che suddivide in modo casuale gli esempi in "k" sezioni. Per ogni set di valori degli iperparametri, l'algoritmo di apprendimento viene eseguito k volte. A ogni iterazione gli esempi nella sezione corrente vengono usati come set di convalida, mentre il resto degli esempi viene usato come set di training. L'algoritmo esegue il training sugli esempi di training e le metriche delle prestazioni sono calcolate sugli esempi di convalida. Alla fine di questo ciclo, per ogni set di valori degli iperparametri si calcolano i valori delle metriche delle prestazioni k e si scelgono i valori degli iperparametri con le prestazioni medie migliori.

Come accennato in precedenza, nei problemi di manutenzione predittiva i dati vengono registrati in serie temporali di eventi che derivano di diverse origini dati. Questi record possono essere ordinati in base all'ora di assegnazione dell'etichetta a un record o un esempio. Di conseguenza, se si suddivide in modo causale il set di dati in set di training e convalida, alcuni esempi di training risultano successivi agli esempi di convalida. Questo causa la stima delle prestazioni future dei valori degli iperparametri su dati arrivati prima che fosse eseguito il training del modello. Queste stime potrebbero risultare eccessivamente ottimistiche, specialmente se le serie temporali non sono fisse e cambiano il comportamento nel tempo. I valori degli iperparametri scelti potrebbero quindi risultare non ottimali.

Un modo migliore per trovare i valori ottimali degli iperparametri consiste nel suddividere gli esempi in set di training e di convalida in modo dipendente dal tempo, così che tutti gli esempi di convalida siano successivi nel tempo a tutti i gli esempi di training. Quindi per ogni set di valori degli iperparametri si esegue il training dell'algoritmo sul set di training, si misurano le prestazioni del modello sullo stesso set di convalida e si scelgono i valori degli iperparametri che mostrano le prestazioni migliori. Quando i dati delle serie temporali non sono fissi e si evolvono nel tempo, i valori degli iperparametri scelti dalla suddivisione training/convalida consentono di ottenere prestazioni future del modello migliori rispetto ai valori scelti in modo casuale dalla convalida incrociata.

Il modello finale viene generato eseguendo il training di un algoritmo di apprendimento su tutti i dati, usando i valori degli iperparametri migliori trovati usando la suddivisione training/convalida o la convalida incrociata.

Test delle prestazioni del modello

Dopo la compilazione di un modello, è necessario valutarne le prestazioni future su nuovi dati. La valutazione più semplice potrebbero essere le prestazioni del modello sui dati di training. Questa valutazione è tuttavia eccessivamente ottimistica, perché il modello è personalizzato in base ai dati usati per valutare le prestazioni. Una stima migliore potrebbero essere le metriche delle prestazioni dei valori degli iperparametri sul set di convalida oppure le metriche delle prestazioni medie calcolate da una convalida incrociata. Per gli stessi motivi già definiti, queste stime sono comunque eccessivamente ottimistiche. Per misurare le prestazioni del modello sono necessari approcci più realistici.

Un modo è suddividere i dati in modo casuale in set di training, convalida e test. I set di training e convalida vengono usati per selezionare i valori degli iperparametri ed eseguire il training del modello con questi valori. Le prestazioni del modello vengono misurati sul set di test.

Un altro modo pertinente per la manutenzione predittiva consiste nel suddividere gli esempi in set di training, convalida e test in modo dipendente dal tempo, così che tutti gli esempi di test siano successivi nel tempo a tutti i gli esempi di convalida. Dopo la suddivisione, la generazione del modello e la misurazione delle prestazioni vengono eseguite come descritto in precedenza.

Quando le serie temporali sono fisse e facili da stimare, entrambi gli approcci generano valutazioni simili delle prestazioni future. Quando però le serie temporali non sono fisse e/o difficili da stimare, il secondo approccio genera stime più realistiche delle prestazioni future rispetto al primo.

Suddivisione dipendente dal tempo

Come procedura consigliata, in questa sezione si esaminerà più in dettaglio come implementare la suddivisione dipendente dal tempo. Viene descritta una suddivisione bidirezionale dipendente dal tempo tra i set di training e test, ma dovrà essere applicata esattamente la stesa logica della suddivisione dipendente dal tempo per i set di training e convalida.

Si supponga di avere un flusso di eventi con timestamp, ad esempio le misurazioni da diversi sensori. Le funzioni degli esempi di training e test e le relative etichette sono definite in base a intervalli di tempo che contengono più eventi. Ad esempio, per la classificazione binaria descritte nelle sezioni Progettazione delle funzioni e Tecniche di modellazione, le funzioni vengono create in base agli eventi passati e le etichette in base agli eventi futuri nelle unità di tempo "X" future. Quindi, l'intervallo di tempo dell'assegnazione di etichette è successivo all'intervallo di tempo delle relative funzioni. Per la suddivisione dipendente dal tempo viene selezionato un momento in cui si esegue il training di un modello con iperparametri ottimizzati usando dati cronologici fino a quel momento. Per impedire la perdita di etichette future che si trovano al di fuori del punto di taglio nei dati di training, si sceglierà l'ultimo intervallo di tempo per l'assegnazione di etichette agli esempi di training impostando X unità prima della data del punto di taglio di training. Nella figura 7 ogni cerchio pieno rappresenta una riga nel set di dati finale delle funzioni per cui le funzioni e le etichette vengono calcolate in base al metodo descritto sopra. Ciò detto, la figura mostra i record che dovranno essere inseriti nei set di training e test quando si implementa la suddivisone dipendente dal tempo per X=2 e W=3:

Figura 7. Suddivisione dipendente dal tempo per la classificazione binaria

Figura 7. Suddivisione dipendente dal tempo per la classificazione binaria

I quadratini verdi rappresentano i record appartenenti alle unità di tempo che possono essere usate per il training. Come spiegato in precedenza, ogni esempio di training nella tabella delle funzioni finale viene generato osservando i 3 periodi precedenti per la generazione di funzioni e i 2 periodi futuri per l'assegnazione di etichette prima del punto di taglio di training. Nel set di training non vengono usati esempi quando una parte qualsiasi dei 2 periodi futuri di un dato esempio è all'esterno del punto di taglio di training, presupponendo di non avere visibilità oltre il punto di taglio. A causa di questo vincolo, gli esempi neri rappresentano i record del set di dati con etichetta finale che non dovranno essere usati nel training set. Questi record non saranno usati nei dati di test perché si trovano prima del punto di taglio di training e i relativi intervalli di tempo con etichetta dipendono in parte dall'intervallo di tempo di training, ma non deve essere così perché si preferisce separare completamente gli intervalli di tempo con etichetta per il training e il test per evitare la perdita di informazioni sulle etichette.

Questa tecnica consente la sovrapposizione nei dati usati per la generazione delle funzioni tra gli esempi di training e di test in prossimità del punto di taglio di training. A seconda della disponibilità di dati, è possibile eseguire una separazione ancora più netta evitando di usare qualsiasi esempio nel set di test all'interno delle unità di tempo W del punto di taglio di training.

Da questo studio emerge che i modelli di regressione usati per la stima della vita utile rimanente sono più gravemente influenzati dal problema della perdita e l'uso della suddivisione in modo casuale genera un overfitting estremo. In modo analogo, nei problemi di regressione la suddivisione deve essere tale per cui i record che appartengono ad asset con guasti prima del punto di taglio di training dovranno essere usati per i set di training e gli asset con guasti dopo il punto di taglio dovranno essere usati per i set di test.

Come metodo generale, un'altra importante procedura consigliata per la suddivisione dei dati per training e test consiste nell'usare un suddivisione basata sull'ID asset, in modo che nessuno degli asset usati nel training venga usato per i test, perché l'idea dei test è concepita per assicurare che quando si usa un nuovo asset per eseguire stime, il modello fornisca risultati realistici.

Gestione di dati sbilanciati

Nei problemi di classificazione se sono presenti più esempi di una classe rispetto alle altre, si dice che i dati sono sbilanciati. Idealmente, è preferibile avere abbastanza esempi rappresentativi di ogni classe dei dati di training per poter distinguere le diverse classi. Se una classe corrisponde a meno del 10% dei dati, si può dire che i dati sono sbilanciati e il set di dati sotto-rappresentato è detto classe di minoranza. Drasticamente, in molti casi si trovano set di dati sbilanciati in cui una classe è gravemente sotto-rappresentata rispetto ad altre, ad esempio costituendo colo lo 0,001% dei punti dati. Lo sbilanciamento delle classi è un problema in molti ambiti, inclusi il rilevamento delle frodi, le intrusioni di rete e la manutenzione predittiva in cui gli errori sono di solito occorrenze rare nella durata degli asset che costituiscono gli esempi di classe di minoranza.

Nel caso di sbilanciamento delle classi, le prestazioni della maggior parte degli algoritmi di apprendimento standard vengono compromesse, perché il loro scopo è ridurre il tasso di errore complessivo. Ad esempio, per i set di dati con il 99% di esempi di classi negativi e l'1% di esempi di classi positivi, si può ottenere un'accuratezza del 99% semplicemente assegnando un'etichetta negativa a tutte le istanze. Tuttavia, questa operazione classifica erroneamente tutti gli esempi positivi, quindi l'algoritmo non sarà utile anche se le metriche di accuratezza risultano molto elevate. Di conseguenza, le metriche di valutazione convenzionali, come l'accuratezza complessiva sul tasso di errore, non sono sufficienti in caso di apprendimento sbilanciato. Altre metriche, come precisione, richiamo, punteggi F1 e curve ROC con costi rettificati, vengono usate per le valutazioni in caso di set di dati sbilanciati, che vengono illustrati nella sezione Metriche di valutazione.

Sono tuttavia disponibili alcuni metodi che consentono di ovviar al problema dello sbilanciamento di classi. I due principali sono le tecniche di campionamento e l'apprendimento suscettibile alla variazione dei costi.

Metodi di campionamento

L'uso dei metodi di campionamento nell'apprendimento sbilanciato consiste nella modifica del set di dati mediante alcuni meccanismi, per fornire un set di dati bilanciato. Anche se sono disponibili molte tecniche di campionamento diverse, quelle più semplici sono il sovracampionamento e il sottocampionamento casuali.

In sostanza, il sovracampionamento casuale consiste nel selezionare un campione casuale dalla classe di minoranza nel replicare questi esempi e aggiungerli al training set. In questo modo viene aumentato il numero degli esempi totali nella classe di minoranza, bilanciando infine il numero di esempi delle diverse classi. Un aspetto rischioso del sovracampionamento è il fatto che più istanze di determinati esempi possono rendere il classificatore troppo specifico, causando un overfitting. Questo comporterà un'elevata accuratezza di training, ma le prestazioni dei dati di test non visti potrebbero risultare insufficienti. Al contrario, il sottocampionamento casuale consiste nel selezionare un campione casuale dalla classe di maggioranza e nel rimuovere tali esempi dai training set. Tuttavia, la rimozione di esempi dalla classe di maggioranza può far sì che il classificatore ignori concetti importanti riguardanti la classe di maggioranza. Un altro approccio valido è anche il campionamento ibrido, in cui il sovracampionamento della classe di minoranza e il sottocampionamento della classe di maggioranza avvengono contemporaneamente. Sono disponibili molte altre tecniche di campionamento più sofisticate e i metodi di campionamento efficaci per lo sbilanciamento delle classi costituiscono un'ara di ricerca comune che riceve costantemente attenzione e contributi da molti canali. L'uso di tecniche diverse per decidere quali siano le più efficaci è in genere un compito lasciato alla ricerca e agli esperimenti da parte dei data scientist. L'efficacia di tali tecniche è comunque fortemente dipendente dalle proprietà dei dati. È anche importante assicurarsi che i metodi di campionamento vengano applicati solo al set di training ma non al set di test.

Apprendimento suscettibile alla variazione dei costi

Nella manutenzione predittiva i guasti che costituiscono la classe di minoranza sono più interessanti degli esempi normali e quindi ci si concentra in genere sulle prestazioni dell'algoritmo sui guasti. Questo approccio è comunemente detto perdita ineguale o costi asimmetrici dell'errata classificazione di elementi di classi diverse dove la stime errata di una classe positiva come negativa può comportare costi più elevati rispetto al contrario. Il classificatore ottimale deve essere in grado di fornire un'elevata accuratezza della stima rispetto alla classe di minoranza, senza compromettere gravemente l'accuratezza per la classe di maggioranza.

sono disponibili diversi modi per ottenere questo risultato. Assegnando un costo elevato all'errata classificazione della classe di minoranza e provando a ridurre il costo complessivo, il problema delle perdite ineguali può essere gestito in maniera efficace. Alcuni algoritmi di Machine Learning usano questo concetto intrinsecamente, come le macchine a vettori di supporto (SVM), in cui il costo degli esempi positivi e negativi può essere incorporato nei tempi di training. Analogamente vengono usati metodi di aumento di priorità che in genere forniscono ottime prestazione in caso di dati sbilanciati, come gli algoritmi albero delle decisioni con boosting.

Metriche di valutazione

Come accennato in precedenza, lo sbilanciamento delle classi causa una riduzione delle prestazioni, perché gli algoritmi tendono a classificare meglio gli esempi di classe di maggioranza a spese dei casi di classe di minoranza, perché l'errore di errata classificazione totale viene molto migliorato quando l'etichetta della classe di maggioranza è assegnata correttamente. Questo causa basse frequenze di richiamo e diventa un problema più esteso quando il costo dei falsi allarmi per l'azienda è molto elevato. L'accuratezza è la metrica più comune usata per descrivere le prestazioni di un classificatore. Tuttavia, come già spiegato, l'accuratezza è inefficace e non riflette le prestazioni reali della funzione di un classificatore perché è molto sensibile alle distribuzioni dei dati. Per valutare i problemi dell'apprendimento sbilanciato vengono invece usate altre metriche di valutazione. In questi casi, precisione, richiamo e punteggio F1 dovranno essere le metriche iniziali da osservare quando si valutano le prestazioni del modello di manutenzione predittiva. Nella manutenzione predittiva le frequenze di richiamo denotano quanti guasti sono stati identificati correttamente nel set di test da parte del modello. Tassi di richiamo più elevati indicano che il modello sta acquisendo correttamente i veri guasti. Le metriche di precisione sono correlate alla frequenza di falsi allarmi, dove tassi di precisione più bassi corrispondono una maggiore quantità di falsi allarmi. Il punteggio F1 considera le frequenze di precisione e di richiamo, dove il valore migliore è 1 e il peggiore 0.

Nella classificazione binaria anche le tabelle di classificazione decile e i grafici di accuratezza offrono ottime informazioni per la valutazione delle prestazioni. Considerano solo la classe positiva (guasti) e forniscono un'immagine più complessa delle prestazioni dell'algoritmo rispetto a ciò che risulta osservando solo un punto operativo fisso nella curva ROC (Receiver Operating Characteristic). Le tabelle di classificazione decile si ottengono ordinando gli esempi di test in base alle relative probabilità di guasti stimate calcolate dal modello prima della determinazione di soglia per decidere l'etichetta finale. Gli esempi ordinati vengono quindi raggruppati in decili, ad esempio il 10% di campioni con la probabilità più alta e quindi il 20%, 30% e così via. Calcolando il rapporto tra la vera percentuale positiva di ogni decile e la relativa baseline casuale, ovvero 0,1, 0,2 e così via, è possibile prevedere come cambiano le prestazioni dell'algoritmo in ogni decile. I grafici di accuratezza vengono usati per tracciare i valori dei decili, tracciando la percentuale positiva vera del decile rispetto alle coppie di percentuali positive vere casuali per tutti i decili. Di solito i primi decili sono l'aspetto centrale dei risultati perché qui si osservano i guadagni più significativi. I primi decili possono anche essere considerati rappresentativi di una condizione "a rischio" quando vengono usati per la manutenzione predittiva.

Architettura della soluzione di esempio

Quando si distribuisce una soluzione di manutenzione predittiva, si vuole avere una soluzione end-to-end che offra un ciclo continuo di inserimento dei dati, archiviazione dei dati per il training del modello, generazione di funzioni, stima e visualizzazione dei risultati insieme a un meccanismo di generazione di avvisi quale un dashboard di monitoraggio degli asset. Si vuole una pipeline di dati che fornisca all'utente informazioni dettagliate future in modo automatico e continuo. Un'architettura di manutenzione predittiva di esempio per una pipeline di dati IoT è illustrata nella figura 8 seguente. Nell'architettura vengono raccolti dati di telemetria in tempo reale in un hub eventi che archivia i dati di streaming. Questi dati vengono inseriti da Analisi di flusso per l'elaborazione in tempo reale dei dati, come la generazione di funzioni. Le funzioni vengono quindi usate per chiamare il servizio Web del modello predittivo e i risultati vengono visualizzati nel dashboard. contemporaneamente i dati inseriti vengono anche archiviati in un database cronologico e uniti a origine dati esterne, ad esempio i database locali, per creare esempi di training per la modellazione. Gli stessi data warehouse possono essere usati per i punteggi batch degli esempi e l'archiviazione dei risultati, che possono essere usati di nuovo per fornire report predittivi sul dashboard.

Figura 8. Architettura della soluzione di esempio per la manutenzione predittiva

Figura 8. Architettura della soluzione di esempio per la manutenzione predittiva

Per altre informazioni su ogni componente dell'architettura, vedere la documentazione di Azure .