Share via


Modifica componente Metadati

Questo articolo descrive un componente incluso nella finestra di progettazione di Azure Machine Learning.

Usare il componente Modifica metadati per modificare i metadati associati alle colonne in un set di dati. Il valore e il tipo di dati del set di dati verranno modificati dopo l'uso del componente Modifica metadati.

Le modifiche tipiche ai metadati possono includere le operazioni seguenti:

  • Trattando colonne booleane o numeriche come valori categorici.

  • Indicando quale colonna contiene l'etichetta di classe o contiene i valori che si desidera classificare o stimare.

  • Contrassegnare le colonne come funzionalità.

  • Modifica dei valori di data/ora in valori numerici o viceversa.

  • Ridenominazione delle colonne.

Usare Modifica metadati ogni volta che è necessario modificare la definizione di una colonna, in genere per soddisfare i requisiti per un componente downstream. Ad esempio, alcuni componenti funzionano solo con tipi di dati specifici o richiedono flag sulle colonne, ad esempio IsFeature o IsCategorical.

Dopo aver eseguito l'operazione necessaria, è possibile reimpostare i metadati allo stato originale.

Configurare modifica metadati

  1. Nella finestra di progettazione di Azure Machine Learning aggiungere il componente Modifica metadati alla pipeline e connettere il set di dati da aggiornare. È possibile trovare il componente nella categoria Trasformazione dati .

  2. Fare clic su Modifica colonna nel pannello destro del componente e scegliere la colonna o il set di colonne da usare. È possibile scegliere le colonne singolarmente in base al nome o all'indice oppure è possibile scegliere un gruppo di colonne in base al tipo.

  3. Selezionare l'opzione Tipo di dati se è necessario assegnare un tipo di dati diverso alle colonne selezionate. Potrebbe essere necessario modificare il tipo di dati per determinate operazioni. Ad esempio, se il set di dati di origine ha numeri gestiti come testo, è necessario modificarli in un tipo di dati numerico prima di usare operazioni matematiche.

    • I tipi di dati supportati sono String, Integer, Double, Boolean e DateTime.

    • Se si selezionano più colonne, è necessario applicare le modifiche dei metadati a tutte le colonne selezionate. Ad esempio, si supponga di scegliere due o tre colonne numeriche. È possibile modificarli tutti in un tipo di dati stringa e rinominarli in un'unica operazione. Tuttavia, non è possibile modificare una colonna in un tipo di dati stringa e un'altra colonna da un float a un intero.

    • Se non si specifica un nuovo tipo di dati, i metadati della colonna non vengono modificati.

    • Il tipo di colonna e i valori verranno modificati dopo aver eseguito l'operazione Modifica metadati. È possibile recuperare il tipo di dati originale in qualsiasi momento usando Modifica metadati per reimpostare il tipo di dati della colonna.

    Nota

    Il formato DateTime segue il formato datetime predefinito di Python.
    Se si modifica qualsiasi tipo di numero nel tipo DateTime , lasciare vuoto il campo Formato DateTime . Attualmente non è possibile specificare il formato dati di destinazione.

  4. Selezionare l'opzione Categorica per specificare che i valori nelle colonne selezionate devono essere considerati come categorie.

    Ad esempio, potrebbe essere presente una colonna contenente i numeri 0, 1 e 2, ma sapere che i numeri in realtà significano "Fumatore", "Non fumatori" e "Sconosciuto". In questo caso, contrassegnando la colonna come categorica, assicurarsi che i valori vengano usati solo per raggruppare i dati e non nei calcoli numerici.

  5. Usare l'opzione Campi se si vuole modificare il modo in cui Azure Machine Learning usa i dati in un modello.

    • Funzionalità: usare questa opzione per contrassegnare una colonna come funzionalità nei componenti che operano solo sulle colonne di funzionalità. Per impostazione predefinita, tutte le colonne vengono inizialmente considerate come funzioni.

    • Etichetta: usare questa opzione per contrassegnare l'etichetta, nota anche come attributo prevedibile o variabile di destinazione. Molti componenti richiedono che nel set di dati sia presente esattamente una colonna di etichetta.

      In molti casi, Azure Machine Learning può dedurre che una colonna contiene un'etichetta di classe. Impostando questi metadati, è possibile assicurarsi che la colonna sia identificata correttamente. L'impostazione di questa opzione non modifica i valori dei dati. Cambia solo il modo in cui alcuni algoritmi di Machine Learning gestiscono i dati.

    Suggerimento

    Sono presenti dati che non rientrano in queste categorie? Ad esempio, il set di dati potrebbe contenere valori come identificatori univoci che non sono utili come variabili. A volte tali ID possono causare problemi quando vengono usati in un modello.

    Fortunatamente, Azure Machine Learning mantiene tutti i dati, in modo che non sia necessario eliminare tali colonne dal set di dati. Quando è necessario eseguire operazioni su un set speciale di colonne, rimuovere temporaneamente tutte le altre colonne usando il componente Seleziona colonne nel set di dati . In seguito è possibile unire nuovamente le colonne nel set di dati usando il componente Aggiungi colonne .

  6. Usare le opzioni seguenti per cancellare le selezioni precedenti e ripristinare i metadati nei valori predefiniti.

    • Funzionalità cancella: usare questa opzione per rimuovere il flag di funzionalità.

      Tutte le colonne vengono inizialmente considerate come funzionalità. Per i componenti che eseguono operazioni matematiche, potrebbe essere necessario usare questa opzione per impedire che le colonne numeriche vengano considerate come variabili.

    • Etichetta cancella: usare questa opzione per rimuovere i metadati dell'etichetta dalla colonna specificata.

    • Cancella punteggio: usare questa opzione per rimuovere i metadati del punteggio dalla colonna specificata.

      Attualmente non è possibile contrassegnare in modo esplicito una colonna come punteggio in Azure Machine Learning. Tuttavia, alcune operazioni comportano il flag di una colonna come punteggio internamente. Inoltre, un componente R personalizzato potrebbe restituire i valori dei punteggi.

  7. Per Nuovi nomi di colonna immettere il nuovo nome della colonna o delle colonne selezionate.

    • I nomi di colonna possono usare solo i caratteri supportati dalla codifica UTF-8. Le stringhe vuote, i valori Null o i nomi costituiti interamente da spazi non sono consentiti.

    • Per rinominare più colonne, immettere i nomi come elenco delimitato da virgole in ordine di indici di colonna.

    • Tutte le colonne selezionate devono essere rinominate. Non è possibile omettere o ignorare le colonne.

  8. Inviare la pipeline.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.