Edytowanie składnika metadanych

W tym artykule opisano składnik zawarty w projektancie usługi Azure Machine Learning.

Użyj składnika Edytuj metadane, aby zmienić metadane skojarzone z kolumnami w zestawie danych. Wartość i typ danych zestawu danych zmienią się po użyciu składnika Edytuj metadane.

Typowe zmiany metadanych mogą obejmować:

  • Traktowanie kolumn logicznych lub liczbowych jako wartości kategorii.

  • Wskazuje, która kolumna zawiera etykietę klasy lub zawiera wartości, które chcesz kategoryzować lub przewidywać.

  • Oznaczanie kolumn jako cech.

  • Zmiana wartości daty/godziny na wartości liczbowe lub odwrotnie.

  • Zmienianie nazw kolumn.

W dowolnym momencie użyj opcji Edytuj metadane, aby zmodyfikować definicję kolumny, zwykle w celu spełnienia wymagań dotyczących składnika podrzędnego. Na przykład niektóre składniki działają tylko z określonymi typami danych lub wymagają flag w kolumnach, takich jak IsFeature lub IsCategorical.

Po wykonaniu wymaganej operacji można zresetować metadane do stanu pierwotnego.

Konfigurowanie edycji metadanych

  1. W projektancie usługi Azure Machine Learning dodaj składnik Edytuj metadane do potoku i połącz zestaw danych, który chcesz zaktualizować. Składnik można znaleźć w kategorii Przekształcanie danych .

  2. Kliknij pozycję Edytuj kolumnę w prawym panelu składnika i wybierz kolumnę lub zestaw kolumn do pracy. Możesz wybrać kolumny indywidualnie według nazwy lub indeksu lub wybrać grupę kolumn według typu.

  3. Wybierz opcję Typ danych , jeśli chcesz przypisać inny typ danych do wybranych kolumn. Może być konieczne zmianę typu danych dla niektórych operacji. Jeśli na przykład źródłowy zestaw danych zawiera liczby obsługiwane jako tekst, musisz zmienić je na typ danych liczbowych przed użyciem operacji matematycznych.

    • Obsługiwane typy danych to String, Integer, Double, Boolean i DateTime.

    • W przypadku wybrania wielu kolumn należy zastosować zmiany metadanych do wszystkich wybranych kolumn. Załóżmy na przykład, że wybierasz dwie lub trzy kolumny liczbowe. Można je zmienić na typ danych ciągu i zmienić ich nazwę w jednej operacji. Nie można jednak zmienić jednej kolumny na typ danych ciągu, a inną kolumnę z liczby zmiennoprzecinkowej na liczbę całkowitą.

    • Jeśli nie określisz nowego typu danych, metadane kolumny pozostaną niezmienione.

    • Typ kolumny i wartości zostaną zmienione po wykonaniu operacji Edytuj metadane. Oryginalny typ danych można odzyskać w dowolnym momencie, używając polecenia Edytuj metadane, aby zresetować typ danych kolumny.

    Uwaga

    Format DateTime jestzgodny z wbudowanym formatem daty/godziny języka Python.
    Jeśli zmienisz typ liczby na typ DateTime , pozostaw pole DateTime Format puste. Obecnie nie można określić docelowego formatu danych.

  4. Wybierz opcję Kategoria, aby określić, że wartości w wybranych kolumnach powinny być traktowane jako kategorie.

    Na przykład może istnieć kolumna zawierająca liczby 0, 1 i 2, ale wiesz, że liczby rzeczywiście oznaczają "Palacz", "Niepalące" i "Nieznane". W takim przypadku, flagując kolumnę jako kategoryczną, upewnij się, że wartości są używane tylko do grupowania danych, a nie w obliczeniach liczbowych.

  5. Użyj opcji Pola , jeśli chcesz zmienić sposób używania danych w modelu przez usługę Azure Machine Learning.

    • Funkcja: użyj tej opcji, aby oznaczyć kolumnę jako funkcję w składnikach, które działają tylko na kolumnach funkcji. Domyślnie wszystkie kolumny są początkowo traktowane jako funkcje.

    • Etykieta: użyj tej opcji, aby oznaczyć etykietę, która jest również nazywana przewidywalnym atrybutem lub zmienną docelową. Wiele składników wymaga, aby w zestawie danych znajduje się dokładnie jedna kolumna etykiety.

      W wielu przypadkach usługa Azure Machine Learning może wywnioskować, że kolumna zawiera etykietę klasy. Ustawiając te metadane, możesz upewnić się, że kolumna jest prawidłowo identyfikowana. Ustawienie tej opcji nie powoduje zmiany wartości danych. Zmienia tylko sposób obsługi danych przez niektóre algorytmy uczenia maszynowego.

    Porada

    Czy masz dane, które nie pasują do tych kategorii? Na przykład zestaw danych może zawierać wartości, takie jak unikatowe identyfikatory, które nie są przydatne jako zmienne. Czasami takie identyfikatory mogą powodować problemy w przypadku użycia w modelu.

    Na szczęście usługa Azure Machine Learning przechowuje wszystkie dane, dzięki czemu nie trzeba usuwać takich kolumn z zestawu danych. Jeśli musisz wykonać operacje na specjalnym zestawie kolumn, po prostu tymczasowo usuń wszystkie inne kolumny przy użyciu składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych ). Później możesz scalić kolumny z powrotem do zestawu danych przy użyciu składnika Dodaj kolumny .

  6. Użyj poniższych opcji, aby wyczyścić poprzednie wybory i przywrócić metadane do wartości domyślnych.

    • Wyczyść funkcję: użyj tej opcji, aby usunąć flagę funkcji.

      Wszystkie kolumny są początkowo traktowane jako funkcje. W przypadku składników wykonujących operacje matematyczne może być konieczne użycie tej opcji, aby zapobiec traktowaniu kolumn liczbowych jako zmiennych.

    • Wyczyść etykietę: użyj tej opcji, aby usunąć metadane etykiety z określonej kolumny.

    • Wynik czyszczenia: użyj tej opcji, aby usunąć metadane oceny z określonej kolumny.

      Obecnie nie można jawnie oznaczyć kolumny jako wyniku w usłudze Azure Machine Learning. Jednak niektóre operacje powodują, że kolumna jest oflagowana wewnętrznie jako wynik. Ponadto niestandardowy składnik języka R może zwracać wartości wyników.

  7. W obszarze Nowe nazwy kolumn wprowadź nową nazwę wybranej kolumny lub kolumn.

    • Nazwy kolumn mogą używać tylko znaków obsługiwanych przez kodowanie UTF-8. Puste ciągi, wartości null lub nazwy składające się całkowicie ze spacji nie są dozwolone.

    • Aby zmienić nazwę wielu kolumn, wprowadź nazwy jako listę rozdzielaną przecinkami w kolejności indeksów kolumn.

    • Wszystkie wybrane kolumny muszą zostać zmienione. Nie można pominąć ani pominąć kolumn.

  8. Prześlij potok.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.