Konwertowanie na zestaw danych

W tym artykule opisano sposób używania składnika Konwertuj na zestaw danych w projektancie Azure Machine Learning w celu przekonwertowania dowolnych danych potoku na format wewnętrzny projektanta.

Konwersja nie jest wymagana w większości przypadków. Azure Machine Learning niejawnie konwertuje dane na natywny format zestawu danych po wykonaniu dowolnej operacji na danych.

Zalecamy zapisanie danych w formacie zestawu danych, jeśli przeprowadzono pewnego rodzaju normalizację lub czyszczenie zestawu danych i chcesz upewnić się, że zmiany są używane w innych potokach.

Uwaga

Konwertowanie na zestaw danych zmienia tylko format danych. Nie zapisuje nowej kopii danych w obszarze roboczym. Aby zapisać zestaw danych, kliknij dwukrotnie port wyjściowy, wybierz pozycję Zapisz jako zestaw danych i wprowadź nową nazwę.

Jak używać funkcji Konwertuj na zestaw danych

Zalecamy użycie składnika Edit Metadata (Edytowanie metadanych ) w celu przygotowania zestawu danych przed użyciem opcji Konwertuj na zestaw danych. Możesz dodawać lub zmieniać nazwy kolumn, dostosowywać typy danych i wprowadzać inne zmiany zgodnie z potrzebami.

  1. Dodaj składnik Konwertuj na zestaw danych do potoku. Ten składnik można znaleźć w kategorii Przekształcanie danych w projektancie.

  2. Połączenie go do dowolnego składnika, który generuje zestaw danych.

    Tak długo, jak dane są tabelaryczne, można przekonwertować je na zestaw danych. Obejmuje to dane ładowane za pośrednictwem importu danych, danych utworzonych za pomocą funkcji Wprowadź dane ręcznie lub zestawów danych przekształconych za pomocą transformacji Zastosuj.

  3. Na liście rozwijanej Akcja wskaż, czy chcesz wykonać czyszczenie danych przed zapisaniem zestawu danych:

    • Brak: użyj danych w następujący sposób.

    • SetMissingValue: ustaw określoną wartość na brakującą wartość w zestawie danych. Domyślny symbol zastępczy to znak znaku zapytania (?), ale możesz użyć opcji Niestandardowe brakującej wartości , aby wprowadzić inną wartość. Jeśli na przykład wprowadzisz taksówkę dla brakującej wartości niestandardowej, wszystkie wystąpienia taksówek w zestawie danych zostaną zmienione na brakującą wartość.

    • ReplaceValues: użyj tej opcji, aby określić pojedynczą dokładną wartość, która ma zostać zastąpiona dowolną inną dokładną wartością. Brakujące wartości lub wartości niestandardowe można zastąpić, ustawiając metodę Replace :

      • Brak: wybierz tę opcję, aby zastąpić brakujące wartości w wejściowym zestawie danych. W polu Nowa wartość wprowadź wartość, aby zastąpić brakujące wartości.
      • Niestandardowe: wybierz tę opcję, aby zastąpić wartości niestandardowe w wejściowym zestawie danych. W polu Wartość niestandardowa wprowadź wartość, którą chcesz znaleźć. Jeśli na przykład dane zawierają ciąg obs używany jako symbol zastępczy brakujących wartości, wprowadź wartość obs. W polu Nowa wartość wprowadź nową wartość, aby zastąpić oryginalny ciąg.

    Należy pamiętać, że operacja ReplaceValues ma zastosowanie tylko do dokładnych dopasowań. Na przykład te ciągi nie będą miały wpływu na: obs., obsolete.

  4. Prześlij potok.

Wyniki

  • Aby zapisać wynikowy zestaw danych o nowej nazwie, wybierz ikonę Zarejestruj zestaw danych na karcie Dane wyjściowe w prawym panelu składnika.

Uwagi techniczne

  • Każdy składnik, który przyjmuje zestaw danych jako dane wejściowe, może również pobierać dane w pliku CSV lub w pliku TSV. Przed uruchomieniem kodu składnika dane wejściowe są wstępnie przetworzone. Przetwarzanie wstępne jest równoważne uruchamianiu składnika Konwertuj na zestaw danych w danych wejściowych.

  • Nie można przekonwertować formatu SVMLight na zestaw danych.

  • Podczas określania niestandardowej operacji zastępowania operacja wyszukiwania i zastępowania ma zastosowanie do pełnych wartości. Częściowe dopasowania są niedozwolone. Można na przykład zastąpić wartość 3 wartością -1 lub 33, ale nie można zastąpić wartości 3 w dwucyfrowej liczbie, takiej jak 35.

  • W przypadku operacji zamiany niestandardowej zastąpienie nie powiedzie się w trybie dyskretnym, jeśli zostanie użyty jako zastępczy dowolny znak, który nie jest zgodny z bieżącym typem danych kolumny.

Następne kroki

Zobacz zestaw składników dostępnych do Azure Machine Learning.