Podsumowywanie danych
W tym artykule opisano składnik projektanta usługi Azure Machine Learning.
Użyj składnika Summarize Data (Podsumowanie danych), aby utworzyć zestaw standardowych miar statystycznych opisujących każdą kolumnę w tabeli wejściowej.
Statystyki podsumowania są przydatne, gdy chcesz zrozumieć charakterystykę kompletnego zestawu danych. Na przykład może być konieczne poznanie następujących informacji:
- Ile brakujących wartości znajduje się w każdej kolumnie?
- Ile unikatowych wartości znajduje się w kolumnie funkcji?
- Jaka jest średnia i odchylenie standardowe dla każdej kolumny?
Składnik oblicza ważne wyniki dla każdej kolumny i zwraca wiersz statystyk podsumowania dla każdej zmiennej (kolumny danych) podanej jako dane wejściowe.
Jak skonfigurować dane podsumowania
Dodaj składnik Summarize Data (Podsumowanie danych ) do potoku. Ten składnik można znaleźć w kategorii Funkcje statystyczne w projektancie.
Połącz zestaw danych, dla którego chcesz wygenerować raport.
Jeśli chcesz raportować tylko niektóre kolumny, użyj składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych), aby utworzyć podzestaw kolumn do pracy.
Nie są wymagane żadne dodatkowe parametry. Domyślnie składnik analizuje wszystkie kolumny dostarczane jako dane wejściowe, a w zależności od typu wartości w kolumnach generuje odpowiedni zestaw statystyk zgodnie z opisem w sekcji Wyniki .
Prześlij potok.
Wyniki
Raport ze składnika może zawierać następujące statystyki.
Nazwa kolumny | Opis |
---|---|
Funkcja | Nazwa kolumny |
Count | Liczba wszystkich wierszy |
Liczba unikatowych wartości | Liczba unikatowych wartości w kolumnie |
Brak liczby wartości | Liczba unikatowych wartości w kolumnie |
Min | Najniższa wartość w kolumnie |
Max | Najwyższa wartość w kolumnie |
Oznacza | Średnia wszystkich wartości kolumn |
Odchylenie średnie | Średnie odchylenie wartości kolumn |
1 kwartyl | Wartość na początku kwartylu |
Mediana | Mediana wartości kolumny |
Trzeci kwartyl | Wartość na trzecim kwartylu |
Tryb | Tryb wartości kolumn |
Zakres | Liczba całkowita reprezentująca liczbę wartości między wartościami maksymalnymi i minimalnymi |
Przykładowa wariancja | Wariancja dla kolumny; zobacz Uwaga |
Przykładowe odchylenie standardowe | Odchylenie standardowe dla kolumny; zobacz Uwaga |
Przykładowa niesymetryczność | Niesymetryczność kolumny; zobacz Uwaga |
Próbka Kurtosis | Kurtoza dla kolumny; zobacz Uwaga |
P0.5 | 0,5% percentyl |
P1 | 1% percentyl |
P5 | 5% percentyl |
P95 | 95% percentyl |
P99.5 | 99,5% percentyl |
Uwagi techniczne
W przypadku kolumn nieliczbowych obliczane są tylko wartości count( Liczba unikatowych wartości) i Missing value count (Liczba brakujących wartości). W przypadku innych statystyk zwracana jest wartość null.
Kolumny zawierające wartości logiczne są przetwarzane przy użyciu następujących reguł:
Podczas obliczania wartości Min jest stosowany logiczny element AND.
Podczas obliczania maksymalnej wartości logicznej LUB jest stosowany
Podczas przetwarzania zakresu składnik najpierw sprawdza, czy liczba unikatowych wartości w kolumnie wynosi 2.
Podczas przetwarzania dowolnej statystyki wymagającej obliczeń zmiennoprzecinkowych wartości True są traktowane jako 1.0, a wartości false są traktowane jako 0,0.
Następne kroki
Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.