Podsumowywanie danych

Artykuł
06/01/2023

W tym artykule opisano składnik projektanta usługi Azure Machine Learning.

Użyj składnika Summarize Data (Podsumowanie danych), aby utworzyć zestaw standardowych miar statystycznych opisujących każdą kolumnę w tabeli wejściowej.

Statystyki podsumowania są przydatne, gdy chcesz zrozumieć charakterystykę kompletnego zestawu danych. Na przykład może być konieczne poznanie następujących informacji:

Ile brakujących wartości znajduje się w każdej kolumnie?
Ile unikatowych wartości znajduje się w kolumnie funkcji?
Jaka jest średnia i odchylenie standardowe dla każdej kolumny?

Składnik oblicza ważne wyniki dla każdej kolumny i zwraca wiersz statystyk podsumowania dla każdej zmiennej (kolumny danych) podanej jako dane wejściowe.

Jak skonfigurować dane podsumowania

Dodaj składnik Summarize Data (Podsumowanie danych ) do potoku. Ten składnik można znaleźć w kategorii Funkcje statystyczne w projektancie.
Połącz zestaw danych, dla którego chcesz wygenerować raport.

Jeśli chcesz raportować tylko niektóre kolumny, użyj składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych), aby utworzyć podzestaw kolumn do pracy.
Nie są wymagane żadne dodatkowe parametry. Domyślnie składnik analizuje wszystkie kolumny dostarczane jako dane wejściowe, a w zależności od typu wartości w kolumnach generuje odpowiedni zestaw statystyk zgodnie z opisem w sekcji Wyniki .
Prześlij potok.

Wyniki

Raport ze składnika może zawierać następujące statystyki.

Nazwa kolumny	Opis
Funkcja	Nazwa kolumny
Count	Liczba wszystkich wierszy
Liczba unikatowych wartości	Liczba unikatowych wartości w kolumnie
Brak liczby wartości	Liczba unikatowych wartości w kolumnie
Min	Najniższa wartość w kolumnie
Max	Najwyższa wartość w kolumnie
Oznacza	Średnia wszystkich wartości kolumn
Odchylenie średnie	Średnie odchylenie wartości kolumn
1 kwartyl	Wartość na początku kwartylu
Mediana	Mediana wartości kolumny
Trzeci kwartyl	Wartość na trzecim kwartylu
Tryb	Tryb wartości kolumn
Zakres	Liczba całkowita reprezentująca liczbę wartości między wartościami maksymalnymi i minimalnymi
Przykładowa wariancja	Wariancja dla kolumny; zobacz Uwaga
Przykładowe odchylenie standardowe	Odchylenie standardowe dla kolumny; zobacz Uwaga
Przykładowa niesymetryczność	Niesymetryczność kolumny; zobacz Uwaga
Próbka Kurtosis	Kurtoza dla kolumny; zobacz Uwaga
P0.5	0,5% percentyl
P1	1% percentyl
P5	5% percentyl
P95	95% percentyl
P99.5	99,5% percentyl

Uwagi techniczne

W przypadku kolumn nieliczbowych obliczane są tylko wartości count( Liczba unikatowych wartości) i Missing value count (Liczba brakujących wartości). W przypadku innych statystyk zwracana jest wartość null.
Kolumny zawierające wartości logiczne są przetwarzane przy użyciu następujących reguł:
- Podczas obliczania wartości Min jest stosowany logiczny element AND.
- Podczas obliczania maksymalnej wartości logicznej LUB jest stosowany
- Podczas przetwarzania zakresu składnik najpierw sprawdza, czy liczba unikatowych wartości w kolumnie wynosi 2.
- Podczas przetwarzania dowolnej statystyki wymagającej obliczeń zmiennoprzecinkowych wartości True są traktowane jako 1.0, a wartości false są traktowane jako 0,0.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.

Podsumowywanie danych

Jak skonfigurować dane podsumowania

Wyniki

Uwagi techniczne

Następne kroki

Dodatkowe zasoby