Podsumowywanie danych

W tym artykule opisano składnik projektanta usługi Azure Machine Learning.

Użyj składnika Summarize Data (Podsumowanie danych), aby utworzyć zestaw standardowych miar statystycznych opisujących każdą kolumnę w tabeli wejściowej.

Statystyki podsumowania są przydatne, gdy chcesz zrozumieć charakterystykę kompletnego zestawu danych. Na przykład może być konieczne poznanie następujących informacji:

  • Ile brakujących wartości znajduje się w każdej kolumnie?
  • Ile unikatowych wartości znajduje się w kolumnie funkcji?
  • Jaka jest średnia i odchylenie standardowe dla każdej kolumny?

Składnik oblicza ważne wyniki dla każdej kolumny i zwraca wiersz statystyk podsumowania dla każdej zmiennej (kolumny danych) podanej jako dane wejściowe.

Jak skonfigurować dane podsumowania

  1. Dodaj składnik Summarize Data (Podsumowanie danych ) do potoku. Ten składnik można znaleźć w kategorii Funkcje statystyczne w projektancie.

  2. Połącz zestaw danych, dla którego chcesz wygenerować raport.

    Jeśli chcesz raportować tylko niektóre kolumny, użyj składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych), aby utworzyć podzestaw kolumn do pracy.

  3. Nie są wymagane żadne dodatkowe parametry. Domyślnie składnik analizuje wszystkie kolumny dostarczane jako dane wejściowe, a w zależności od typu wartości w kolumnach generuje odpowiedni zestaw statystyk zgodnie z opisem w sekcji Wyniki .

  4. Prześlij potok.

Wyniki

Raport ze składnika może zawierać następujące statystyki.

Nazwa kolumny Opis
Funkcja Nazwa kolumny
Count Liczba wszystkich wierszy
Liczba unikatowych wartości Liczba unikatowych wartości w kolumnie
Brak liczby wartości Liczba unikatowych wartości w kolumnie
Min Najniższa wartość w kolumnie
Max Najwyższa wartość w kolumnie
Oznacza Średnia wszystkich wartości kolumn
Odchylenie średnie Średnie odchylenie wartości kolumn
1 kwartyl Wartość na początku kwartylu
Mediana Mediana wartości kolumny
Trzeci kwartyl Wartość na trzecim kwartylu
Tryb Tryb wartości kolumn
Zakres Liczba całkowita reprezentująca liczbę wartości między wartościami maksymalnymi i minimalnymi
Przykładowa wariancja Wariancja dla kolumny; zobacz Uwaga
Przykładowe odchylenie standardowe Odchylenie standardowe dla kolumny; zobacz Uwaga
Przykładowa niesymetryczność Niesymetryczność kolumny; zobacz Uwaga
Próbka Kurtosis Kurtoza dla kolumny; zobacz Uwaga
P0.5 0,5% percentyl
P1 1% percentyl
P5 5% percentyl
P95 95% percentyl
P99.5 99,5% percentyl

Uwagi techniczne

  • W przypadku kolumn nieliczbowych obliczane są tylko wartości count( Liczba unikatowych wartości) i Missing value count (Liczba brakujących wartości). W przypadku innych statystyk zwracana jest wartość null.

  • Kolumny zawierające wartości logiczne są przetwarzane przy użyciu następujących reguł:

    • Podczas obliczania wartości Min jest stosowany logiczny element AND.

    • Podczas obliczania maksymalnej wartości logicznej LUB jest stosowany

    • Podczas przetwarzania zakresu składnik najpierw sprawdza, czy liczba unikatowych wartości w kolumnie wynosi 2.

    • Podczas przetwarzania dowolnej statystyki wymagającej obliczeń zmiennoprzecinkowych wartości True są traktowane jako 1.0, a wartości false są traktowane jako 0,0.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.