Сведение данных

Создает отчет о базовой описательной статистике для столбцов в наборе данных

Категория: статистические функции

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается использование модуля « сведение данных » в машинное обучение Azure Studio (классическая модель) для создания набора стандартных статистических мер, описывающих каждый столбец во входной таблице.

Такая сводная статистика полезна, если вы хотите понять характеристики полного набора данных. Например, вам может понадобиться узнать:

  • Сколько недостающих значений есть в каждом столбце?
  • Сколько уникальных значений есть в столбце функции?
  • Каково среднее и стандартное отклонение для каждого столбца?

Модуль вычисляет важные оценки для каждого столбца и возвращает строку сводных статистических данных для каждой переменной (столбца данных), предоставленной в качестве входных.

Совет

Возможно, вы уже узнали, что вы можете получить краткий список статистических данных с помощью параметра визуализировать в студии (классическая модель). Однако эта визуализация создается на основе какого-либо верхнего числа строк. В отличие от этого модуль « Сводка данных » вычислит статистику по всем строкам данных.

Как использовать сводные данные

  1. Добавьте модуль суммирования данных в свой эксперимент. Этот модуль можно найти в категории статистические функции в студии (классическая модель).

  2. Подключите набор данных, для которого необходимо создать отчет.

    Если необходимо создать отчет по некоторым столбцам, используйте модуль Выбор столбцов в наборе данных для проецирования подмножества столбцов для работы.

  3. Дополнительные параметры не требуются. По умолчанию модуль анализирует все столбцы, предоставляемые как входные, и в зависимости от типа значений в столбцах выводит соответствующий набор статистических данных, как описано в разделе результатов .

  4. Запустите эксперимент или щелкните модуль правой кнопкой мыши и выберите пункт Выполнить выбранное.

Результаты

Отчет из модуля может включать следующую статистику.

  • Точная статистика, которая создается, зависит от типа данных столбца. Дополнительные сведения см. в разделе " Технические примечания ".

  • Предполагается, что экземпляры принадлежат репрезентативной выборки совокупности. Если необходимо вычислить статистику по Генеральной совокупности, используйте параметры в модуле Вычисление простейшей статистики , в котором можно вычислить статистику выборки или заполнения.

Имя столбца Описание
Возможность Имя столбца
Количество Число всех строк
Число уникальных значений Число уникальных значений в столбце
Число отсутствующих значений Число уникальных значений в столбце
Min Наименьшее значение в столбце
Max Наибольшее значение в столбце
Среднее Среднее значение всех столбцов
Среднее отклонение Среднее отклонение значений столбцов
1-й квартиль Значение при первом квартиль
Медиана Значение столбца медианы
3-й квартиль Значение третьего квартиль
Режим Режим значений столбца
Диапазон Целое число, представляющее количество значений между максимальным и минимальным значениями
Выборка дисперсии Дисперсия для столбца; см. Примечание
Пример стандартного отклонения Стандартное отклонение для столбца; см. Примечание
Выборка асимметрии Асимметрия для столбца; см. Примечание
Пример эксцесс Эксцесс для столбца; см. Примечание
P 0,5 0,5-процентный процентиль
Ниже 1-процентный процентиль
P5 5-процентный процентиль
P95 95-процентный процентиль
P 99,5 99,5-процентный процентиль

Совет

Выводит Статистический отчет в виде табличного набора данных, чтобы можно было использовать данные в средствах создания отчетов бизнес-аналитики или использовать значения в качестве входных данных для другой операции в эксперименте.

Примеры

Примеры использования модуля " сведение данных " в эксперименте см. в Коллекция решений ии Azure:

Технические примечания

  • Для числовых и логических столбцов можно вывести среднее значение, медиана, режим и стандартное отклонение.

  • Для нечисловых столбцов вычисляются только значения для Число, Число уникальных значений и Число отсутствующих значений. Для других статистических показателей возвращается значение NULL.

  • Столбцы, содержащие логические значения, обрабатываются с использованием следующих правил:

    • При вычислении Min применяется логический оператор "И".

    • При вычислении значения Max применяется логическое или

    • При вычислении Range модуль сначала проверяет, равно ли двум количество уникальных значений в столбце.

    • При вычислении любого статистического показателя, который требует вычислений с плавающей запятой, значения True принимаются равными 1,0, а значения False — 0,0.

Ожидаемые входные данные

Имя Type Описание
Набор данных Таблица данных Входной набор данных

Выходные данные

Имя Type Описание
Набор данных результатов Таблица данных Профиль входного набора данных, содержащего описательную статистику

Исключения

Исключение Описание
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0020 Исключение возникает, если количество столбцов в некоторых наборах данных, переданных модулю, слишком мало.
Ошибка 0021 Исключение возникает, если количество строк в некоторых наборах данных, переданных модулю, слишком мало.

Список ошибок, относящихся к модулям студии (классическая версия), см. в разделе машинное обучение коды ошибок.

Список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Статистические функции
Элементарная статистика вычислений