Обрезка значений

Обнаруживает выбросы и отсекает или заменяет их значение

Категория: Преобразование или масштабирование данных и снижение

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль " значения Clip " в машинное обучение Azure Studio (классическая модель) для обнаружения и, при необходимости, замены значений данных, которые выше или ниже указанного порогового значения. Это полезно, если требуется удалить выбросы или заменить их средним значением, константой или другим замещающим значением.

Модуль подключается к набору данных с числами, которые необходимо обрезать, выберите столбцы для работы, а затем установите пороговое значение или диапазон значений и метод замены. Модуль может выводить либо только результаты, либо измененные значения, добавленные к исходному набору данных.

Настройка значений обрезки

Перед началом работы укажите столбцы, которые нужно вырезать, и используемый метод. Рекомендуется сначала протестировать любой метод обрезки на небольшом подмножестве данных.

Модуль применяет те же критерии и метод замены ко всем столбцам, которые включаются в выбор. Поэтому не забудьте исключить столбцы, которые не нужно изменять.

Если необходимо применить методы обрезки или другие критерии к некоторым столбцам, необходимо использовать новый экземпляр значений Clip для каждого набора схожих столбцов.

  1. Добавьте модуль " фрагменты значений " в эксперимент и подключите его к набору данных, который необходимо изменить. Этот модуль можно найти в разделе " Преобразование данных" в категории " Масштаб" и "уменьшить ".

  2. В списке столбцов с помощью селектора столбцов выберите столбцы, к которым будут применяться значения обрезки .

  3. Для набора пороговых значений выберите один из следующих параметров в раскрывающемся списке. Эти параметры определяют, как задаются верхние и нижние границы для допустимых значений и значений, которые должны быть обрезаны.

    • Клиппеакс: при отсечении значений по пиковым значениям указывается только верхняя граница. Значения, превышающие это значение границы, заменяются или удаляются.

    • Клипсубпеакс: при отсечении значений по подпикам можно указать только нижнюю границу. Значения, меньшие, чем это граничное значение, заменяются или удаляются.

    • Клиппеаксандсубпеакс: при отсечении значений по пиковым и промежуточным пиковым значениям можно указать и верхнюю, и нижнюю границы. Значения, находящиеся за пределами этого диапазона, заменяются или удаляются. Значения, соответствующие граничных значениям, не изменяются.

  4. В зависимости от выбора на предыдущем шаге можно задать следующие пороговые значения:

    • Нижнее пороговое значение: отображается только при выборе клипсубпеакс
    • Верхний порог: отображается только при выборе клиппеакс
    • Пороговое значение: отображается только при выборе клиппеаксандсубпеакс

    Для каждого типа порогового значения выберите значение константа или процентиль.

  5. При выборе константы введите максимальное или минимальное значение в текстовом поле. Например, предположим, что значение 999 было использовано в качестве значения заполнителя. Можно выбрать константу для верхнего порога и ввести 999 в качестве постоянного значения верхнего порога.

  6. Если выбрать процентиль, то значения столбцов будут ограничены диапазоном процентилей.

    Например, предположим, что нужно удержать только значения в диапазоне 10-80 процентиль и заменить все остальные. Выберите процентиль, а затем введите 10 для значения процентиля нижнего порога и введите 80 для значения процентиля верхнего порога.

    Некоторые примеры использования диапазонов процентилей см. в разделе процентили .

  7. Определите заменяющее значение.

    Числа, которые точно соответствуют заданным вами границам, считаются в пределах допустимого диапазона значений и поэтому не заменяются или удаляются. Все числа, которые выходят за пределы указанного диапазона, заменяются замещающим значением.

    • Замещающее значение для пиковых значений: определяет значение, которое необходимо заменить на все значения столбцов, превышающие указанный порог.
    • Замещающее значение для подграничных нагрузок: определяет значение, которое будет использоваться в качестве замены для всех значений столбцов, которые меньше указанного порогового значения.
    • При использовании параметра клиппеаксандсубпеакс можно указать отдельные замещающие значения для верхних и нижних обрезанных значений.

    Поддерживаются следующие значения замены:

    • Пороговое значение: заменяет обрезанные значения указанным пороговым значением.

    • Среднее: заменяет обрезанные значения средними значениями столбцов. Среднее значение вычисляется до усечения значений.

    • Медиана: заменяет обрезанные значения медианы значений столбцов. Медиана вычисляются до усечения значений.

    • Отсутствует. Заменяет обрезанные значения на отсутствующее (пустое) значение.

  8. Добавить столбцы индикаторов: Выберите этот параметр, если нужно создать новый столбец, сообщающий о том, применена ли указанная операция обрезки к данным в этой строке. Этот параметр особенно удобен при тестировании нового набора значений обрезки и подстановки.

  9. Флаг перезаписи: указывает, как должны создаваться новые значения. По умолчанию значения отсечения создают новый столбец с пиковыми значениями, обрезанными до желаемого порогового значения. Новые значения перезапишут исходный столбец.

    Для сохранения исходного столбца и добавления нового столбца с обрезанными значениями снимите этот флажок.

  10. Запустите эксперимент.

    Щелкните правой кнопкой мыши выходные данные модуля " значения клипов " и выберите команду визуализировать , чтобы просмотреть значения и убедиться, что операция обрезки удовлетворена вашими ожиданиями.

Примеры

Сведения о том, как этот модуль используется в экспериментах машинного обучения, см. в Коллекция решений ии Azure:

  • В лесу срабатывают выбросы. Этот пример из EdX каусе в обработке и анализа данных демонстрирует методы обрезки, использующие лес, запускает пример набора данных.

Обрезка с помощью процентили

Для понимания отсечения по процентилям рассмотрим набор данных с 10 строками, имеющих по одному экземпляру каждого значения от 1 до 10.

  • При использовании 90-й процентили в качестве верхнего порога 90 % от всех значений в наборе данных должны быть меньше этого значения.

  • При использовании 10-й процентили в качестве нижнего порога 10 % от всех значений в наборе данных должны быть меньше этого значения.

  1. Для параметра Набор порогов выберите значение ClipPeaksAndSubPeaks.

  2. Для параметра Верхний порог выберите Процентиль, а для параметра Номер процентили введите значение 90.

  3. Для параметра Верхнее заменяющее значение выберите Значение отсутствует.

  4. Для параметра Нижний порог выберите Процентиль, а для параметра Номер процентили введите значение 10.

  5. Для параметра Нижнее заменяющее значение выберите Значение отсутствует.

  6. Снимите флажок Перезапись и выберите параметр Добавить столбец индикации.

Теперь повторите тот же эксперимент, установив значение 60 для верхнего процентильного порога, 30 для нижнего процентильного порога и использовав пороговое значение в качестве заменяющего. Полученные результаты сравниваются в следующей таблице.

  1. Замена на отсутствие значения; верхний порог = 90; нижний порог = 10

  2. Замена пороговым значением; верхняя процентиль = 60; нижняя процентиль = 30

Исходные данные Замена на отсутствие значения Замена пороговым значением
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, ЛОЖЬ

5, ЛОЖЬ

6, ЛОЖЬ

7, ЛОЖЬ

8, ЛОЖЬ

9, ЛОЖЬ

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, ЛОЖЬ

6, ЛОЖЬ

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Технические примечания

  • Значения обрезки можно использовать только для столбцов, содержащих числа или значения даты-времени.

  • При включении столбцов, содержащих текст или категориальные данные, эти столбцы будут пропущены.

  • При вычислении среднего арифметического или медианы столбца недостающие значения игнорируются.

  • Модуль Значения отсечения не поддерживает порядковых данных.

  • Недостающие значения не изменяются при передаче в выходной набор данных. Столбец, обозначающий усеченные значения, всегда содержит FALSE для недостающих значений.

Ожидаемые входные данные

Имя Type Описание
Набор данных Таблица данных Входной набор данных

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Добавить столбцы индикации True или false Логическое Ложь. Требуется ли добавить индикатор для обрезки значения
Постоянное значение нижнего порогового значения any Float -1 Значение, под которым будут обрезаны подпики
Постоянное значение верхнего порогового значения any Float 1 Значение, над которым будут обрезаны пиковые значения
Постоянное значение нижнего порогового значения any Float -1 Значение, под которым обрезаются подпики
Постоянное значение верхнего порогового значения >= 1 Float 1 Значение, над которым обрезаются пиковые значения
Список столбцов Выбор столбцов Список столбцов для обрезки
Нижнее значение замены Порог

Среднее значение

Median

Missing
субститутевалуес Порог Значение, используемое для обрезки подпиковых значений
Нижнее пороговое значение Константа

Процентиль
Режим порогового значения Константа Значение, которое будет обрезано по отношению к пиковым значениям
Флажок перезаписи True или false Логическое TRUE Должны ли столбцы с усеченными данными перезаписывать столбцы входных данных
Процентиль нижнего порогового значения [1; 99] Целое число 1 Значение процентиля, под которым будут обрезаны подпики
Процентиль верхнего порогового значения [1; 99] Целое число 99 Величина процентиля, над которой будут обрезаны пиковые значения
Процентиль нижнего порогового значения [1; 99] Целое число 1 Значение процентиля, под которым обрезаются подпики
Процентиль верхнего порогового значения [1; 99] Целое число 99 Величина процентиля, над которой обрезаются пиковые значения
Набор пороговых значений клиппеакс

клипсубпеакс

клиппеаксандсубпеакс
Пороговый набор клиппеакс Указывает тип порогового значения для использования
Значение замены для пиков Порог

Среднее значение

Median

Missing
субститутевалуес Порог Значение, используемое при обрезке пиковых значений
Значение замены для субпиков Порог

Среднее значение

Median

Missing
субститутевалуес Порог Значение, используемое во время обрезки подпиковых значений
Порог Константа

Процентиль
Режим порогового значения Константа Значение выше и ниже, в которых пиковые значения будут обрезаны
Верхнее значение замены Порог

Среднее значение

Median

Missing
Порог Порог Значение, используемое для обрезки пиковых значений
Верхнее пороговое значение Константа

Процентиль
Режим порогового значения Константа Значение, для которого пиковые значения будут отсечены

Выходные данные

Имя Type Описание
Набор данных результатов Таблица данных Набор данных с усеченными столбцами

Исключения

Исключение Описание
Ошибка 0011 Исключение возникает, если переданный аргумент набора столбцов не применяется к любому из столбцов набора данных.
Ошибка 0017 Исключение возникает, если один или несколько указанных столбцов относятся к типу, который не поддерживается в текущем модуле.

Список ошибок, относящихся к модулям студии (классическая версия), см. в разделе машинное обучение коды ошибок.

Список исключений API см. в разделе Машинное обучение REST API коды ошибок.

См. также раздел

Масштабирование и уменьшение
Список модулей в алфавитном порядке