Основные сведения о требованиях для модели временных рядов (учебник по интеллектуальному анализу данных — средний уровень)

Данные для модели прогнозирования при подготовке должны содержать один столбец, который может быть использован для идентификации этапов временных рядов. Этот столбец будет обозначаться Key Time. Этот столбец является ключом и должен содержать уникальные числовые значения.

Правильный выбор единицы для столбца Key Time является важной частью анализа. Например, пусть данные о продажах обновляются каждую минуту. В качестве единицы временного ряда не обязательно использовать минуты. Более разумно будет сводить данные о продажах по дням, неделям или месяцам. Если непонятно, какую единицу времени следует использовать, можно создать новое представление источника данных для каждого статистического выражения и построить связанные модели, чтобы посмотреть, не появляются ли разные тренды на каждом уровне статистической обработки.

В этом учебнике данные о продажах собираются ежедневно и заносятся в транзакционную базу данных продаж, но для интеллектуального анализа данные заранее объединены по месяцам с использованием представления.

Кроме того, для анализа желательно, чтобы в данных было как можно меньше промежутков. Если планируется анализ нескольких рядов данных, то желательно, чтобы все ряды начинались с одной даты и заканчивались одной датой. Если в данных имеются промежутки (кроме как в начале и в конце ряда), то для заполнения ряда можно использовать параметр MISSING_VALUE_SUBSTITUTION. Службы Службы Analysis Services также предоставляют несколько возможностей замены отсутствующих данных средними значениями или константами.

ПредупреждениеВнимание!

Сводная диаграмма и сводная таблица, входившие в предыдущие версии конструктора представлений источников данных, больше не предоставляются. Рекомендуется заранее выявить промежутки в данных временных рядов, используя профилировщик данных, входящий в состав служб Службы Integration Services, и другие средства.

Идентификация ключа времени для модели прогнозирования

  1. На панели SalesByRegion.dsv [Design] щелкните правой кнопкой мыши таблицу vTimeSeries и выберите команду Просмотр данных.

    Откроется новая вкладка, озаглавленная Просмотр таблицы vTimeSeries.

  2. На вкладке Таблица просмотрите используемые данные в столбцах TimeIndex и Reporting Date.

    Оба столбца представляют собой последовательности уникальных значений. Любой из них может служить ключом временного ряда, однако типы данных в этих столбцах различаются. Алгоритм временных рядов (Майкрософт) не требует наличия типа данных datetime, необходимо только, чтобы значения были отличающимися и упорядоченными. Поэтому в качестве ключа времени для модели прогнозирования может быть использован любой столбец.

  3. В области конструктора представлений источников данных выберите столбец Reporting Date и выберите пункт Свойства. Затем щелкните столбец TimeIndex и выберите пункт Свойства.

    Поле TimeIndex имеет тип данных System.Int32, а поле Reporting Date имеет тип данных System.DateTime. Во многих хранилищах данных значения даты и времени преобразуются в целые числа, и целочисленный столбец служит ключом, что повышает производительность индексирования. Однако если использовать такой столбец, то алгоритм временных рядов (Майкрософт) будет составлять прогнозы, используя значения из будущего: 201014, 201014 и т. д. Поскольку прогноз данных о продажах необходимо представить с использованием календарных дат, в качестве уникального идентификатора последовательности будет использоваться столбец Reporting Date.

Задание ключа в представлении источников данных

  1. На панели SalesByRegion.dsv выберите таблицу vTimeSeries.

  2. Щелкните правой кнопкой мыши столбец Reporting Date и выберите команду Задать логический первичный ключ.

Обработка отсутствующих данных (необязательно)

Если в каком-либо ряду имеются отсутствующие данные, то при попытке обработать модель может быть выдана ошибка. Устранить эту проблему можно несколькими способами.

  • Службы Analysis Services могут заполнить отсутствующее значение вычисленным средним или предыдущим значением. Для этого необходимо задать параметр MISSING_VALUE_SUBSTITUTION при создании модели интеллектуального анализа данных. Дополнительные сведения об этом параметре см. в разделе Технический справочник по алгоритму временных рядов (Майкрософт). Дополнительные сведения об изменении параметров в существующей модели интеллектуального анализа данных см. в разделе Просмотр или изменение параметров алгоритма.

  • Можно изменить источник данных или отфильтровать базовое представление, чтобы устранить неоднородность ряда или заменить значения. Это можно сделать в реляционном источнике данных. Также можно изменить представление источников данных, создавая пользовательские именованные запросы или именованные вычисления. Дополнительные сведения см. в разделе Представления источников данных в многомерных моделях. Последняя задача этого занятия представляет пример того, как построить именованный запрос и пользовательское вычисление.

В данном случае отсутствуют данные в начале одного ряда: для серии товара T1000 нет данных ранее июля 2007 г. Все ряды заканчиваются в одну дату, и других отсутствующих значений нет.

Требованием алгоритма временных рядов (Майкрософт) является необходимость совпадения конечной даты для всех рядов, включаемых в одну модель. Поскольку модель велосипеда T1000 появилась в 2007 г., данные для этого ряда начинаются позже, чем для других моделей велосипедов, но ряд заканчивается на ту же дату, поэтому данные являются приемлемыми.

Закрытие конструктора представлений источников данных

  • Щелкните правой кнопкой мыши вкладку Просмотр таблицы vTimeSeries и выберите Закрыть.

Следующая задача занятия

Создание структуры и модели прогнозирования (учебник по интеллектуальному анализу данных — средний уровень)

См. также

Основные понятия

Алгоритм временных рядов (Майкрософт)