Планирование затрат и управление ими для Фабрики данных Azure

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье описывается планирование затрат и управление ими для Фабрики данных Azure.

Во-первых, в начале проекта ETL вы используете сочетание цен Azure и калькуляторов использования цен на каждый конвейер, что помогает спланировать затраты на Фабрику данных Azure перед добавлением ресурсов в службу, чтобы оценить затраты. Затем, при добавлении ресурсов Azure, нужно проанализировать предполагаемые затраты. После того как вы начнете использовать ресурсы Фабрики данных Azure, используйте функции управления затратами для расчета бюджетов и отслеживания затрат. Кроме того, вы можете просматривать прогнозируемые затраты и выявлять тренды для затрат на выявление областей, где могут потребоваться действия. Затраты на Фабрику данных Azure входят в ежемесячные затраты в рамках счета на оплату использования Azure. Обратите внимание, что в этой статье описывается только планирование затрат на фабрику данных и управление ими. Плата взимается за все службы и ресурсы Azure, используемые в подписке Azure, включая сторонние службы.

Необходимые компоненты

Анализ затрат в службе управления затратами поддерживает большинство типов учетных записей Azure, но не все. Полный список поддерживаемых типов учетных записей см. в статье Understand Cost Management data (Интерпретация данных службы "Управление затратами"). Чтобы просмотреть данные о затратах, для учетной записи Azure нужен как минимум доступ на чтение. Дополнительные сведения о назначении доступа к данным службы "Управление затратами" Azure см. в этой статье.

Оценка затрат перед использованием Фабрики данных Azure

Чтобы оценить стоимость выполнения рабочей нагрузки извлечения, преобразования и загрузки в Фабрике данных Azure, используйте калькулятор цен Фабрики данных Azure. Чтобы использовать калькулятор, необходимо ввести такие сведения, как количество выполнения действий, количество часов интеграции данных, тип вычислительных ресурсов, используемых для Поток данных, количество ядер, количество экземпляров, длительность выполнения и т. д.

Одним из часто задаваемых вопросов для калькулятора цен заключается в том, какие значения следует использовать в качестве входных данных. На этапе эксперимента вы можете выполнять пробные запуски с помощью образцов наборов данных, чтобы понять потребление для различных единиц измерения Фабрики данных Azure. Затем на основе потребления примера набора данных можно проецируют потребление для полного набора данных и рабочего расписания.

Примечание.

Цены, используемые в этом примере ниже, являются гипотетическими и не предназначены для обозначения фактических цен.

Например, предположим, что вам нужно ежедневно перемещать 1 ТБ данных из AWS S3 в Azure Data Lake 2-го поколения. Вы можете провести эксперимент с перемещением 100 ГБ данных, чтобы измерить пропускную способность приема данных и оценить соответствующее потребление.

Ниже приведен пример сведений о выполнении действия копирования (фактический пробег зависит от формы конкретного набора данных, скорости сети, ограничений исходящего трафика для учетной записи S3, ограничений входящего трафика для ADLS 2-го поколения и других факторов).

S3 copy run

С помощью мониторинга потребления на уровне выполнения конвейера можно просмотреть соответствующие объемы потребления счетчиков перемещения данных:

S3 copy pipeline consumption

Таким образом, общее число DIU-часов, затрачиваемых на перемещение 1 ТБ в день за весь месяц, равно:

1,2667 (DIU-часы) * (1 ТБ/100 ГБ) * 30 (дни в месяце) = 380 DIU-часов

Теперь вы можете ввести 30 выполнений действий и 380 DIU-часов в калькулятор цен для Фабрики данных Azure, чтобы получить оценку ежемесячного счета:

S3 copy pricing calculator

Сведения о полной модели выставления счетов для Фабрики данных Azure

Фабрика данных Azure работает в инфраструктуре Azure, в которой затраты начисляются при развертывании нового ресурса. Важно понимать, что другие дополнительные затраты на инфраструктуру могут начисляться.

Как выставляются счета за Фабрику данных Azure

Фабрика данных Azure — это бессерверная и эластичная служба интеграции данных, предназначенная для применения в облаке. Нет вычислительных ресурсов фиксированного размера, которые необходимо планировать для пиковой нагрузки; вместо этого вы указываете, сколько ресурсов выделяется по требованию для каждой операции, что позволяет создавать процессы ETL гораздо более масштабируемым образом. Кроме того, Фабрика данных Azure оплачивается по плану, основанному на потреблении, что означает, что вы платите только за то, что используете.

При создании или использовании ресурсов Фабрики данных Azure вы можете получить счета за следующее.

  • Запуски действия оркестрации. Плата за нее взимается в зависимости от количества операций, выполняемых оркестрацией.
  • Интеграция данных часов единиц (DIU) — для действий копирования, выполняемых в среде выполнения интеграции Azure, плата взимается в зависимости от количества используемых и длительности выполнения diU.
  • Часы виртуальных ядер — для выполнения и отладки потока данных взимается плата за использование типа вычислений, количества виртуальных ядер и длительности выполнения.

По окончании цикла выставления счетов плата за каждый показатель будет суммироваться. В счете отображается раздел "Итого" для всех затрат Фабрики данных Azure. Для каждого показателя имеется отдельный элемент строки.

Другие расходы, которые могут возникнуть в результате использования Фабрики данных Azure

При создании ресурсов для Фабрики данных Azure (ADF) также создаются ресурсы для других служб Azure. К ним относятся:

  • Выполнение действия конвейера
  • Выполнение действия внешнего конвейера
  • Создание, изменение, получение и мониторинг артефактов фабрики данных
  • Продолжительность SSIS Integration Runtime (IR) на основе типа экземпляра и длительности

Примечание.

Вы можете назначить один и тот же тег для ресурсов ADF и других ресурсов Azure, поместив их в одну категорию для просмотра объединенных счетов за их использование. Тег ADF будет унаследован всеми средами выполнения интеграции SSIS в этой службе. Если вы измените тег ADF, необходимо будет отключить и перезапустить все среды выполнения интеграции SSIS в этой службе, чтобы они унаследовали новый тег. Ознакомьтесь с разделом Перенастройка среды выполнения интеграции Azure SSIS.

Использование предоплаты Azure с Фабрикой данных Azure

Вы можете платить за использование Фабрики данных Azure с помощью кредитного платежа Azure. Однако нельзя использовать кредит на предоплату Azure для оплаты продуктов и услуг сторонних производителей, включая услуги из Azure Marketplace.

Мониторинг затрат

Фабрика данных Azure затраты можно отслеживать на уровнях выполнения конвейера, конвейера и активности.

Мониторинг затрат на уровне фабрики с помощью анализа затрат

При использовании ресурсов Azure с Фабрикой данных взимается плата. Затраты на единицу использования ресурсов Azure учитываются в зависимости от временных интервалов (секунды, минуты, часы и дни) или потребления на единицу измерения (байты, мегабайты и т. д.). С началом использования ресурсов в Фабрике данных начинает начисляться оплата и вы можете просмотреть затраты в разделе Анализ затрат.

При использовании анализа затрат вы можете просматривать затраты на Фабрику данных в виде графиков и таблиц для различных временных интервалов. Например, можно отслеживать данные за день, текущий и предыдущий месяц и год. Вы также можете просматривать затраты по бюджету и прогнозируемые затраты. Чтобы выявить тенденции по затратам, можно выбрать представления затрат в динамике за более длительный срок. Это позволяет определить, где возможен перерасход средств. Если вы создали бюджеты, можно легко увидеть, где наблюдается перерасход по бюджетам.

Порядок просмотра затрат на Фабрику данных в разделе анализа затрат

  1. Войдите на портал Azure.
  2. Откройте необходимую область портала Azure и выберите в меню пункт Анализ затрат. Например, перейдите к разделу Подписки, выберите подписку из списка и щелкните в меню Анализ стоимости. Выберите Область, чтобы перейти в другую область анализа затрат.
  3. По умолчанию стоимость служб отображается на первой кольцевой диаграмме. Выберите область диаграммы с меткой "Фабрика данных Azure версии 2".

Фактические затраты за месяц отображаются при первом открытии анализа затрат. Ниже приведен пример, где показаны все ежемесячные затраты на использование.

Example showing accumulated costs for a subscription

  • Чтобы уменьшить затраты на отдельную службу, например Фабрику данных, выберите Добавить фильтр и Имя службы. Затем выберите Фабрика данных Azure версии 2.

Ниже приведен пример, где показаны затраты только для Фабрики данных.

Example showing accumulated costs for ServiceName

В предыдущем примере показаны текущие затраты на службу. Также показаны затраты по регионам Azure (расположениям) и затраты на Фабрику данных по группам ресурсов. Здесь можно самостоятельно изучить затраты.

Мониторинг затрат на уровне конвейера с помощью анализа затрат

В некоторых случаях может потребоваться детализированное распределение затрат на операции в нашей фабрике, например, в целях обратной оплаты. Интеграция платформы анализа затрат на выставление счетов Azure фабрика данных может разделить расходы на выставление счетов для каждого конвейера. Выбрав Фабрика данных Azure подробные отчеты о выставлении счетов для фабрики, вы можете лучше понять, сколько стоит каждый конвейер, в пределах указанной выше упоминание фабрики.

Вам нужно принять участие в каждой фабрике, для которой требуется подробное выставление счетов. Чтобы включить функцию выставления счетов для каждого конвейера, выполните следующие действия.

  1. Перейдите на портал Фабрика данных Azure
  2. На вкладке "Управление" выберите параметр "Фабрика" в разделе "Общие "
  3. Выбор отчета о выставлении счетов по конвейеру
  4. Публикация изменения

Screenshot of steps to enable per pipeline billing feature.

Примечание.

Подробные параметры выставления счетов конвейера не включены в экспортированные шаблоны ARM из фабрики. Это означает, что непрерывная интеграция и доставка (CI/CD) не перезаписывает поведение выставления счетов для фабрики. Это позволяет задать различные варианты выставления счетов для разработки, тестирования и производственных фабрик.

После включения функции каждый конвейер будет иметь отдельную запись в отчете о выставлении счетов: он показывает , сколько стоит каждый конвейер, в выбранном интервале времени. Он позволяет определить тенденции расходов и заметить превышение расходов, если это произошло.

Screenshot of example showing granular cost for a pipeline.

Используя средства графирования анализа затрат, вы получаете аналогичные диаграммы и линии тенденций, как показано выше, но для отдельных конвейеров. Вы также получаете представление сводки по имени фабрики, так как имя фабрики включается в отчет о выставлении счетов, что позволяет правильно фильтровать при необходимости.

Изменение влияет только на то, как счета создаются вперед, и не изменяет прошлые расходы. Предоставьте некоторое время перед заполнением отчета о выставлении счетов: как правило, изменения отражаются в течение 1 дня.

Предупреждение

При выборе параметра выставления счетов будет одна запись для каждого конвейера в фабрике. Обратите особое внимание, если у вас слишком много конвейеров в фабрике, так как это может значительно продлить и усложнить отчет о выставлении счетов.

Ограничения

Ниже приведены известные ограничения для каждого компонента выставления счетов конвейера. Эти счетчики выставления счетов не будут файловать под конвейером, который его спинирует, но вместо этого будет файл под резервным элементом линии для вашей фабрики.

Мониторинг потребления на уровне запуска конвейера в Фабрика данных Azure

В зависимости от типов действий, которые вы используете в конвейере, сколько данных вы перемещаете и преобразуете, а также сложность преобразования, выполнение конвейера будет спиной различных счетчиков выставления счетов в Фабрика данных Azure.

Вы можете просмотреть объем потребления для разных единиц измерения для отдельных запусков конвейера в пользовательском интерфейсе Фабрики данных Azure. Чтобы открыть интерфейс мониторинга, выберите плитку Мониторинг и управление в колонке фабрики данных на портале Azure. Если вы уже находитесь в пользовательском интерфейсе ADF, выберите значок монитора на левой боковой панели. Представление мониторинга по умолчанию представляет собой список запусков конвейеров.

При нажатии кнопки Потребление рядом с именем конвейера отображается всплывающее окно, показывающее потребление для запуска конвейера, агрегированное по всем действиям в конвейере.

Pipeline run consumption

Pipeline consumption details

В представлении потребления запуска конвейера отображается сумма, используемая для каждого счетчика ADF для конкретного запуска конвейера, но она не показывает фактическую стоимость, так как сумма, выставленная вам, зависит от типа учетной записи Azure и типа используемой валюты. Полный список поддерживаемых типов учетных записей см. в статье Understand Cost Management data (Интерпретация данных службы "Управление затратами").

Мониторинг потребления на уровне выполнения действий в Фабрика данных Azure

Если вы изучили агрегированное потребление на уровне выполнения конвейера, существуют сценарии, в которых необходимо выполнить дальнейшую детализацию и определить, какое из действий в конвейере является наиболее дорогостоящим.

Чтобы просмотреть потребление на уровне выполнения действий, перейдите в раздел Создание и мониторинг пользовательского интерфейса фабрики данных. На вкладке "Монитор", где отображается список запусков конвейера, выберите ссылку на имя конвейера, чтобы получить доступ к списку действий, выполняемых в выполнении конвейера. Нажмите кнопку "Вывод" рядом с именем действия и найдите свойство billableDuration в выходных данных JSON:

Ниже приведен пример выполнения действия копирования:

Copy output

Ниже приведен пример выполнения действия сопоставления Поток данных.

Dataflow output

Создание бюджетов

Вы можете создать бюджеты, чтобы управлять затратами и создавать оповещения, которые автоматически уведомляют заинтересованные лица о нетипичных и чрезмерных затратах. Оповещения основываются на расходах по сравнению с пороговыми значениями бюджета и затрат. Бюджеты и оповещения создаются для подписок и групп ресурсов Azure, поэтому их рекомендуется использовать в рамках общей стратегии мониторинга затрат.

Бюджеты можно создавать с использованием фильтров для конкретных ресурсов или служб в Azure, если требуется дополнительная детализация результатов мониторинга. Фильтры помогают предотвратить случайное создание новых ресурсов, позволяя избежать дополнительных затрат. Дополнительные сведения о параметрах фильтра при создании бюджета см. в разделе Параметры группы и фильтра.

Экспорт данных о затратах

Можно также экспортировать данные о затратах в учетную запись хранения. Это полезно, если вам нужно или другие пользователи выполнять другие анализы данных для затрат. Например, специалисты по финансам могут анализировать данные с помощью Excel или Power BI. Можно экспортировать данные о затратах ежедневно, еженедельно или ежемесячно и задать настраиваемый диапазон дат. Экспорт данных по затратам — это рекомендуемый способ извлечения неагрегированных данных о затратах.