Рекомендации по оптимизации затрат на данные

Применяется к этой рекомендации по оптимизации затрат Azure Well-Architected Framework:

CO:10 Оптимизация затрат на данные. Расходы на данные с приоритетом данных. Оптимизация данных должна включать улучшения управления данными (распределения по уровням и хранения), тома, репликации, резервного копирования, форматов файлов и решений для хранения.

В этом руководстве описываются рекомендации по оптимизации затрат на данные для рабочей нагрузки. Оптимизация затрат на данные предполагает минимизацию затрат, связанных с хранением данных и управлением ими в соответствии с их значимостью и частотой доступа. Соответствующее управление данными может значительно сократить затраты и согласовать расходы с служебной программой данных. Пренебрежение оптимизацией затрат на данные может привести к завышению расходов, неэффективному распределению ресурсов и финансовым потерям из-за неправильной настройки решений для хранения и ненужного хранения данных.

Определения

Термин Определение
Управление жизненным циклом данных Процесс управления данными на протяжении всего жизненного цикла , от создания до удаления. Этот процесс включает в себя упорядочение, хранение, защиту и архивацию данных на основе их ценности и шаблонов использования.
Избыточность данных Практика хранения повторяющихся копий данных в нескольких системах хранения или расположениях. Целью избыточности данных является повышение доступности и отказоустойчивости данных.
Распределение данных по уровням Стратегия хранения, которая включает в себя классификацию данных на основе частоты доступа и их хранение на уровнях хранилища соответствующим образом.
Политика хранения Период, в течение которого данные должны храниться до их удаления. Он указывает период времени, в течение которого данные должны быть сохранены в соответствии с юридическими, нормативными или бизнес-требованиями.

Ключевые стратегии проектирования

В рамках определенной рабочей нагрузки вы оптимизируете затраты на данные, уменьшая затраты, связанные с хранением данных и управлением ими. Существуют различные стратегии и рекомендации по минимизации затрат на хранение и обработку данных. Цель — согласовать затраты на данные с приоритетом данных. Необходимо назначить уровни затрат типам данных на основе их важности или частоты доступа.

Основными факторами стоимости данных рабочей нагрузки являются частота доступа, задержка доступа и объем хранилища. Следующие рекомендации содержат стратегии оптимизации затрат в рамках этих факторов затрат.

Инвентаризация данных

Прежде чем оптимизировать затраты на данные, необходимо создать инвентаризацию данных. Изучите доступ к данным и определите его важность для рабочей нагрузки и ее операций. Определите, к каким данным обращается часто, а к каким — реже. Следующие действия инвентаризации помогут эффективно распределить ресурсы хранилища:

  • Сбор сведений о доступе к данным: Проведите аудит данных, чтобы определить и каталогизировать все хранилища данных. Определите ценность наборов данных на основе их важности для бизнес-операций, рентабельности инвестиций и частоты использования. Сбор журналов доступа, метрик использования или аналитики из решений для хранения данных.

  • Определение типов данных: Классифицируйте данные по их типу, например персональные данные, финансовые данные, интеллектуальную собственность или операционные данные. Понимание конфиденциальности и критичности каждого типа данных.

  • Определение шаблонов доступа: Определите шаблоны доступа к данным, например шаблоны ежедневного, еженедельного или ежемесячного использования. Вы должны понимать задержку, размеры файлов и требования к актуальности данных для данных.

Определение приоритета данных

Определение приоритетов данных — это процесс классификации и назначения уровней важности типам данных на основе конфиденциальности и важности. Приоритет данных должен соответствовать важности среды. Например, рабочие данные важнее, чем данные предварительной подготовки.

Оцените важность различных типов данных для рабочей нагрузки, выполнив следующие действия:

  1. Определите уровни приоритета: Установите уровни приоритета для данных (например, высокий, средний и низкий) на основе их ценности для организации, нормативных требований и потенциального влияния потери данных. Цель — согласовать приоритет данных с соответствующим решением.

  2. Назначение меток: Пометка каждого набора данных с учетом его конфиденциальности и важности. Метки можно применять на уровне строк, столбцов или файлов в зависимости от структуры данных и использования. Для баз данных можно использовать специальное средство для маркировки и связывания конфиденциальности и важности данных с конкретными строками и столбцами. Такой подход обеспечивает детальный контроль над управлением данными и доступом к ней.

Оптимизация управления данными

Управление данными — это процесс хранения, перемещения и защиты данных рабочей нагрузки. Оптимизируя управление данными, вы можете согласовать расходы с приоритетом данных и получить больше ценности от данных. Рассмотрим следующие стратегии управления данными.

Оптимизация управления жизненным циклом данных

Важно управлять данными на протяжении всего их жизненного цикла. Этапы жизненного цикла включают создание (или приобретение) данных, хранение, использование, совместное использование, хранение и удаление (удаление или архивация). Целью управления жизненным циклом данных является оптимизация решений для хранения данных при соблюдении соответствующих правил и политик.

Хранилище данных включает три критически важных компонента затрат:

  • Затраты на хранение. Расходы, связанные с хранением данных, например за гигабайт.

  • Затраты на транзакции. Затраты, связанные с операциями с данными, такими как операции записи, операции чтения и получение данных (за гигабайт). Затраты на чтение и запись данных могут быть разными.

  • Затраты на задержку. Расходы, связанные со скоростью или задержкой при доступе к данным.

Ниже приведены основные аспекты управления жизненным циклом данных.

  • Использование распределения по уровням данных: Целью распределения данных по уровням является согласование доступа и хранения с наиболее экономичным уровнем хранения. Уровни хранилища варьируются от частого или немедленного доступа (горячий) до редкого или отложенного доступа (холодный).

    Использование уровня, который не соответствует требованиям к доступу к данным и их хранению, стоит дороже. Например, данные, к которым часто обращается приложение, должны находиться в горячем хранилище. Данные, к которым приложение обращается редко, должны находиться в холодном хранилище. Эффективное управление этими аспектами помогает обеспечить эффективное хранение данных.

  • Рассмотрите требования к соответствию: Реализация распределения по уровням данных требует тщательного рассмотрения требований к соответствию и политик управления данными. Требования к соответствию требованиям и юридические требования часто управляют доступом к данным и их хранением. Установите политики хранения данных, чтобы обеспечить соответствие юридическим, нормативным и бизнес-требованиям.

  • Определите политики жизненного цикла данных. Политики жизненного цикла данных определяют, когда и как следует перемещать данные между уровнями хранилища на основе предопределенных критериев. Эти политики гарантируют, что данные будут храниться на соответствующем уровне в течение требуемого времени. Например, политика может указывать, что данные должны храниться на горячем уровне в течение 30 дней, на холодном уровне в течение 90 дней и на архивном уровне в течение одного года. Задайте срок хранения на основе таких факторов, как юридические требования, отраслевые правила или внутренние политики.

  • Использование автоматизации. Политики хранения могут активировать перемещение данных между уровнями. Прежде чем создавать пользовательское решение, политики следует автоматизировать с помощью функций платформы.

    По истечении срока хранения для определенного уровня политика может автоматически переместить данные на следующий уровень с более низкими затратами. Например, когда срок хранения для горячего уровня заканчивается, политика может переместить данные на холодный уровень. Политика гарантирует непрерывную оптимизацию данных на основе шаблонов доступа и требований к затратам.

Компромисс. Для управления политиками хранения данных требуется постоянный мониторинг и обслуживание. Это может привести к дополнительным затратам для процессов управления данными. Это также может повлиять на затраты на хранение. Более длительные сроки хранения или использование более дорогостоящих уровней хранения могут увеличить затраты на хранилище.

Риск. Плохая реализация управления жизненным циклом данных может привести к потере данных или ограниченному доступу к критически важным данным. Необходимо иметь надлежащие механизмы резервного копирования и восстановления, чтобы снизить риск потери данных.

Оптимизация сегментации данных

Оптимизация сегментации данных подразумевает стратегическое упорядочивание данных в отдельные сегменты и консолидацию похожих типов данных для эффективного выделения ресурсов хранилища. Это позволяет настроить выделение ресурсов хранилища в соответствии с приоритетом данных.

Чтобы эффективно оптимизировать сегментацию данных, необходимо классифицировать данные по типу и шаблону использования. Затем вы помещаете сегменты данных в наиболее эффективное решение в зависимости от их сходства и требований к эксплуатации. Например, данные, требующие высокой производительности, размещаются в ресурсах с более быстрым временем извлечения. Архивные данные используют ресурс с более низкой стоимостью с более медленным временем извлечения.

Такой подход гарантирует, что данные с высоким спросом используют более быстрое хранилище для обеспечения оптимальной производительности, а менее доступные данные — более дешевое хранилище. Аналогичным образом, если типы данных совместно используют шаблоны использования, их следует сгруппировать по одному ресурсу, чтобы сократить затраты, упростить управление и улучшить обработку данных.

Минимизация передачи данных

Минимизация передачи данных означает сокращение перемещения данных между сетями для снижения затрат на передачу данных. Это уменьшает объем данных, перемещаемых рабочей нагрузкой, и снижает плату за использование сети. Чтобы свести к минимуму передачу данных, примите во внимание следующие рекомендации.

  • Используйте правильное расположение. размещать данные географически ближе к пользователям. Близость данных сокращает сетевое перемещение, что ускоряет доступ и оптимизирует затраты.
  • Используйте кэширование. Рассмотрите преимущества кэширования, чтобы свести к минимуму передачу данных.
  • Используйте сеть доставки содержимого. Сеть доставки содержимого может хранить часто читаемые статические данные ближе к пользователям. Это сокращает перемещение данных по сети и помогает разгрузить использование пропускной способности.

Оптимизация безопасности и соответствия требованиям

Для некоторых рабочих данных требуются более высокие требования к безопасности и соответствию. Эти меры могут привести к дополнительным затратам, связанным с защитой данных, шифрованием, резервным копированием, хранением и аудитом.

Необходимо убедиться, что изменения в решениях для хранения данных соответствуют этим требованиям. Данные с более низкими требованиями к безопасности и соответствию часто позволяют оптимизировать затраты.

Оптимизация объема данных

Поиск стратегий уменьшения объема хранимых данных поможет снизить затраты. Изменив специальные возможности данных и реализовав следующие методы, можно эффективно оптимизировать объем хранимых данных:

  • Сбор меньшего объемов данных. Внимательно изучите данные, которые вы собираете. Определите, не требуется ли какое-либо из этих средств для ваших целей. Измените процесс, параметры или конфигурации, чтобы захватить только необходимые данные.

  • Сжатие данных. Сжатие экономит деньги за счет уменьшения размера данных. Это наиболее эффективно в сценариях однократной записи, чтения без чтения или редкого чтения. Он больше подходит для холодного хранения.

    Компромисс. Сжатие и распаковка данных увеличивают время ЦП.

  • Удаление ненужных данных. Реализуйте политики для упрощения процесса хранения соответствующей информации. Оцените срок хранения резервных копий и моментальных снимков и удалите ненужные данные. Вам может потребоваться процесс, который приведет к удалению данных в конечном итоге, например сначала архивировать данные и включить период обратимого удаления. Всегда учитывайте возможность восстановления перед удалением данных.

  • Дедупликация данных. Реализуйте методы дедупликации данных, чтобы исключить избыточные данные. Дедупликация снижает требования к хранилищу, обеспечивая хранение только уникальных блоков данных, что позволяет сократить затраты. Используйте алгоритмы хэширования и сравнение фрагментов данных. Регулярно запускайте процессы дедупликации для выявления и устранения повторяющихся данных.

  • Оптимизация поведения пользователей. В рабочих нагрузках, которые собирают данные, созданные пользователем, обучить пользователей важности эффективного хранения данных. Рекомендуется регулярно просматривать и удалять ненужные файлы и данные. Реализуйте квоты хранилища или модели ценообразования, которые препятствуют чрезмерному хранению данных.

Оптимизация репликации данных

Репликация данных включает создание нескольких копий данных и их хранение в других географических расположениях или зонах для обеспечения надежности. Репликация гарантирует, что если в одном расположении или зоне возникает сбой или сбой, вы по-прежнему сможете получить доступ к данным из реплицированных копий в других расположениях.

Такая избыточность помогает повысить доступность и устойчивость данных. Это позволяет свести к минимуму риск потери данных и простоя.

Чтобы оптимизировать репликацию данных для оптимизации затрат, примите во внимание следующие рекомендации.

  • Оценка требований к репликации данных. Оцените конкретные потребности рабочей нагрузки и определите требуемый уровень репликации данных. Учитывайте такие факторы, как критичность данных, целевые показатели времени восстановления (ОРВ) и целевые точки восстановления (RPO).

  • Выберите правильную стратегию репликации. Выберите технологию репликации, которая соответствует вашим целям по оптимизации затрат. Учитывайте требования соглашения об уровне обслуживания (SLA) для рабочей нагрузки.

    Оцените такие параметры, как синхронная репликация, асинхронная репликация или их сочетание. Решение следует основывать на таких факторах, как требования к согласованности данных и рекомендации по пропускной способности сети. Оцените уровень доступности, необходимый для рабочей нагрузки, и оцените потребность в зональной и региональной избыточности.

  • Оптимизация пропускной способности сети. Сведите к минимуму использование пропускной способности сети, реализовав методы сжатия и дедупликации данных. Эти методы позволяют сократить объем данных, передаваемых во время репликации, что позволяет сократить затраты.

  • Мониторинг и оптимизация частоты репликации. Регулярно проверяйте и корректируйте частоту репликации в зависимости от изменяющихся потребностей рабочей нагрузки. Точная настройка частоты репликации помогает оптимизировать затраты, уменьшая ненужные затраты на репликацию.

Оптимизация резервных копий

Резервная копия — это периодическая snapshot или копия данных, которую можно создавать и хранить отдельно от основного хранилища. При повреждении данных, случайном удалении или сбое системы можно использовать резервные копии для восстановления данных до предыдущего состояния.

Ниже приведены некоторые методы оптимизации резервных копий.

  • Классификация данных. Классификация данных на основе их важности и приоритета для резервного копирования. Классификация помогает сосредоточить ресурсы на резервном копировании критически важных данных, минимизируя затраты на резервное копирование менее важных данных.

  • Добавочное резервное копирование. Вместо того, чтобы каждый раз выполнять полное резервное копирование, рассмотрите возможность реализации добавочных резервных копий. Добавочные резервные копии фиксируют только изменения, внесенные с момента последнего резервного копирования, что может снизить требования к хранилищу и пропускной способности сети.

    Компромисс. Для восстановления данных для добавочного резервного копирования требуется больше действий и времени. Сначала необходимо восстановить полную резервную копию, а затем применить каждую добавочную резервную копию последовательно, пока не достигнете нужной точки восстановления.

  • Сжатие резервных копий. Включите сжатие во время процесса резервного копирования, чтобы уменьшить размер файлов резервных копий. Для сжатых резервных копий требуется меньше места на диске, что позволяет сократить затраты.

  • Уровни хранилища резервных копий. Оцените политики хранения резервных копий и рассмотрите возможность перемещения старых резервных копий на более экономичные уровни хранилища, такие как холодное хранилище или архивное хранилище. Хранение резервных копий с менее частым доступом в экономичных вариантах хранения помогает оптимизировать затраты.

  • Срок хранения резервных копий. Проверьте и скорректируйте сроки хранения резервных копий в соответствии с бизнес-требованиями и нормативными требованиями. Обслуживание резервных копий в течение более длительного времени может привести к дополнительным затратам на хранение.

  • Частота резервного копирования. Анализ частоты резервного копирования для различных типов данных. Настройте расписание резервного копирования в зависимости от частоты изменений данных и важности данных. Эти методики помогают исключить ненужные резервные копии и сократить затраты на хранение.

Оптимизация форматов файлов

Форматы файлов влияют на оптимизацию затрат, оптимизируя шаблоны ввода-вывода и шаблоны запросов к данным. Некоторые форматы файлов удовлетворяют определенным сценариям. Согласование формата файла с требованиями рабочей нагрузки может повысить производительность рабочей нагрузки.

Ниже приведены рекомендации по использованию распространенных форматов.

  • Avro. Формат файла Avro является хорошим выбором, если вы работаете с шаблонами ввода-вывода с интенсивным объемом записи или если для шаблонов запросов требуется получить несколько строк записей в полном объеме. Процессы сериализации и десериализации Avro эффективны, поэтому она совместима с шинами сообщений, такими как Kafka, которые быстро создают ряд событий и сообщений.

  • Parquet and Optimized Row Columnar (ORC): файлы Parquet и ORC форматируют Excel в сценариях шаблонов ввода-вывода с высокой интенсивностью чтения или когда шаблоны запросов сосредоточены на определенных столбцах записей.

    Оба формата являются хранилищем по столбцам, что означает, что данные хранятся по столбцам, а не по строкам. Хранилище столбцов обеспечивает улучшенное сжатие и эффективные операции чтения. Необходимо получить только необходимые столбцы, чтобы избежать ненужных операций ввода-вывода для нерелевантных данных.

Оптимизация решений хранилища

Оцените и выберите наиболее подходящие методы хранения и системы для ваших данных. Это может включать в себя переключение баз данных, использование различных типов хранилища или добавление механизмов кэширования. Простота управления — еще один фактор, который следует учитывать при выборе решения для хранения.

Адаптируя решения для хранения данных в соответствии с конкретными потребностями и характеристиками данных, вы можете добиться более эффективной стоимости при одновременном удовлетворении требований к производительности и масштабируемости. Существуют затраты, связанные с переключением баз данных или переключением служб, но хранение данных в неправильном решении для хранения может стоить вам дополнительных затрат.

Вот несколько вариантов использования:

  • Переключение баз данных. Можно рассмотреть возможность переключения на систему баз данных, которая лучше соответствует вашим потребностям. Например, если вы используете реляционную базу данных, можно изучить возможность перехода в базу данных NoSQL, если данные более ориентированы на документы или требуют гибких схем.

  • Переход из реляционной базы данных в хранилище неструктурированных файлов. В некоторых случаях хранение данных в неструктурированных файлах вместо традиционной реляционной базы данных может обеспечить такие преимущества, как простота и экономичность. Неструктурированные файлы хорошо подходят для определенных типов данных, таких как файлы журналов или данные, которые не требуют сложных запросов. Например, двоичные образы можно хранить в базе данных SQL, но более экономично хранить их в службе хранилища, которая специально для обработки двоичных данных.

  • Переход от инфраструктуры как услуги (IaaS) к платформе как услуге (PaaS): решения для баз данных IaaS могут отнимать много времени и ресурсоемкие свойства, которые отвлекают внимание технической команды от основных задач. Увеличение объема данных и проблемы масштабирования вручную, резервного копирования и обслуживания инфраструктуры могут сделать решение PaaS более экономичным и эффективным.

  • Добавление кэша. Чтобы сократить использование ресурсов на сервере базы данных main, рассмотрите возможность использования решения кэша для кэширования результатов сложных запросов. Выбор прав сервера базы данных может помочь в оптимизации затрат. В применимых вариантах использования рассмотрите возможность использования срока жизни (TTL) с кэшируемыми данными, чтобы уменьшить потребности в хранилище и снизить затраты.

  • Оптимизированные для запросов хранилища и хранилища данных. Оптимизированные для запросов хранилища предназначены для быстрого извлечения и анализа данных. Они сосредоточены на быстром приеме и чтении данных, но не на частых обновлениях. Они отлично подходят для данных временных рядов и быстрого доступа к последним данным, но не для выполнения больших транзакционных задач.

    Хранилища данных обрабатывают большие объемы гибких данных, особенно неструктурированных или полуструктурированных данных. Хотя хранилища данных могут поддерживать аналитику, сложным задачам могут потребоваться специализированные базы данных. Они лучше всего используются для хранения большого количества переменных данных, таких как журналы или пользовательское содержимое, в таких сценариях, как Варианты использования NoSQL.

Упрощение azure

Инвентаризация данных. Microsoft Purview — это семейство решений по управлению данными, рискам и соответствию требованиям, которые могут помочь вашей организации управлять, защищать и управлять всем пространством данных. Решения Microsoft Purview обеспечивают интегрированное покрытие и помогают устранить недавнее увеличение возможностей удаленного подключения пользователей, фрагментацию данных в организациях и размытие традиционных ролей ит-управления.

Оптимизация управления данными. Служба хранилища Azure и Azure Data Lake Storage имеют разные уровни доступа к данным. Они также предлагают политики управления жизненным циклом данных , которые автоматизируют распределения по уровням и хранения данных.

Политику на основе правил можно использовать для переноса данных BLOB-объектов на соответствующие уровни доступа или для истечения срока действия данных в конце их жизненного цикла. Эта политика позволяет сразу же переходить большие двоичные объекты с холодного (или холодного) на горячий, чтобы оптимизировать производительность.

Оптимизация резервных копий. Служба Azure Backup предоставляет несколько возможностей для упрощения резервного копирования. Он предлагает такие функции, как резервное копирование собственных баз данных и резервное копирование хранилища с помощью моментальных снимков дисков. Он поддерживает резервное копирование виртуальных машин, долгосрочное хранение и управление резервными копиями.

Ниже приведены некоторые функции службы.

  • Мониторинг. Центр резервного копирования можно использовать в качестве единой панели для ежедневного мониторинга заданий и резервного копирования. Центр резервного копирования предоставляет интерфейс для отчетов резервного копирования, в которых используются журналы Azure Monitor и книги Azure.

  • Отчеты. Отчеты о резервном копировании предоставляют следующие возможности.

    • Выделение и прогнозирование используемого облачного хранилища.
    • Аудит резервных копий и восстановления.
    • Определите ключевые тенденции на различных уровнях детализации.
    • Получите представление и аналитические сведения о возможностях оптимизации затрат для резервных копий.
  • Зарезервированная емкость: Azure Backup зарезервированная емкость хранилища предоставляет скидку на емкость резервных копий данных, хранящихся на уровне хранилища "Стандартный", при фиксации резервирования на один или три года. Резервирование предусматривает фиксированный объем хранилища на срок резервирования.

  • Архивный уровень. Вы можете использовать Azure Backup для хранения данных резервного копирования, включая резервные копии долгосрочного хранения (LTR), в соответствии с требованиями к хранению, которые определяются правилами соответствия вашей организации. В большинстве случаев к старым данным резервного копирования обращаются редко и хранятся только в соответствии с требованиями. Azure Backup поддерживает резервное копирование точек LTR на архивном уровне, а также моментальные снимки и уровень "Стандартный".

Оптимизация решений для хранения. В Azure есть множество решений для хранения. Они предлагают различные функции и возможности, помогающие оптимизировать затраты в зависимости от конкретных требований. В Azure есть рекомендации, которые помогут вам выбрать правильное хранилище данных.

Чтобы выбрать наиболее подходящее решение для хранения и конфигурацию, важно оценить шаблоны доступа к данным, требования к хранению и требования к производительности. Регулярный мониторинг и оптимизация использования хранилища с помощью таких средств, как Помощник по Azure, может помочь в дальнейшей оптимизации затрат.

Контрольный список для оптимизации затрат

Ознакомьтесь с полным набором рекомендаций.