你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

优化数据成本的建议

适用于此 Azure Well-Architected 框架成本优化清单建议:

CO:10 优化数据成本。 具有数据优先级的数据支出。 数据优化应包括对数据管理的改进, (分层和保留) 、卷、复制、备份、文件格式和存储解决方案。

本指南介绍针对工作负荷优化数据成本的建议。 优化数据成本涉及根据数据的重要性和访问频率,最大程度地减少与数据存储和管理相关的费用。 适当的数据管理可以显著降低开销成本,并使支出与数据实用工具保持一致。 忽视优化数据成本可能会导致费用膨胀、资源分配效率低下,以及由于存储解决方案不对齐和不必要的数据保留而造成财务浪费。

定义

术语 定义
数据生命周期管理 在整个生命周期(从创建到删除)中管理数据的过程。 此过程涉及根据数据的价值和使用模式组织、存储、保护和存档数据。
数据冗余 跨多个存储系统或位置存储重复数据副本的做法。 数据冗余的目的是提高数据可用性和容错能力。
数据分层 一种存储策略,涉及根据数据访问频率对数据进行分类,并相应地将其存储在存储层上。
保留策略 删除数据之前应保留数据的持续时间。 它指定必须保留数据的时间段,以满足法律、法规或业务要求。

关键设计策略

在特定工作负载中,通过减少与存储和管理数据相关的费用来优化数据成本。 有多种策略和最佳做法可以最大程度地减少数据存储和处理成本。 目标是使数据成本与数据优先级保持一致。 需要根据数据类型的重要性或访问频率为其分配成本层。

工作负荷数据成本的主要驱动因素是访问频率、访问延迟和存储量。 以下指南包含优化这些成本驱动因素的成本的策略。

清点数据

需要生成数据清单,然后才能优化数据成本。 检查数据访问并确定数据访问在工作负载及其操作中的重要性。 确定哪些数据是频繁访问的,哪些数据访问频率较低。 以下清单操作可帮助你有效地分配存储资源:

  • 收集数据访问信息: 执行数据审核以识别和编录所有数据存储。 根据数据集对业务运营的重要性、投资回报和使用频率确定数据集的价值。 从数据存储解决方案收集访问日志、使用情况指标或分析。

  • 标识数据类型: 根据数据类型对数据进行分类,例如个人数据、财务数据、知识产权或运营数据。 了解每种数据类型的敏感度和关键性。

  • 确定访问模式: 确定数据访问中的模式,例如每日、每周或每月使用模式。 应了解该数据的延迟、文件大小和数据新鲜度要求。

设置数据的优先级

数据优先级是根据敏感度和关键性对数据类型进行分类和分配重要性级别的过程。 数据优先级应与环境的重要性保持一致。 例如,生产数据比预生产数据更重要。

使用以下步骤评估各种类型的数据对工作负载的重要性:

  1. 定义优先级: 根据数据对组织的价值、法规要求和数据丢失的潜在影响,为数据 ((例如高、中和低) )建立优先级。 目标是将数据优先级与适当的数据解决方案保持一致。

  2. 分配标签: 为每个数据集标记其敏感度和关键性。 可以在行、列或文件级别应用标签,具体取决于数据结构和使用情况。 对于数据库,可以使用特殊工具来标记数据的敏感度和关键性,并将其关联到特定的行和列。 此方法提供对数据的管理和访问的精细控制。

优化数据管理

数据管理是存储、移动和保护工作负载数据的过程。 通过优化数据管理,可以将支出与数据优先级保持一致,并从数据中获得更多价值。 请考虑以下数据管理策略。

优化数据生命周期管理

在整个生命周期内管理数据非常重要。 生命周期的阶段包括数据创建 (或获取) 、存储、使用情况、共享、保留和处置 (删除或存档) 。 数据生命周期管理的目标是在遵守相关法规和策略的同时优化数据存储解决方案。

数据存储有三个关键成本组成部分:

  • 存储成本:与存储数据相关的费用,例如每 GB。

  • 事务成本:与数据操作(例如写入操作、读取操作和数据检索 () )相关的成本。 读取和写入数据的成本可能不同。

  • 延迟成本:与访问数据的速度或延迟相关的费用。

以下注意事项是数据生命周期管理的基础:

  • 使用数据分层: 数据分层的目标是使访问和保留与最经济高效的存储层保持一致。 存储层的范围从频繁/立即访问 (热) 到不频繁/延迟访问 (冷) 。

    使用不符合数据访问和保留需求的层的成本更高。 例如,应用程序经常访问的数据应位于热存储中。 应用程序不经常访问的数据应位于冷存储中。 有效管理这些方面有助于确保高效的数据存储。

  • 考虑合规性要求: 实现数据分层需要仔细考虑合规性要求和数据治理策略。 合规性和法律要求通常推动数据访问和保留。 建立数据保留策略,以确保符合法律、法规和业务要求。

  • 定义数据生命周期策略。 数据生命周期策略根据预定义的条件指定何时以及如何在存储层之间移动数据。 这些策略可确保在所需的持续时间内将数据保留在适当的层中。 例如,策略可以声明数据必须在热层中保留 30 天,在冷层中保留 90 天,在存档层中保留一年。 根据法律要求、行业法规或内部策略等因素设置保留期。

  • 使用自动化:保留策略可以触发层之间的数据移动。 在生成任何自定义解决方案之前,应使用平台功能自动执行策略。

    当特定层的保留期到期时,策略可以自动将数据移动到下一个成本较低的层。 例如,当热层的保留期结束时,策略可以将数据移动到冷层。 该策略可确保数据根据其访问模式和成本要求持续优化。

权衡:管理数据保留策略需要持续监视和维护。 它可能会给数据管理过程带来更多开销。 它还可能会影响存储成本。 较长的保留期或使用成本较高的存储层可能会增加存储费用。

风险:数据生命周期管理的不善实施可能会导致数据丢失或对关键数据的访问受限。 应具有适当的备份和恢复机制,以降低数据丢失的风险。

优化数据分段

优化数据分段涉及将数据战略性地组织到不同的段,并合并类似的数据类型,以有效地分配存储资源。 它允许根据数据优先级定制存储资源的分配。

若要有效地优化数据分段,可以按类型和使用模式对数据进行分类。 然后,根据数据段的操作相似性和要求,将数据段放在最有效的解决方案上。 例如,以更快的检索时间将需要高性能存储的数据放在资源上。 存档数据使用成本较低的资源,检索时间较慢。

此方法可确保高需求数据使用更快的存储来获得最佳性能,而访问较少的数据使用更便宜的存储。 同样,当数据类型共享使用模式时,应将它们组合在一个资源上,以减少开销、简化管理并改进数据处理。

最大程度地减少数据传输

最小化数据传输是指减少跨网络移动数据以降低数据传输成本。 它减少了工作负载移动的数据量,并降低了网络使用费。 若要最大程度地减少数据传输,请考虑以下建议:

  • 使用正确的位置。 将数据放置在离其用户更近的位置。 数据邻近性可减少网络传输,从而加快访问速度并优化成本。
  • 使用缓存。 考虑缓存的好处,以最大程度地减少数据传输。
  • 使用内容分发网络。 内容分发网络可以将频繁读取的静态数据存储在离用户更近的距离。 它可以减少网络中的数据移动,并帮助卸载带宽使用量。

优化安全性和合规性

某些生产数据需要更高的安全性和合规性要求。 这些措施可能会产生与数据保护、加密、备份、保留和审核相关的额外成本。

必须确保数据存储解决方案的更改符合这些要求。 安全性和合规性要求较低的数据通常提供优化成本的机会。

优化数据量

查找减少存储的数据量的策略有助于降低成本。 通过更改数据的可访问性并实现以下技术,可以有效地优化存储的数据量:

  • 捕获较少的数据:仔细查看要捕获的数据。 确定其中任何一项是否对你而言是不必要的。 修改流程、设置或配置,以仅捕获基本数据。

  • 压缩数据:压缩通过减小数据大小来节省资金。 它在写入一次、从不读取或很少读取的方案中最为有效。 它更适用于较冷的存储。

    权衡:压缩和解压缩数据会增加 CPU 时间。

  • 删除不需要的数据:实施策略以简化相关信息的存储过程。 评估备份和快照的保留期,并删除不再需要的数据。 你可能希望有一个导致最终数据删除的过程,例如首次存档数据并启用软删除期。 在删除数据之前,请始终考虑可恢复性。

  • 重复数据删除:实现重复数据删除技术以消除冗余数据。 重复数据删除通过确保仅存储唯一数据块来降低存储要求,从而节省成本。 使用哈希算法和数据区块比较。 定期运行重复数据删除过程,以识别和消除重复数据。

  • 优化用户行为:在收集用户生成数据的工作负载中,告知用户高效数据存储的重要性。 鼓励他们定期查看和删除不必要的文件和数据。 实现存储配额或定价模型,以阻止过多的数据存储。

优化数据复制

数据复制涉及创建数据的多个副本,并将其存储在其他地理位置或区域中,以确保可靠性。 复制可确保当一个位置或区域遇到故障或中断时,你仍然可以从其他位置的复制副本访问数据。

此冗余有助于提高数据的可用性和复原能力。 它可以最大程度地降低数据丢失和停机的风险。

若要优化数据复制以优化成本,请考虑以下准则:

  • 评估数据复制要求:评估工作负载的特定需求并确定它所需的数据复制级别。 请考虑数据关键性、恢复时间目标 (RTO) ,以及恢复点目标 (RPO) 等因素。

  • 选择正确的复制策略:选择符合成本优化目标的复制技术。 请考虑工作负荷的服务级别协议 (SLA) 要求。

    评估同步复制、异步复制或两者的组合等选项。 根据数据一致性要求和网络带宽注意事项等因素做出决策。 评估工作负载所需的可用性级别,并评估区域冗余与区域冗余的需求。

  • 优化网络带宽:通过实施压缩和重复数据删除技术,最大程度地减少网络带宽的使用。 这些技术可以减少复制期间传输的数据量,从而节省成本。

  • 监视和优化复制频率:根据工作负载不断变化的需求定期查看和调整复制频率。 微调复制频率有助于通过减少不必要的复制开销来优化成本。

优化备份

备份是可以独立于主存储创建和存储的定期快照或数据副本。 如果发生数据损坏、意外删除或系统故障,可以使用备份将数据还原到以前的状态。

下面是一些用于优化备份的技术:

  • 数据分类:根据数据的重要性和备份优先级对数据进行分类。 分类有助于将资源集中在备份关键数据上,同时将不太重要的数据的备份成本降至最低。

  • 增量备份:考虑实现增量备份,而不是每次执行完整备份。 增量备份仅捕获自上次备份以来所做的更改,这可以减少存储和网络带宽要求。

    权衡:增量备份需要更多的步骤和时间来还原数据。 需要先还原完整备份,然后按顺序应用每个增量备份,直到到达所需的还原点。

  • 备份压缩:在备份过程中启用压缩以减小备份文件的大小。 压缩备份所需的存储空间更少,因此可以节省成本。

  • 备份存储层:评估备份保留策略,并考虑将旧备份移动到成本较低的存储层,例如冷存储或存档存储。 将访问频率较低的备份存储在经济高效的存储选项中有助于优化成本。

  • 备份保留期:根据业务要求和合规性法规查看和调整备份的保留期。 保留较长持续时间的备份可能会导致额外的存储成本。

  • 备份频率:分析各种类型的数据的备份频率。 根据数据更改频率和数据的重要性调整备份计划。 这些做法有助于消除不必要的备份并降低存储成本。

优化文件格式

文件格式通过优化输入/输出 (I/O) 模式和数据查询模式来影响成本优化。 某些文件格式适用于特定方案。 使文件格式与工作负载要求保持一致可以提高工作负载的性能。

下面是常见格式的注意事项:

  • Avro:在处理写入密集型 I/O 模式或查询模式需要完整提取多行记录时,Avro 文件格式是一个不错的选择。 Avro 的序列化和反序列化过程非常高效,因此它与 Kafka 等消息总线兼容,这些总线可快速连续生成一系列事件和消息。

  • Parquet 和 Optimized Row Columnar (ORC) :Parquet 和 ORC 文件格式在读取密集型 I/O 模式的情况下或查询模式侧重于记录的特定列时,Excel。

    这两种格式都是列式存储,这意味着数据按列存储,而不是逐行存储。 列式存储允许改进的压缩和高效的读取操作。 只需提取所需的列,因此避免不相关的数据出现不必要的 I/O。

优化存储解决方案

评估并选择最适合数据的存储方法和系统。 此工作可能包括切换数据库、使用不同的存储类型或添加缓存机制。 选择存储解决方案时,要考虑的另一个因素是管理方便性。

通过根据数据的特定需求和特征定制存储解决方案,可以在满足性能和可伸缩性需求的同时实现更好的成本效益。 切换数据库或交换服务会产生相关成本,但将数据存储在错误的存储解决方案中可能会产生额外的成本。

下面是一些用例:

  • 切换数据库:可以考虑切换到更符合需求的数据库系统。 例如,如果使用的是关系数据库,则如果数据更面向文档或需要灵活的架构,则可以探索迁移到 NoSQL 数据库的选项。

  • 从关系数据库迁移到平面文件存储:在某些情况下,将数据存储在平面文件中而不是传统关系数据库可以提供简单和成本效益等优势。 平面文件非常适合某些类型的数据,例如日志文件或不需要复杂查询的数据。 例如,可以将二进制图像存储在 SQL 数据库中,但将其存储在专用于处理二进制数据的存储服务中更经济高效。

  • 从基础结构即服务 (IaaS) 迁移到平台即服务 (PaaS) :IaaS 数据库解决方案可能是耗时和资源密集型属性,将技术团队的注意力从核心任务转移。 数据量的增长以及手动缩放、备份和基础结构维护的挑战可以使 PaaS 解决方案更具成本效益和效率。

  • 添加缓存:若要减少main数据库服务器上的资源使用量,请考虑使用缓存解决方案来缓存复杂的查询结果。 调整数据库服务器的大小可能有助于优化成本。 对于适用的用例,请考虑使用生存时间 (TTL) 缓存的数据,以减少存储需求并降低成本。

  • 查询优化存储与数据存储存储:查询优化存储旨在实现快速数据检索和分析。 他们专注于快速数据引入和读取,但不频繁更新。 它们非常适合用于时序数据和快速访问最近数据,但不适用于繁重的事务任务。

    数据存储可处理大量灵活数据,尤其是非结构化或半结构化数据。 尽管数据存储可以支持分析,但复杂的任务可能需要专用数据库。 在 NoSQL 用例等方案中,它们最适合存储大量变量数据(如日志或用户生成的内容)。

Azure 便利化

清点数据Microsoft Purview 是一系列数据治理、风险和合规性解决方案,可帮助组织治理、保护和管理整个数据资产。 Microsoft Purview 解决方案提供集成覆盖范围,可帮助解决近期远程用户连接增加、组织间数据碎片化以及传统 IT 管理角色模糊的问题。

优化数据管理:Azure 存储和Azure Data Lake Storage具有不同的数据访问层。 它们还提供自动执行数据分层和保留 的数据生命周期管理策略

可以使用基于规则的策略将 Blob 数据转换为适当的访问层,或在数据生命周期结束时使数据过期。 此策略允许在访问 blob 时立即将 blob 从冷 (或冷) 转换为热 blob,以优化性能。

优化备份Azure 备份服务提供多种功能来简化备份。 它提供本机数据库备份和通过磁盘快照进行存储备份等功能。 它支持虚拟机备份、长期保留和备份管理。

下面是该服务的一些功能:

  • 监视:可以使用备份中心作为单一管理平台来日常监视作业和备份清单。 备份中心提供备份报表的接口,这些报表使用 Azure Monitor 日志和 Azure 工作簿。

  • 报表:备份报表提供以下功能:

    • 分配和预测使用的云存储。
    • 审核备份和还原。
    • 确定不同粒度级别的关键趋势。
    • 深入了解备份的成本优化机会。
  • 预留容量Azure 备份,当你承诺预留一年或三年的预留时,为保管库标准层存储的备份数据提供容量折扣。 预留在预留期内提供固定数量的备份存储容量。

  • 存档层:可以根据组织的合规性规则定义的保留需求,使用 Azure 备份 存储备份数据,包括长期保留 (LTR) 备份数据。 在大多数情况下,较旧的备份数据很少被访问,并且仅出于符合性需求而存储。 除快照和标准层外,Azure 备份还支持存档层中的 LTR 点备份。

优化存储解决方案:Azure 有许多存储解决方案。 它们提供各种特性和功能,可帮助根据特定要求优化成本。 Azure 提供指导来帮助你 选择正确的数据存储

若要选择最合适的存储解决方案和配置,请务必评估数据访问模式、保留需求和性能要求。 使用 Azure 顾问等工具定期监视和优化存储使用情况,有助于进一步优化成本。

成本优化清单

请参阅完整的一组建议。