你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure 上的 Apache 开放源代码方案

项目
12/23/2023

Microsoft 为支持开放源代码项目、计划和基金会并为数千开放源代码社区做出贡献而感到自豪。通过在 Azure 上使用开放源代码技术，可以在优化投资的同时按照自己的方式运行应用程序。

本文总结了将 Azure 与 Apache 开放源代码解决方案结合使用的体系结构和解决方案。

Apache®、Apache Ignite、Ignite 和火焰徽标是 Apache Software Foundation 在美国和/或其他国家/地区的商标或注册商标。使用这些标记并不暗示获得 Apache Software Foundation 的认可。

Apache Cassandra

体系结构	摘要	技术重点
数据分区指南	查看有关如何分隔数据分区，以单独管理和访问的指南。了解水平、垂直和功能分区策略。 Cassandra 非常适合垂直分区。	数据库
Azure 公共 MEC 中的高可用性	了解如何在主动/备用模式下部署工作负载，以实现 Azure 公共多接入边缘计算中的高可用性和灾难恢复。 Cassandra 可用于支持异地复制。	混合
使用 Apache Cassandra 的 N 层应用程序	使用 Apache Cassandra 部署 Linux 虚拟机和为 N 层体系结构配置的虚拟网络。	数据库
非关系数据和 NoSQL	了解基于数据要求将数据存储为键值对、图形、时间序列、对象和其他存储模型的非关系型数据库。 Azure Cosmos DB for Apache Cassandra 是建议使用的 Azure 服务。	数据库
在 Azure VM 上运行 Apache Cassandra	检查在 Azure 虚拟机上运行 Apache Cassandra 的性能注意事项。使用这些建议作为基线，针对工作负载进行测试。	数据库
使用完全托管的开源数据引擎进行流处理	使用完全托管的 Azure 数据服务流式处理事件。使用 Kafka、Kubernetes、Cassandra、PostgreSQL 和 Redis 组件等开源技术。	Analytics

Apache CouchDB

体系结构	摘要	技术重点
具有区域冗余的基线 Web 应用程序	使用此参考体系结构中的经验证的做法可以改进 Azure 应用服务 Web 应用程序的冗余、可伸缩性和性能。 CouchDB 是建议使用的文档数据库。	Web

Apache Hadoop

体系结构	摘要	技术重点
精算风险分析和金融建模	了解精算开发人员如何将现有解决方案及其支持基础结构迁移到 Azure。使用 Hadoop 进行数据分析。	Analytics
边缘 AI 和 Azure Stack Hub	使用 Azure Stack Hub 将经过训练的 AI 模型引入边缘。将其与应用程序集成以实现低延迟智能。使用 Hadoop 来存储数据。	AI
边缘 AI 和 Azure Stack Hub - 已断开连接	在与 Internet 断开连接时，利用边缘 AI，借助包含 Azure Stack Hub 的解决方案将 AI 模型迁移到边缘。使用 Hadoop 来存储数据。	AI
大数据架构	了解大数据体系结构，它用于处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。 Azure HDInsight Hadoop 群集可用于批处理。	数据库
选择数据传输技术	了解 Azure 数据传输选项，例如 Azure 导入/导出服务、Azure Data Box、Azure 数据工厂以及命令行和图形界面工具。 Hadoop 生态系统提供用于数据传输的工具。	数据库
平民 AI 和 Power Platform	了解如何使用 Azure 机器学习和 Power Platform 快速创建机器学习概念证明和生产版本。 Azure Data Lake（一种与 Hadoop 兼容的文件系统）用于存储数据。	AI
微服务的数据注意事项	了解如何在微服务体系结构中管理数据。查看使用 Azure Data Lake Store（一种 Hadoop 文件系统）的示例。	微服务
使用 HDInsight 扩展本地大数据投资	将你本地大数据方面的投入扩展到云。通过使用 HDInsight 的高级分析功能来实现业务转型。 Hadoop 用作数据存储。	分析
提取、转换和加载	了解如何提取、转换和加载 (ETL) 以及提取、加载和转换 (ELT) 数据转换管道，以及如何使用控制流与数据流。 Hadoop 可用作 ELT 进程中的目标数据存储。	Analytics
使用 HDInsight 执行 ETL	通过使用 HDInsight、Hadoop MapReduce 和 Apache Spark 按需 ETL 大数据群集。	分析
IoT 分析和优化循环	了解分析和优化循环，这是一种基于整个业务环境生成和应用优化见解的 IoT 模式。 Hadoop 映射-化简处理可用于处理大数据。	IoT
使用 Azure 和 CluedIn 进行主数据管理	使用 CluedIn 最终连接数据集成来混合来自多个孤立数据源的数据，并为分析和业务运营做好准备。 CluedIn 可以从 Hadoop 中获取输入数据。	数据库
具体化视图模式	当未针对所需的查询操作完美设置数据的格式时，在一个或多个数据存储中基于数据生成预填充的视图。将 Hadoop 用于支持索引的大数据存储机制。	数据库
使用 HDInsight Spark 预测贷款冲销	使用 HDInsight 和机器学习来预测贷款被冲销的可能性。 HDInsight 支持 Hadoop。	数据库

Apache HBase

体系结构	摘要	技术重点
边缘 AI 和 Azure Stack Hub	使用 Azure Stack Hub 将经过训练的 AI 模型引入边缘。将其与应用程序集成以实现低延迟智能。使用 HBase 存储数据。	AI
边缘 AI 和 Azure Stack Hub - 已断开连接	在与 Internet 断开连接时，利用边缘 AI，借助包含 Azure Stack Hub 的解决方案将 AI 模型迁移到边缘。使用 HBase 存储数据。	AI
大数据架构	了解大数据体系结构，它用于处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。在这些场景中，可以使用 HBase 进行数据呈现。	数据库
选择大数据存储技术	比较 Azure 中的大数据存储技术选项。包括 HDInsight 上的 HBase 讨论。	数据库
选择分析数据存储	了解如何使用 HBase 实现随机访问和大量非结构化和半结构化数据的强一致性。	Analytics
数据分区指南	查看有关分隔数据分区使其可以单独管理和访问的指南。了解水平、垂直和功能分区策略。 HBase 非常适合垂直分区。	数据库
非关系数据和 NoSQL	了解基于数据要求将数据存储为键值对、图形、时间序列、对象和其他存储模型的非关系型数据库。 HBase 可用于分栏和时序数据。	数据库

Apache Hive

体系结构	摘要	技术重点
大数据架构	了解大数据体系结构，它用于处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。在这些场景中，可以将 Hive 用于批处理和数据呈现。	数据库
使用 HDInsight Spark 优化营销活动	生成和部署机器学习模型，以最大程度提高市场营销活动面向的潜在客户的购买率。 Hive 用于存储有关如何和何时联系每个潜在客户的建议。	数据库
选择批处理技术	比较 Azure 中大数据批处理的技术选择。了解 Hive 的功能。	Analytics
选择分析数据存储	评估 Azure 中大数据的分析数据存储选项。了解 Hive 的功能。	分析
提取、转换和加载	了解 ETL 和 ELT 数据转换管道，以及如何使用控制流和数据流。在 ELT 中，可以使用 Hive 查询源数据。还可以将其与 Hadoop 一起用作数据存储。	数据库
使用 HDInsight 执行 ETL	通过使用 HDInsight、Hive 和 Apache Spark 按需 ETL 大数据群集。	分析
使用 HDInsight Spark 群集对贷款冲销进行预测	使用 HDInsight 和机器学习来预测贷款被冲销的可能性。分析结果存储在 Hive 表中。	Analytics
预测性航空发动机监视	了解如何将实时飞机数据与分析相结合，以创建用于预测性飞机引擎监视和运行状况的解决方案。 Hive 脚本为 Azure 流分析存档的原始事件提供聚合。	Analytics
利用车辆遥测数据的预测性见解	了解汽车经销商、制造商和保险公司如何使用 Azure 获取有关车辆运行状况和司机驾驶习惯的预测性见解。在此解决方案中，Azure 数据工厂使用 HDInsight 运行 Hive 查询来处理和加载数据。	分析
在受管制行业调整 AI 和机器学习计划	了解如何调整必须符合广泛安全策略的 Azure AI 和机器学习环境。 Hive 用于存储元数据。	AI

Apache JMeter

体系结构	摘要	技术重点
Azure 上的银行系统云转换	使用模拟和实际应用程序以及现有工作负载来监视解决方案基础结构的反应，以了解可伸缩性和性能。自定义 JMeter 解决方案用于负载测试。	迁移
银行云转型的模式和实现	了解用于为云转换银行系统的模式和实现。 JMeter 用于负载测试。	迁移
可缩放的云应用程序和 SRE	使用站点可靠性工程 (SRE) 的性能建模以及其他原则和做法构建可缩放的云应用程序。 JMeter 用于负载测试。	Web

Apache Kafka

体系结构	摘要	技术重点
异常探测器流程	了解异常检测器并了解如何通过时序数据选择异常检测模型。在此体系结构中，Kafka 的事件中心可以用作运行你自己的 Kafka 群集的替代方案。	Analytics
Azure NetApp 文件上 AKS 工作负荷的应用程序数据保护	使用 Azure NetApp 文件部署 Astra Control 服务，为 Azure Kubernetes 服务 (AKS) 应用程序（包括 Kafka 应用程序）提供数据保护、灾难恢复和可移动性。	容器
异步消息传递选项	了解 Azure 中的异步消息传递选项，包括对 Kafka 客户端的支持。	集成
自动引导的车队控制	了解汽车原始设备制造商 (OEM) 的端到端方法。包括多个可重复使用的开放源代码库。此体系结构中的后端服务可以连接到 Kafka。	Web
Azure 数据资源管理器交互式分析	将 Kafka 数据引入 Azure 数据资源管理器并使用临时的交互式快速查询对其进行检查。	Analytics
Azure 数据资源管理器监视	在混合监视解决方案中使用 Azure 数据资源管理器，该解决方案从 Kafka 和其他来源引入流日志和批处理日志。	Analytics
Azure 上的银行系统云转换	使用模拟和实际应用程序以及现有工作负载来监视解决方案基础结构的反应，以了解可伸缩性和性能。来自 Kafka 事件中心的事件馈送到系统中。	容器
选择流处理技术	比较 Azure 中实时消息流处理的选项，包括 Kafka Streams API。	Analytics
声明-检查模式	了解声明-检查模式，该模式将大型消息拆分成声明检查和有效负载，以免消息总线过载。了解使用 Kafka 进行声明-检查生成的示例。	集成
使用 AKS 的数据流式传输	使用 AKS 轻松引入和处理实时数据流，通过传感器收集数百万个数据点。 Kafka 存储用于分析的数据。	容器
引入、ETL 和流处理管道与 Azure Databricks	使用 Azure Databricks 为批处理和流式数据创建 ETL 管道，以简化任何规模的 Delta Lake 引入。 Kafka 是引入数据的一个选项。	Analytics
将事件中心与 Azure Functions 集成	了解如何构建、开发和部署在 Azure Functions 上运行并响应 Azure 事件中心事件的高效且可缩放的代码。了解如何在 Kafka 主题中保留事件。	无服务器
使用 Azure 数据资源管理器的 IoT 分析	使用 Azure 数据资源管理器对来自各种数据源（包括 Kafka）的快速流动的大量流式处理数据进行准实时 IoT 遥测分析。	分析
使用 Qlik 将大型机和中型机数据复制到 Azure	使用 Qlik Replicate 将大型机和中型系统迁移到云，或使用云应用程序扩展此类系统。在此解决方案中，Kafka 存储用于复制数据存储的更改日志信息。	大型机
事件中心和 Kafka 中的分区	了解 Kafka 和 Kafka 事件中心中的分区。了解要在引入管道中使用的分区数，以及如何将事件分配给分区。	Analytics
银行云转型的模式和实现	了解用于为云转换银行系统的模式和实现。 Kafka 缩放程序用于检测解决方案是需要激活还是停用应用程序部署。	无服务器
发布者-订阅者模式	了解发布者-订阅者模式，该模式使应用程序能够以异步方式向多个感兴趣的使用者通报事件。建议使用 Kafka 进行消息传递。	集成
速率限制模式	使用速率限制模式可以避免或最大限度减少限制错误。此模式可以实现 Kafka 以用于消息传递。	集成
使用“高级”重构大型机应用程序	了解如何使用“高级”中的自动 COBOL 重构解决方案实现大型机 COBOL 应用程序的现代化，在 Azure 上运行这些应用程序并降低成本。 Kafka 可用作数据源。	大型机
可缩放订单处理	了解用于电子商务订单处理的高度可缩放的、可复原的体系结构。事件消息通过 Kafka 和其他系统进入系统。	数据库
使用完全托管的开源数据引擎进行流处理	使用完全托管的 Azure 数据服务流式处理事件。使用 Kafka、Kubernetes、Cassandra、PostgreSQL 和 Redis 组件等开源技术。	分析

Apache MapReduce

体系结构	摘要	技术重点
异步消息传递选项	了解 Azure 中的异步消息传递选项。可以使用 MapReduce 生成有关事件中心捕获的事件的报告。	集成
大数据架构	了解大数据体系结构，它用于处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。可以使用 MapReduce 进行批处理，并在这些场景中提供并行操作的功能。	数据库
选择批处理技术	了解 Azure 中大数据批处理的技术，包括具有 MapReduce 的 HDInsight。	Analytics
使用 HDInsight 执行 ETL	通过使用 HDInsight、Hadoop MapReduce 和 Apache Spark 按需 ETL 大数据群集。	Analytics
地理节点模式	将后端服务部署到一组地理节点，其中的每个节点可为任何区域中的任何客户端请求提供服务。此模式发生在使用 MapReduce 跨计算机合并结果的大数据体系结构中。	数据库
最大程度减少协调	遵循这些建议，通过最大限度减少应用程序服务之间的协调来提高可伸缩性。使用 MapReduce 将工作拆分为独立任务。	数据库

Apache NiFi

体系结构	摘要	技术重点
使用 MonitoFi 进行 Apache NiFi 监视	使用 MonitoFi 监视 Azure 上的 Apache NiFi 部署。此工具发送警报并在仪表板中显示运行状况和性能信息。	Analytics
Azure 上的 Apache NiFi	通过 Azure 上的 Apache NiFi 自动执行数据流。使用可缩放且高度可用的解决方案，将数据移动到云或存储中，以及在云系统之间移动。	Analytics
Apache NiFi 的基于 Helm 的部署	在 AKS 上部署 NiFi 时使用 Helm 图表。 Helm 简化了安装和管理 Kubernetes 应用程序的过程。	Analytics
Azure 数据资源管理器监视	在混合监视解决方案中使用 Azure 数据资源管理器和 NiFi，该解决方案从不同来源引入流日志和批处理日志。	Analytics

Apache Oozie

体系结构	摘要	技术重点
大数据架构	了解大数据体系结构，它用于处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。在这些场景中，可以将 Oozie 用于编排。	数据库
选择数据管道业务流程技术	了解 Oozie 的主要编排功能。	数据库

Apache Solr

体系结构	摘要	技术重点
选择搜索数据存储	了解 Azure 中搜索数据存储的功能，以及选择最符合需求的关键条件。了解具有 Solr 的 HDInsight 的关键功能。	数据库

Apache Spark

体系结构	摘要	技术重点
精算风险分析和金融建模	了解精算开发人员如何将现有解决方案及其支持基础结构迁移到 Azure。使用 Spark 进行数据分析或通过分布结果聚合来加速处理。	Analytics
高级分析	了解如何将任意规模的任何数据与自定义机器学习相结合，并获取流式处理服务的准实时数据分析。使用 Spark 池清理和转换无结构数据集，并将其他们与结构化数据相结合。	Analytics
边缘 AI 和 Azure Stack Hub	使用 Azure Stack Hub 将经过训练的 AI 模型引入边缘。将其与应用程序集成以实现低延迟智能。使用 Spark 存储数据。	AI
边缘 AI 和 Azure Stack Hub - 已断开连接	在与 Internet 断开连接时，利用边缘 AI，借助包含 Azure Stack Hub 的解决方案将 AI 模型迁移到边缘。使用 Spark 存储数据。	AI
使用 Azure Synapse 进行端到端分析	了解如何使用 Azure 数据服务生成能够处理最常见数据挑战的现代分析平台。 Spark 池分析引擎可从 Azure Synapse 工作区获取。	分析
Azure Databricks 上 Spark 的批处理评分	生成可缩放的解决方案，以用于 Apache Spark 分类模型的批处理评分。	AI
针对机密计算的大数据分析	在 Kubernetes 上使用机密计算，以便在受 Intel Software Guard Extensions 保护的机密容器中使用 Spark 运行大数据分析。	数据库
大数据架构	了解大数据体系结构，它用于处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。可以使用 Spark 进行批处理或流处理，并用作分析数据存储。	数据库
构建基于内容的建议系统	创建基于内容的建议系统，该系统通过使用 Spark、Azure 机器学习和 Azure Databricks 向客户提供个性化建议。	Analytics
使用 HDInsight Spark 优化营销活动	生成和部署机器学习模型，以最大程度提高市场营销活动面向的潜在客户的购买率。	数据库
选择批处理技术	比较 Azure 中大数据批处理的技术选择，包括用于实现 Spark 的选项。	Analytics
选择流处理技术	比较 Azure 中实时消息流式处理的选项，包括用于实现 Spark 的选项。	Analytics
选择分析数据存储	评估 Azure 中大数据的分析数据存储选项。了解 Azure Synapse Spark 池的功能。	Analytics
使用 Azure Synapse 和 Dynamics 365 Customer Insights 实现全方位客户视图	使用 Azure Synapse Analytics 和 Dynamics 360 Customer Insights 生成端到端的 Customer 360 解决方案。此解决方案使用可自动纵向扩展和纵向缩减的 Azure Synapse Spark 群集。	Analytics
使用 Azure Databricks 进行数据科学和机器学习	将 Azure Databricks、Delta Lake 和 MLflow 用于数据科学和机器学习，从而改进操作。开发、训练和部署机器学习模型。 Azure Databricks 提供托管 Spark 群集。	AI
提取、转换和加载	了解如何提取、转换和加载 (ETL) 以及提取、加载和转换 (ELT) 数据转换管道，以及如何使用控制流与数据流。在 ELT 中，可以使用 Spark 查询源数据。还可以将其与 Hadoop 一起用作数据存储。	数据库
使用 HDInsight 执行 ETL	通过使用 HDInsight、Hadoop MapReduce 和 Apache Spark 按需 ETL 大数据群集。	分析
使用 Azure Cosmos DB 的 IoT	了解如何使用 Azure Cosmos DB 来适应各种不可预测的 IoT 工作负载，而不影响引入或查询性能。运行 Spark 流式处理的 Azure Databricks 处理来自设备的事件数据。	IoT
使用 HDInsight Spark 进行贷款冲销预测	使用 HDInsight 和机器学习来预测贷款被冲销的可能性。	数据库
使用 Spark 进行多模型机器学习	了解 Azure 中多模型机器学习。	AI
Microsoft 机器学习产品	比较用于生成、部署和管理机器学习模型的选项，包括基于 Azure Databricks Spark 的分析平台和 SynapseML。	AI
面向中小型企业的新式数据仓库	使用 Azure Synapse、Azure SQL 数据库和 Azure Data Lake Storage 实现 SMB 旧数据和本地数据的现代化。 Azure Synapse 工作区中的工具可以使用 Spark 计算功能来处理数据。	Analytics
自然语言处理技术	选择用于情绪分析、主题和语言检测、关键短语提取和文档分类的自然语言处理服务。了解具有 Spark 的 Azure HDInsight 的主要功能。	AI
可观测性模式和指标	了解如何使用可观测性模式和指标来改进使用 Azure Databricks 的大数据系统的处理性能。 Azure Databricks 监视库从作业流式传输 Spark 事件和 Spark 结构化流式处理指标。	数据库
大数据体系结构实时分析	从实时传送视频流数据获取深度学习分析结果和见解。近实时地对 IoT 设备数据和网站点击流日志运行高级分析。 Apache Spark 池清理、转换和分析流式处理数据，并将其与结构化数据相结合。	分析
使用完全托管的开源数据引擎进行流处理	使用完全托管的 Azure 数据服务流式处理事件。使用 Spark、Kafka、Kubernetes、Cassandra、PostgreSQL 和 Redis 组件等开源技术。	Analytics

Apache Sqoop

体系结构	摘要	技术重点
大数据架构	了解大数据体系结构，它用于处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。在这些场景中，可以使用 Sqoop 自动执行编排工作流。	数据库
选择数据传输技术	了解 Azure 导入/导出、Data Box 和 Sqoop 等数据传输选项。	数据库

Apache ZooKeeper

体系结构	摘要	技术重点
Azure 上的 Apache NiFi	在 Azure 上使用 NiFi 自动化数据流。使用可缩放且高度可用的解决方案，将数据移动到云或存储中，以及在云系统之间移动。在此解决方案中，NiFi 使用 ZooKeeper 协调数据流。	Analytics
Apache NiFi 的基于 Helm 的部署	在 AKS 上部署 NiFi 时使用 Helm 图表。 Helm 简化了安装和管理 Kubernetes 应用程序的过程。在此体系结构中，ZooKeeper 提供群集协调。	Analytics
速率限制模式	使用速率限制模式可以避免或最大限度减少限制错误。在此场景中，可以使用 ZooKeeper 创建向容量授予临时租用的系统。	集成

Azure 上的 Apache 开放源代码方案

Apache Cassandra

Apache CouchDB

Apache Hadoop

Apache HBase

Apache Hive

Apache JMeter

Apache Kafka

Apache MapReduce

Apache NiFi

Apache Oozie

Apache Solr

Apache Spark

Apache Sqoop

Apache ZooKeeper

反馈

反馈

其他资源

Azure 上的 Apache 开放源代码方案

Apache Cassandra

Apache CouchDB

Apache Hadoop

Apache HBase

Apache Hive

Apache JMeter

Apache Kafka

Apache MapReduce

Apache NiFi

Apache Oozie

Apache Solr

Apache Spark

Apache Sqoop

Apache ZooKeeper

相关资源

反馈

反馈

其他资源