Azure データ アーキテクチャ ガイドAzure Data Architecture Guide

このガイドでは、Microsoft Azure でデータ中心のソリューションを設計するための体系的なアプローチについて説明します。This guide presents a structured approach for designing data-centric solutions on Microsoft Azure. このアプローチは、顧客エンゲージメントから派生した実証済みのプラクティスに基づいています。It is based on proven practices derived from customer engagements.

はじめにIntroduction

クラウドによって、データの処理方法や格納方法など、アプリケーションの設計方法は変化しています。The cloud is changing the way applications are designed, including how data is processed and stored. _多言語永続化_ソリューションは、ソリューションのすべてのデータを処理する単一の汎用データベースではなく、特定の機能を提供するために個々に最適化された、複数の専用データ ストアを使用します。Instead of a single general-purpose database that handles all of a solution's data, polyglot persistence solutions use multiple, specialized data stores, each optimized to provide specific capabilities. その結果、ソリューション内のデータの観点が変わります。The perspective on data in the solution changes as a result. 単一のデータ レイヤーの読み取りと書き込みを行う複数レイヤーのビジネス ロジックはなくなりました。There are no longer multiple layers of business logic that read and write to a single data layer. 代わりに、データ パイプラインを中心にして、データがソリューションを経由してどのように流れるか、どこで処理されるか、どこに格納されるか、パイプライン内の次のコンポーネントによってどのように使用されるかを記述するソリューションが設計されています。Instead, solutions are designed around a data pipeline that describes how data flows through a solution, where it is processed, where it is stored, and how it is consumed by the next component in the pipeline.

本書の構成How this guide is structured

このガイドは、データ ソリューションの 2 つの一般的カテゴリである "従来の RDBMS ワークロード" と "ビッグ データ ソリューション" を中心に構成されています。This guide is structured around two general categories of data solution, traditional RDBMS workloads and big data solutions.

従来の RDBMS ワークロードTraditional RDBMS workloads. このワークロードには、オンライン トランザクション処理 (OLTP) とオンライン分析処理 (OLAP) があります。These workloads include online transaction processing (OLTP) and online analytical processing (OLAP). OLTP システムのデータは、通常、参照整合性を維持するための事前定義スキーマと一連の制約を持つリレーショナル データです。Data in OLTP systems is typically relational data with a predefined schema and a set of constraints to maintain referential integrity. 多くの場合、組織内の複数のソースに属するデータは、ETL プロセスを使用して移動および変換され、データ ウェアハウスに統合されている可能性があります。Often, data from multiple sources in the organization may be consolidated into a data warehouse, using an ETL process to move and transform the source data.

従来の RDBMS ワークロード

ビッグ データ ソリューションBig data solutions. ビッグ データ アーキテクチャは、従来のデータベース システムには多すぎる、または複雑すぎるデータのインジェスト、処理、分析を扱うために設計されています。A big data architecture is designed to handle the ingestion, processing, and analysis of data that is too large or complex for traditional database systems. データは一括またはリアルタイムで処理されます。The data may be processed in batch or in real time. 通常、ビッグ データ ソリューションには、キー/値データ、JSON ドキュメント、時系列データなどの大量の非リレーショナル データが関係します。Big data solutions typically involve a large amount of non-relational data, such as key-value data, JSON documents, or time series data. 多くの場合、従来の RDBMS システムは、この種のデータの格納には適していません。Often traditional RDBMS systems are not well-suited to store this type of data. NoSQL という用語は、非リレーショナル データを格納するように設計されたデータベースのグループを指しますThe term NoSQL refers to a family of databases designed to hold non-relational data. 多くの非リレーショナル データ ストアは SQL 互換のクエリをサポートしているため、この用語はあまり正確とは言えません。The term isn't quite accurate, because many non-relational data stores support SQL compatible queries. NoSQL という用語は、"Not only SQL" を意味します。The term NoSQL stands for "Not only SQL".

ビッグ データ ソリューション

この 2 つのカテゴリは互いに排他的ではありませんし、重複する部分もありますが、説明の組み立て方としては便利であると思われます。These two categories are not mutually exclusive, and there is overlap between them, but we feel that it's a useful way to frame the discussion. このガイドでは、カテゴリごとに、関連する Azure サービスと、シナリオに適したアーキテクチャを含む一般的なシナリオについて説明します。Within each category, the guide discusses common scenarios, including relevant Azure services and the appropriate architecture for the scenario. さらに、このガイドでは、オープン ソースのオプションを含め、Azure のデータ ソリューション向けのテクノロジの選択肢を比較します。In addition, the guide compares technology choices for data solutions in Azure, including open source options. 各カテゴリ内で、シナリオに適したテクノロジの選択に役立つ主な選択基準と機能のマトリックスについて説明します。Within each category, we describe the key selection criteria and a capability matrix, to help you choose the right technology for your scenario.

このガイドの目的は、データ サイエンスやデータベース理論を教えることではありません。このようなテーマについては関連する書籍を参照してください。This guide is not intended to teach you data science or database theory — you can find entire books on those subjects. このガイドの目標は、シナリオに適したデータ アーキテクチャまたはデータ パイプラインを選択し、要件に最適な Azure サービスとテクノロジを選択できるようにすることです。Instead, the goal is to help you select the right data architecture or data pipeline for your scenario, and then select the Azure services and technologies that best fit your requirements. 既に念頭に置いているアーキテクチャがある場合は、そのままテクノロジのオプションに進んでください。If you already have an architecture in mind, you can skip directly to the technology choices.