非リレーショナルデータと NoSQL

Azure Cosmos DB

Azure Blob Storage

Azure Data Lake

非リレーショナルデータベースとは、従来のほとんどのデータベースシステムにある行と列のテーブルスキーマを使用しないデータベースです。代わりに、非リレーショナルデータベースは、格納されているデータの種類に固有の要件に合わせて最適化されたストレージモデルを使用します。たとえば、単純なキーと値のペア、JSON ドキュメント、またはエッジと頂点から構成されるグラフとしてデータを格納できます。

これらのデータストアのすべてに共通する点は、リレーショナルモデルを使用していないことです。また、サポートするデータの種類やデータのクエリ方法がより具体的になる傾向があります。たとえば、時系列データストアは、時間ベースのデータシーケンスに対するクエリに合わせて最適化されています。一方、グラフデータストアは、エンティティ間の重み付けされたリレーションシップの探索に合わせて最適化されています。どちらの形式も、トランザクションデータの管理タスクに対しては適切に汎用化されません。

"NoSQL" という用語は、クエリに SQL を使用しないデータストアを指します。そのようなデータストアでは、代わりに他のプログラミング言語とコンストラクトを使用してデータのクエリが実行されます。実際、NoSQL データベースの多くは SQL 互換のクエリをサポートしていますが、"NoSQL" は "非リレーショナルデータベース" を意味します。ただし通常、基になるクエリ実行戦略は、同じ SQL クエリを実行する場合でも従来の RDBMS の方法とは大きく異なります。

以下のセクションでは、非リレーショナルデータベースまたは NoSQL データベースの主なカテゴリについて説明します。

ドキュメントデータストア

ドキュメントデータストアは、"ドキュメント" と呼ばれるエンティティ内の名前付き文字列フィールドとオブジェクトデータ値のセットを管理します。通常、これらのデータストアはデータを JSON ドキュメント形式で格納します。各フィールド値は、スカラー項目 (数値など) または複合要素 (リストや親子コレクションなど) の場合があります。ドキュメントのフィールド内のデータは、XML、YAML、JSON、BSON などのさまざまな方法でエンコードしたり、またはプレーンテキストとして格納することもできます。ドキュメント内のフィールドは、ストレージ管理システムに公開されるため、アプリケーションで、これらのフィールドの値を使用してデータをクエリおよびフィルターできます。

通常、ドキュメントにはエンティティのデータ全体が含まれます。エンティティを構成する項目は、アプリケーションによって異なります。たとえば、エンティティには、顧客、注文、またはその両方の組み合わせの詳細を含めることができます。リレーショナルデータベース管理システム (RDBMS) 内の複数のリレーショナルテーブル間に分散されている情報を 1 つのドキュメントに格納できます。ドキュメントストアでは、すべてのドキュメントの構造が同じである必要はありません。この自由形式のアプローチにより、大きな柔軟性が提供されます。たとえば、アプリケーションは、ビジネス要件の変更に応じて、さまざまなデータをドキュメントに格納できます。

Example document data store

アプリケーションは、ドキュメントキーを使用してドキュメントを取得できます。このキーはドキュメントの一意の識別子で、多くの場合にハッシュされ、データを均等に分散するのに役立ちます。一部のドキュメントデータベースでは、ドキュメントキーが自動的に作成されます。そうでない場合は、キーとして使用するドキュメントの属性をユーザーが指定できます。アプリケーションでは、1 つまたは複数のフィールドの値に基づいて、ドキュメントのクエリを実行することもできます。一部のドキュメントデータベースでは、インデックス付きフィールドに基づいてドキュメントをすばやく検索できるように、インデックス付けがサポートされています。

多くのドキュメントデータベースで、インプレース更新をサポートしているため、アプリケーションは、ドキュメント全体を書き直すことなく、ドキュメント内の特定のフィールドの値を変更できます。 1 つのドキュメントの複数のフィールドに対する読み取りおよび書き込み操作は、通常はアトミックです。

関連 Azure サービス:

Azure Cosmos DB

単票形式データストア

単票形式または列ファミリデータストアは、列と行にデータを編成します。列ファミリデータストアは、その最も単純な形式では、少なくとも概念的にはリレーショナルデータベースによく似ています。列ファミリデータベースの真の能力は、データを格納する列指向のアプローチに由来する、スパースデータを構造化する非正規化アプローチにあります。

列ファミリデータストアは、行と列を含む表形式データを保持するものと考えることができますが、列は列ファミリと呼ばれるグループに分類されます。各列ファミリは、論理的に関連し、通常はユニットとして取得または操作される一連の列を保持しています。個別にアクセスされるその他のデータは、個別の列ファミリに格納できます。列ファミリ内では、新しい列を動的に追加することができ、行をスパースにする (つまり、行のすべての列に値を持つ必要がない) ことができます。

次の図は、Identity と Contact Info の 2 つの列ファミリのある例を示しています。単一のエンティティのデータは、各列ファミリに同じ行キーを持ちます。列ファミリ内にある任意のオブジェクトの行が動的に変化する構造は、列ファミリアプローチの重要な利点です。列ファミリデータストアのこの構造は、さまざまなスキーマを持つデータを格納するために適しています。

Example of column-family data

キー/値のストアまたはドキュメントデータベースとは異なり、ほとんどの列ファミリのデータベースは、ハッシュを計算するのではなく、キー順序でデータを物理的に格納します。行キーはプライマリインデックスと見なされ、行キーによって、特定のキーまたは一連のキーを使用するキーベースのアクセスが可能になります。一部の実装では、列ファミリ内の特定の列に対してセカンダリインデックスを作成できます。セカンダリインデックスを使用すると、行キーではなく、列値によってデータを取得できます。

ディスク上では、列ファミリ内のすべての列が同じファイルに格納され、各ファイルには特定の数の行が格納されます。大規模なデータセットにこのアプローチを利用すると、一度に少数の列に対してのみクエリを実行する場合に、ディスクから読み取る必要のあるデータ量を減らすことでパフォーマンス上のメリットがあります。

一部の実装では、複数の列ファミリにまたがる行全体で原子性を提供するものもありますが、行の読み取りと書き込みの操作は通常、単一の列ファミリ内ではアトミックです。

関連 Azure サービス:

キー/値のデータストア

キー/値のストアは、本質的に大規模なハッシュテーブルです。各データ値を一意のキーに関連付けると、キー/値のストアがこのキーを使用し、適切なハッシュ関数を使用してデータを格納します。ハッシュ関数は、データストレージ間でハッシュされたキーを均等に分散するために選択されます。

ほとんどのキー/値のストアは、簡単なクエリ、挿入、および削除操作のみをサポートしています。 (部分的または完全に) 値を変更するには、アプリケーションで値全体の既存のデータを上書きする必要があります。ほとんどの実装で、1 つの値の読み取りや書き込みは、アトミック操作です。値が大きい場合、書き込みにいくらか時間がかかることがあります。

一部のキー/値のストアでは値の最大サイズに制限を課すものがありますが、アプリケーションは、一連の値として任意のデータを格納できます。格納された値は、ストレージシステムソフトウェアに非透過的です。すべてのスキーマ情報が提供され、アプリケーションによって解釈される必要があります。基本的に、値は BLOB で、キー/値のストアは単純にキーによって、値を取得または格納します。

Example of data in a key/value store

キー/値のストアは、キーの値を使用して、またはキーの範囲を指定して簡単な検索を実行するアプリケーションに合わせて高度に最適化されていますが、複数のテーブルにまたがるデータの結合など、キー/値の異なるテーブル間でデータをクエリする必要があるシステムには適していません。

また、キー/値のストアは、キーのみに基づくルックアップを実行するのではなく、キー以外の値によるクエリやフィルター処理が重要なシナリオに合わせて最適化されていません。たとえば、リレーショナルデータベースでは、WHERE 句を使用して非キー列をフィルター処理することでレコードを見つけることができますが、通常、キー/値ストアにはこのようなルックアップ機能がありません。ルックアップを実行した場合、すべての値のスキャンが遅くなります。

1 つのキー/値のストアでは、個々のコンピューター上の複数のノード間でデータを簡単に分散できるため、きわめてスケーラブルにすることができます。

関連 Azure サービス:

グラフデータストア

グラフデータストアは、ノードとエッジの 2 種類の情報を管理します。ノードはエンティティを表し、エッジはこれらのエンティティ間のリレーションシップを示します。ノードもエッジも、そのノードやエッジに関する情報を提供するプロパティを持つことができ、テーブルの列に似ています。エッジは、リレーションシップの性質を示す方向を持つこともできます。

グラフデータストアの目的は、アプリケーションが、ノードとエッジのネットワークを通過するクエリを効率的に実行して、エンティティ間のリレーションシップを分析できるようにすることです。次のダイアグラムにグラフとして構築された組織の職員のデータを示します。エンティティは従業員や部門で、エッジは社内の直属の上下関係と従業員が勤務する部署を示しています。このグラフのエッジの矢印では、リレーションシップの方向が示されています。

Example of data in a graph data store

この構造により、"直属かどうかにかかわらず Sarah の下で働くすべての従業員を見つける" または "John と同じ部門で働いている人" などのクエリの実行が簡単になります。多数のエンティティとのリレーションシップがある大規模なグラフでは、複雑な分析をすばやく実行できます。多くのグラフデータベースは、リレーションシップのネットワークを効率的に走査するために使用できるクエリ言語を提供しています。

関連 Azure サービス:

Azure Cosmos DB Graph API

時系列データストア

時系列データは時間によって編成された一連の値であり、時系列データストアはこの種類のデータに合わせて最適化されています。時系列データストアは、通常多数のソースからリアルタイムで大量のデータを収集するため、きわめて大量の書き込みをサポートする必要があります。時系列データストアは、テレメトリデータの格納に合わせて最適化されています。シナリオには、IoT センサーやアプリケーション/システムカウンターが含まれます。更新はまれであり、削除は多くの場合に一括操作として行われます。

Example of time series data

時系列データベースに書き込まれるレコードは通常小さいですが、多くの場合にレコード数が多く、合計データサイズが急速に増大する可能性があります。また、時系列データストアは、順番どおりに到着しないデータ、遅れて到着するデータ、データポイントの自動インデックス付け、および時間枠の観点で記述されたクエリに合わせた最適化も処理します。この最後の機能を使用すると、時系列データを使用する一般的な方法である時系列の視覚化をサポートするために、何百万ものデータポイントと複数のデータストリームに対して高速にクエリを実行できます。

関連 Azure サービス:

オブジェクトデータストア

オブジェクトデータストアは、イメージ、テキストファイル、ビデオおよびオーディオストリーム、大規模アプリケーションデータオブジェクトとドキュメント、仮想マシンディスクイメージなど、大規模なバイナリオブジェクトまたは BLOB の格納と取得検索に合わせて最適化されています。オブジェクトは、格納されているデータ、いくつかのメタデータ、およびオブジェクトにアクセスするための一意の ID で構成されます。オブジェクトストアは、個々が非常に大きいファイルをサポートするために設計されています。また、すべてのファイルを管理するために合計サイズの大きなストレージも用意されています。

Example of object data

一部のオブジェクトデータストアは、複数のサーバーノード全体で指定された BLOB をレプリケートすることで、高速な並列読み取りを実現しています。このプロセスにより、大きなファイルに含まれるデータのスケールアウトクエリが可能になります。なぜなら、通常は異なるサーバーで実行される複数のプロセスが、それぞれ大きなデータファイルに対して同時にクエリを実行できるためです。

オブジェクトデータストアの特殊なケースの 1 つとして、ネットワークファイル共有があります。ファイル共有を使用すると、サーバーメッセージブロック (SMB) などの標準的なネットワークプロトコルを使用してネットワーク経由でファイルにアクセスできます。適切なセキュリティと同時実行アクセス制御メカニズムがあれば、この方法でデータを共有することで、単純な読み取りおよび書き込み要求などの基本的な低レベルの操作に対して、分散型サービスが高度にスケーラブルなデータアクセスを提供できるようになります。

関連 Azure サービス:

外部インデックスデータストア

外部インデックスデータストアには、他のデータストアおよびサービスで保持されている情報を検索する機能があります。外部インデックスは、任意のデータストアのセカンダリインデックスとして機能し、膨大な量のデータにインデックスを付けることができます。また、それらのインデックスにほぼリアルタイムでアクセスできます。

たとえば、テキストファイルをファイルシステムに格納することができます。ファイルパスを指定してファイルを見つけるのは簡単ですが、ファイルの内容に基づいて検索するには、すべてのファイルのスキャンが必要になりますが、その処理には時間がかかります。外部インデックスを使用すると、セカンダリ検索インデックスを作成し、条件に一致するファイルのパスをすばやく見つけることができます。外部インデックスのもう 1 つの応用例は、キーでのみインデックスを付けるキー/値のストアを使用する場合です。データの値に基づいてセカンダリインデックスを作成し、一致する各項目を一意に識別するキーをすばやく検索できます。

インデックスは、インデックス作成プロセスを実行して作成されます。インデックス作成は、データストアによってトリガーされるプルモデル、またはアプリケーションコードによって開始されるプッシュモデルを使用して実行できます。インデックスは、多次元にすることができ、大量のテキストデータ間でフリーテキスト検索をサポートできます。

外部インデックスデータストアは、フルテキストおよび Web ベースの検索をサポートするためによく使用されます。このような場合、完全一致検索またはあいまい検索を使用できます。あいまい検索では、一連の用語に一致するドキュメントを検索し、それらがどの程度一致しているかを計算します。一部の外部インデックスは、類義語、ジャンルの拡張 (たとえば、"犬" と "ペット" の一致など)、語幹検索 (たとえば、"run" を検索すると "ran" と "running" も一致するなど) に基づいて一致を返すことができる言語分析もサポートしています。

関連 Azure サービス:

Azure Search

一般的な要件

多くの場合、非リレーショナルデータストアは、リレーショナルデータベースで使用されるものとは異なるストレージアーキテクチャを使用します。具体的には、固定スキーマを持たない傾向があります。また、トランザクションをサポートしない傾向や、トランザクションの範囲を制限する傾向があり、スケーラビリティ上の理由からセカンダリインデックスが含まれないことが一般的です。

次の一覧は、各非リレーショナルデータストアの要件を比較したものです。

要件	ドキュメントデータ	列ファミリデータ	キー/値データ	グラフデータ
正規化	非正規化	非正規化	非正規化	正規化
スキーマ	読み取り時のスキーマ	書き込み時に定義される列ファミリ、読み取り時の列スキーマ	読み取り時のスキーマ	読み取り時のスキーマ
一貫性 (同時実行トランザクション全体)	調整可能な一貫性、ドキュメントレベルの保証	列ファミリレベルの保証	キーレベルの保証	グラフレベルの保証
原子性 (トランザクションスコープ)	コレクション	テーブル	テーブル	グラフ
ロック戦略	オプティミスティック (ロックフリー)	ペシミスティック (行ロック)	オプティミスティック (ETag)
アクセスパターン	ランダムアクセス	トール/ワイドデータの集計	ランダムアクセス	ランダムアクセス
インデックス作成	プライマリインデックスとセカンダリインデックス	プライマリインデックスとセカンダリインデックス	プライマリインデックスのみ	プライマリインデックスとセカンダリインデックス
データシェイプ	ドキュメント	列を含む列ファミリの表形式	キーと値	エッジと頂点を含むグラフ
スパース	はい	イエス	有効	いいえ
ワイド (列/属性数が多数)	はい	有効	No	いいえ
データサイズ	小規模 (KB) から中規模 (低 MB)	中規模 (MB) から大規模 (低 GB)	小規模 (KB)	小規模 (KB)
全体的な最大スケール	非常に大規模 (PB)	非常に大規模 (PB)	非常に大規模 (PB)	大規模 (TB)

要件	時系列データ	オブジェクトデータ	外部インデックスデータ
正規化	正規化	非正規化	非正規化
スキーマ	読み取り時のスキーマ	読み取り時のスキーマ	書き込み時のスキーマ
一貫性 (同時実行トランザクション全体)	該当なし	該当なし	該当なし
原子性 (トランザクションスコープ)	該当なし	Object	該当なし
ロック戦略	該当なし	ペシミスティック (BLOB ロック)	該当なし
アクセスパターン	ランダムアクセスと集計	順次アクセス	ランダムアクセス
インデックス作成	プライマリインデックスとセカンダリインデックス	プライマリインデックスのみ	該当なし
データシェイプ	表形式	BLOB とメタデータ	ドキュメント
スパース	いいえ	該当なし	いいえ
ワイド (列/属性数が多数)	いいえ	有効	はい
データサイズ	小規模 (KB)	大規模 (KB) から非常に大規模 (TB)	小規模 (KB)
全体的な最大スケール	大規模 (低 TB)	非常に大規模 (PB)	大規模 (低 TB)

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパル作成者:

Zoiner Tejada | CEO 兼アーキテクト

非リレーショナルデータと NoSQL

ドキュメントデータストア

単票形式データストア

キー/値のデータストア

グラフデータストア

時系列データストア

オブジェクトデータストア

外部インデックスデータストア

一般的な要件

共同作成者

次のステップ

フィードバック

フィードバック

その他のリソース

非リレーショナル データと NoSQL

ドキュメント データ ストア

単票形式データ ストア

キー/値のデータ ストア

グラフ データ ストア

時系列データ ストア

オブジェクト データ ストア

外部インデックス データ ストア

一般的な要件

共同作成者

次のステップ

関連リソース

フィードバック

フィードバック

その他のリソース

非リレーショナルデータと NoSQL

ドキュメントデータストア

単票形式データストア

キー/値のデータストア

グラフデータストア

時系列データストア

オブジェクトデータストア

外部インデックスデータストア