クラスター値
クラスター値では、あいまい一致アルゴリズムを使用して類似する値を持つグループが自動的に作成され、各列の値が最も一致するグループにマップされます。 この変換は、同じ値の多くの異なるバリエーションがあるデータを使用していて、値を一貫性のあるグループに結合する必要がある場合に非常に便利です。
一連の ID を含む id 列と、Miguel、Mike、William、Bill という名前の一連のさまざまなスペルと大文字で始まるバージョンを含む Person 列を持つサンプル テーブルについて考えてみます。

この例では、求めている結果は、同じ単語のすべての異なるバリエーションではなく、Person 列の適切な値のグループを示す新しい列を持つテーブルです。

注意
クラスター値機能は、Power Query Online でのみ使用できます。
Cluster 列を作成する
値をクラスター化するには、まず [Person] 列を選択し、リボンの [列の追加] タブに移動し、 [クラスター値] オプションを選択します。
![]()
[クラスター値] ダイアログ ボックスで、クラスターの作成に使用する列を確認し、新しい列の名前を入力します。 ここでは、この新しい列に Cluster という名前を付けします。
![[Person] 列が選択され、[新しい列名] に "Cluster" が設定された [クラスター値] ウィンドウ。](images/cluster-column-window-default.png)
その操作では、次の図に示す結果になります。

注意
値のクラスターごとに、選択した列で最も頻繁に出現するインスタンスが Power Query によって "正規" インスタンスとして選択されます。 複数のインスタンスが同じ頻度で出現している場合は、Power Query によって最初のインスタンスが選択されます。
あいまいクラスター オプションを使用する
新しい列に値をクラスタリングするには、次のオプションを使用できます。
- [類似性のしきい値 (省略可能)] : このオプションでは、2 つの値をグループ化するにはどの程度類似している必要があるかを示します。 最小設定の 0 では、すべての値がグループ化されます。 最大設定の 1 では、厳密に一致する値のみがグループ化されます。 既定値は 0.8 です。
- [大文字と小文字を区別しない] : テキスト文字列を比較するときに、大文字と小文字が無視されます。 このオプションは、既定で有効です。
- [テキストのパーツを組み合わせてグループ化する] : このアルゴリズムでは、テキストのパーツを組み合わせて (Micro と soft を Microsoft に組み合わせるなど) 値をグループ化することを試みます。
- [類似性スコアの表示] : あいまいクラスタリングの後の入力値と計算された代表値の間の類似度スコアを表示します。
- [変換テーブル (省略可能)] : 値をマップして (MSFT を Microsoft にマッピングするなど) それらをグループ化する変換テーブルを選択できます。
この例では、My transform table という新しい変換テーブルを使用して、値をマップする方法を示します。 この変換テーブルには、次の 2 つの列があります。
- From: テーブル内で検索するテキスト文字列。
- To: From 列のテキスト文字列を置き換えるために使用されるテキスト文字列。

重要
前の図に示されているように、変換テーブルの列と列名が同じであることが重要です ("From" と "To" という名前である必要があります)。そうしないと、Power Query でこのテーブルが変換テーブルとして認識されず、変換は実行されません。
前に作成したクエリを使用して、 [クラスター化された値] ステップをダブルクリックし、 [クラスター値] ダイアログ ボックスで [あいまいクラスター オプション] を展開します。 [あいまいクラスター オプション] の [類似性スコアの表示] オプションを有効にします。 [変換テーブル (省略可能)] で、変換テーブルを持つクエリを選択します。

変換テーブルを選択して [類似性スコアの表示] オプションを有効にしたら、 [OK] を選択します。 その操作の結果には、元のテーブルと同じ id 列と Person 列を含むテーブルが表示されますが、右側に Cluster と Person_Cluster_Similarity という 2 つの新しい列も含まれています。 Cluster 列には、適切にスペリングされて大文字で始まるバージョンの名前の Miguel (Miguel と Mike のバージョンの場合) と William (Bill、Billy、William のバージョンの場合) が含まれています。 Person_Cluster_Similarity 列には、各名前の類似性スコアが含まれています。
