モデルをトレーニングするためにテキストデータにラベルを付ける

[アーティクル]
12/19/2023

モデルをトレーニングする前に、分類先するクラスでドキュメントにラベルを付ける必要があります。データのラベル付けは開発ライフサイクルにおける重要なステップです。この手順では、データを分類するクラスを作成し、そのクラスを使用してドキュメントにラベルを付けることができます。このデータは次のステップで使用され、ラベル付けされたデータから学習できるようにモデルをトレーニングします。データが既にラベル付けされている場合は、プロジェクトに直接インポートできますが、データが、許容されるデータ形式に従っていることを確認する必要があります。

カスタムテキスト分類モデルを作成する前に、まずラベル付けされたデータが必要です。データがまだラベル付けされていない場合は、Language Studio でラベルを付けることができます。ラベル付けされたデータは、テキストの解釈方法をモデルに示し、トレーニングと評価に使用されます。

前提条件

データにラベルを付けるには、以下が必要です。

構成済みの Azure Blob Storage アカウントで正常に作成されたプロジェクト
ストレージアカウントにアップロードされたテキストデータを含むドキュメント。

詳細については、「プロジェクト開発ライフサイクル」を参照してください。

データのラベル付けガイドライン

データを準備し、スキーマを設計し、プロジェクトを作成した後、データにラベルを付ける必要があります。データのラベル付けは、必要なクラスに関連するドキュメントをモデルから認識できるようにするために重要です。 Language Studio でデータにラベルを付ける (またはラベル付きデータをインポートする) と、これらのラベルは、このプロジェクトに接続したストレージコンテナーの JSON ファイルに格納されます。

データにラベルを付けるときは、次のことに注意してください。

一般に、データが正確にラベル付けされていれば、ラベル付けされたデータが多いほど良い結果が得られます。
ご自分のモデルが最高のパフォーマンスを発揮することを保証できる決まったラベルの数はありません。モデルのパフォーマンスは、スキーマで生じる可能性があるあいまいさと、ラベル付けされたデータの品質によります。それでも、クラスごとに 50 個のラベル付きドキュメントを用意することをお勧めします。

データにラベルを付ける

次の手順に従って、データにラベルを付けます。

Language Studio でプロジェクトのページに移動します。
左側のメニューから、[データのラベル付け] を選択します。ストレージコンテナー内のすべてのドキュメントのリストを見つけることができます。下の画像を参照してください。

ヒント

上部のメニューのフィルターを使用して、ラベル付けされていないファイルを表示し、ラベル付けを開始できます。フィルターを使用して、特定のクラスでラベル付けされているドキュメントを表示することもできます。
上部のメニューの左側から単一のファイルビューに変更するか、ラベル付けを開始する特定のファイルを選択します。プロジェクトで使用できるすべての .txt ファイルの一覧を、左側で確認できます。ページの下部にある[戻る] と[次へ] のボタンを使用して、ドキュメント間を移動できます。

注意

プロジェクトで複数の言語を有効にした場合は、上部のメニューに [言語] ドロップダウンがあり、ドキュメントごとに言語を選択できます。
右側のペインで、プロジェクトにクラスを追加して、データのラベル付けを開始できるようにします。
ファイルのラベル付けを開始します。
- マルチラベル分類
- 単一ラベルの分類
複数ラベル分類: ファイルを複数のクラスでラベル付けできます。これを行うには、このドキュメントをラベル付けするクラスの横にある該当するチェックボックスをすべてオンにします。

単一ラベル分類: ファイルを 1 つのクラスでのみラベル付けできます。これを行うには、ドキュメントをラベル付けするクラスの横にあるボタンのいずれかをオンにします。
自動ラベル付け機能を使用して、完全なラベル付けを確実に行うこともできます。
右側のペインの [ラベル] ピボットで、プロジェクト内のすべてのクラスと、それぞれのラベル付きインスタンスの数を確認できます。
右側のペインの下部セクションで、表示している現在のファイルをトレーニング用セットまたはテスト用セットに追加できます。既定では、すべてのドキュメントがトレーニングセットに追加されます。トレーニング用セットとテスト用セットの詳細と、モデルのトレーニングと評価に使用される方法について説明します。

ヒント

自動データ分割の使用を計画している場合は、すべてのドキュメントをトレーニング用セットに割り当てる既定のオプションを使用します。
[分布] ピボットの下で、トレーニング用セットとテスト用セット全体の分布を表示できます。表示には、2 つのオプションがあります。
- "インスタンスの合計数"。特定のクラスのすべてのラベル付きインスタンスの数を表示できます。
- "少なくとも 1 つのラベルが付いたドキュメント"。このクラスのラベル付きインスタンスが少なくとも 1 つ含まれている場合、各ドキュメントがカウントされます。
ラベルを付けているとき、変更は定期的に同期され、まだ保存していない場合は、ページの上部に警告が表示されます。手動で保存する場合は、ページの下部にある [ラベルの保存] ボタンを選択します。

ラベルを削除する

ラベルを削除する場合は、クラスの横にあるボタンをオフにします。

クラスの削除または名前変更

クラスを削除するには、削除するクラスの横にある削除アイコンを選択します。クラスを削除すると、すべてのラベル付きインスタンスがデータセットから削除されます。

次の手順

データのラベル付けが完了したら、データに基づいて学習するモデルのトレーニングを始めることができます。

モデルをトレーニングするためにテキスト データにラベルを付ける