Speaker Recognition APISpeaker Recognition API

Azure Cognitive Services の Speaker Recognition API へようこそWelcome to the Azure Cognitive Services Speaker Recognition APIs. 話者認識 API は、最も高度な話者認証および話者識別アルゴリズムを提供するクラウド ベースの API です。Speaker Recognition APIs are cloud-based APIs that provide the most advanced algorithms for speaker verification and speaker identification. Speaker Recognition は、話者認証と話者識別の 2 つのカテゴリに分類できます。Speaker Recognition can be divided into two categories: speaker verification and speaker identification.

話者認証Speaker Verification

人の声には固有の特性があるため、指紋と同じように、ユーザーを一意に識別することができます。Voice has unique characteristics that can be used to identify a person, just like a fingerprint. アクセス制御および認証シナリオの信号として音声を使用する、新しい革新的なツールが登場しました。これにより、セキュリティ水準を高め、お客様の認証エクスペリエンスを簡素化します。Using voice as a signal for access control and authentication scenarios has emerged as a new innovative tool –essentially offering a level up in security that simplifies the authentication experience for customers.

話者認証 API は人の声や会話でユーザーを自動的に確認し、認証できます。Speaker Verification APIs can automatically verify and authenticate users using their voice or speech.


話者認証の登録はテキストに依存します。つまり、登録フェーズと検証フェーズの両方で、話者が使用する具体的なパス フレーズを選択する必要があります。Enrollment for speaker verification is text-dependent, which means speakers need to choose a specific pass phrase to use during both enrollment and verification phases.

登録フェーズでは、具体的なフレーズを発話することで話者の音声を記録し、その後いくつかの特徴が抽出され、選択したフレーズが認識されます。In enrollment, the speaker's voice is recorded saying a specific phrase, then a number of features are extracted and the chosen phrase is recognized. 抽出された特徴と選択したフレーズの両方を合わせることで、一意の声紋を形成します。Together, both extracted features and the chosen phrase form a unique voice signature.


検証フェーズでは、入力された音声とフレーズが、登録された声紋および語句と照合され、同一人物によって発話されているかどうか、また発話された語句が正しいかどうかが検証されます。In verification, an input voice and phrase are compared against the enrollment's voice signature and phrase –in order to verify whether or not they are from the same person, and if they are saying the correct phrase.

話者認証の詳細については、 話者 - 検証の API に関するページを参照してください。For more details about speaker verification, please refer to the API Speaker - Verification.

話者識別Speaker Identification

Speaker Identification API は、オーディオ ファイル内の話者を、指定した見込み話者のグループから自動的に識別します。Speaker Identification APIs can automatically identify the person speaking in an audio file, given a group of prospective speakers. 入力音声を指定した話者のグループと照合し、一致があった場合に話者の ID を返します。The input audio is paired against the provided group of speakers, and in the case that there is a match found, the speaker’s identity is returned.

すべての話者が、登録プロセスでそれぞれの声をシステムに登録し、声紋を作成しておく必要があります。All speakers should go through an enrollment process first to get their voice registered to the system, and have a voice print created.


話者識別の登録はテキストに依存しません。つまり、オーディオ内で話者が話す内容に制限はありません。Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. 話者の音声が記録され、いくつかの特徴が抽出されて一意の声紋を形成します。The speaker's voice is recorded, and a number of features are extracted to form a unique voice signature.


認識中は、一連の予測される話者と共に、不明話者のオーディオが提供されます。The audio of the unknown speaker, together with the prospective group of speakers, is provided during recognition. 入力された音声は、それが誰の声かを特定するためにすべての話者と照合され、一致が見つかった場合は、その話者の ID が返されます。The input voice is compared against all speakers in order to determine whose voice it is, and if there is a match found, the identity of the speaker is returned.

話者識別の詳細については、 話者 - 識別の API に関するページを参照してください。For more details about speaker identification, please refer to the API Speaker - Identification.