Speaker Recognition이란?

Speaker Recognition 오디오 클립에서 말하는 사람을 결정하는 데 도움이 될 수 있습니다. 이 서비스는 음성 생체 분석을 사용하여 고유한 음성 특성으로 화자를 확인하고 식별할 수 있습니다.

단일 화자에 대한 오디오 학습 데이터를 제공하면 해당 화자 음성의 고유한 특성을 기반으로 등록 프로필이 생성됩니다. 그런 다음, 이 프로필에 대해 오디오 음성 샘플을 교차 확인하여 화자가 동일한 사람(화자 검증)인지 확인하거나 등록된 화자 프로필 그룹에 대해 오디오 음성 샘플을 교차 확인하여 그룹의 프로필(화자 식별)과 일치하는지 확인할 수 있습니다.

중요

Microsoft에서는 Speaker Recognition에 대한 액세스를 제한합니다. Azure Cognitive Services Speaker Recognition 제한된 액세스 검토를 통해 액세스를 신청할수 있습니다. 자세한 내용은 Speaker Recognition 대한 제한된 액세스를방문하세요.

화자 검증

화자 검증은 암호 또는 자유 형식의 음성 입력을 사용하여 등록된 화자의 ID를 확인하는 프로세스를 간소화합니다. 예를 들어 콜 센터 또는 연락처 없는 시설 액세스에서 고객 ID 확인에 사용할 수 있습니다.

화자 검증 작동 방법

Speaker Verification flowchart.

화자 검증은 텍스트 종속적이거나 텍스트 독립적일 수 있습니다. 텍스트 종속 검증을 사용하려면 화자가 등록 및 확인 단계에서 사용할 동일한 암호를 선택해야 합니다. 텍스트 독립 검증을 사용하면 화자가 등록 및 확인 문구를 일상적인 언어로 말할 수 있습니다.

텍스트 종속 검증의 경우 사전 정의된 구문 집합의 암호를 말하여 화자의 음성을 등록합니다. 음성 기능은 오디오 녹음에서 추출되어 고유한 음성 서명을 구성하며 선택한 암호도 인식됩니다. 음성 서명과 암호를 함께 사용하여 화자를 확인합니다.

텍스트 독립적 확인은 등록을 활성화하기 위한 초기 활성화 문구 외에 등록 중에 화자가 말하는 내용에 제한이 없습니다. 유사성 점수를 매기는 음성 기능만 추출하기 때문에 확인할 오디오 샘플에 대한 제한은 없습니다.

이 API는 오디오가 실제 사람의 오디오인지 등록된 화자의 모방/녹음인지 확인하는 용도로는 사용할 수 없습니다.

화자 식별

화자 식별은 등록된 화자 그룹 내에서 알 수 없는 화자의 신원을 확인하는 데 사용됩니다. 화자 식별을 사용하면 음성을 개별 화자에게 부여할 수 있으므로 다음과 같이 여러 화자가 있는 시나리오에서 유용합니다.

  • 원격 회의 생산성을 위한 지원 솔루션
  • 다중 사용자 디바이스 개인 설정 구축

화자 식별 작동 방법

화자 식별 등록은 텍스트 독립적이며,이는 등록을 활성화하기 위한 초기 활성화 문구 외에 오디오에서 화자가 말하는 내용에 제한이 없음을 의미합니다. Speaker Verification 마찬가지로, 화자의 음성이 등록 단계에 기록되고 음성 기능이 추출되어 고유한 음성 서명을 형성합니다. 식별 단계에서는 입력된 음성 샘플이 등록된 음성의 지정된 목록(각 요청마다 최대 50개)과 비교됩니다.

데이터 보안 및 개인 정보

스피커 등록 데이터는 등록용 음성 오디오 및 음성 서명 기능을 포함하여 보안 시스템에 저장됩니다. 등록용 음성 오디오는 알고리즘이 업그레이드된 경우에만 사용되며 특징을 다시 추출해야 합니다. 서비스는 인식 단계 동안 서비스로 전송되는 음성 녹음 또는 추출된 음성 특징을 보관하지 않습니다.

데이터 보존 기간은 사용자가 제어합니다. API 호출을 통해 개별 화자의 등록 데이터를 생성, 업데이트 및 삭제할 수 있습니다. 구독이 삭제되면 구독과 연결된 모든 화자 등록 데이터도 삭제됩니다.

모든 Cognitive Services 리소스와 마찬가지로 Speaker Recognition 서비스를 사용하는 개발자는 고객 데이터에 대한 Microsoft 정책을 알고 있어야 합니다. Speaker Recognition을 위해서는 사용자로부터 적절한 권한을 받았는지 확인해야 합니다. 자세한 내용은 Speaker Recognition 데이터 및 개인 정보에서찾을 수 있습니다. 자세한 내용은 Microsoft Trust Center의 Cognitive Services 페이지를 참조하세요.

일반적인 질문 및 솔루션

질문 해결 방법
Speaker Recognition은 어떤 시나리오에 사용할 수 있나요? 콜 센터 고객 검증, 음성 기반 환자 체크인, 회의 전사, 다중 사용자 디바이스 개인 설정
식별과 검증의 차이점은 무엇인가요? 식별은 화자 그룹에서 어떤 구성원이 말하고 있는지 감지하는 프로세스입니다. 검증은 화자가 알려진 또는 등록된 음성과 일치하는지 확인하는 작업입니다.
텍스트 종속 검증과 텍스트 독립 검증의 차이점은 무엇인가요? 텍스트 종속 검증에는 등록 및 인식을 위한 특정 암호가 필요합니다. 텍스트 독립적 확인에는 등록을 위해 특정 활성화 문구로 시작해야 하는 더 긴 음성 샘플이 필요하지만 인식 중을 포함하여 모든 것을 말할 수 있습니다.
어떤 언어가 지원되나요? 화자 인식 언어 지원을 참조하세요.
어떤 Azure 지역이 지원되나요? 화자 인식 지역 지원을 참조하세요.
지원되는 오디오 형식은 무엇인가요? Mono 16비트, 16kHz PCM 인코딩 WAV
수락거부 응답이 정확하지 않습니다. 임계값을 조정하려면 어떻게 해야 하나요? 최적 임계값은 시나리오에 따라 매우 다양하기 때문에 서비스는 기본 임계값 0.5에 따라 수락 또는 거부할지 여부를 결정합니다. 기본 결정을 재정의하고 사용자 고유의 시나리오에 따라 결과를 미세 조정해야 합니다.
한 명의 화자를 여러 번 등록할 수 있나요? 예, 텍스트 종속 검증의 경우 최대 50번까지 화자를 등록할 수 있습니다. 텍스트 독립 검증 또는 화자 식별의 경우 최대 300초의 오디오를 등록할 수 있습니다.
Azure에는 어떤 데이터가 저장되나요? 등록 오디오는 음성 프로필을 삭제할 때까지 서비스에 저장됩니다. 인식 오디오 샘플은 유지되거나 저장되지 않습니다.

다음 단계