Share via


회의 대화 내용 기록이란? (미리 보기)

회의 대화 내용 기록은 모든 회의의 실시간 또는 비동기 녹취를 제공하는 음성 텍스트 변환 솔루션입니다. 현재 미리 보기 상태인 이 기능은 음성 인식, 화자 식별, 문장 특성을 결합하여 대화에서 누가, 언제, 무엇을 말했는지를 파악합니다.

Important

이전의 “대화 내용 기록” 시나리오의 이름이 “회의 대화 내용기록”으로 바뀝니다. 예를 들어 ConversationTranscriber 대신 MeetingTranscriber를 사용하고, CreateConversationAsync 대신 CreateMeetingAsync을 사용합니다. 사용자 프로필 및 음성 서명을 사용하지 않고 새로운 “대화 내용 기록” 기능이 릴리스됩니다. 자세한 내용은 릴리스 정보를 참조하세요.

주요 특징

다음과 같은 회의 대화 내용 기록 기능이 유용할 수 있습니다.

  • 타임스탬프: 각 화자 발화에는 타임스탬프가 있으므로 언제 구문을 이야기했는지 쉽게 찾을 수 있습니다.
  • 읽을 수 있는 음성 텍스트: 음성 텍스트에 서식과 문장 부호가 자동으로 추가되어 텍스트가 실제 발화와 근접하게 일치합니다.
  • 사용자 프로필: 사용자 음성 샘플을 수집하고 이를 서명 생성으로 전송하여 사용자 프로필을 생성합니다.
  • 화자 식별: 사용자 프로필을 사용하여 화자가 식별되고 각각에게 화자 식별자가 할당됩니다.
  • 다중 화자 분할: 오디오 스트림과 각 화자 식별자를 합성하여 누가 말을 했는지 파악합니다.
  • 실시간 대화 내용 기록 – 대화가 진행되는 동안 누가, 언제, 무슨 말을 했는지에 대한 실시간 음성 텍스트가 제공됩니다.
  • 비동기 대화 내용 기록: 다중 채널 오디오 스트림을 사용하여 정확도가 높은 음성 텍스트를 제공합니다.

참고 항목

회의 대화 내용 기록에는 화자 수에 제한이 없지만 세션당 2~10명의 화자에 최적화되어 있습니다.

시작하기

시작하려면 실시간 회의 대화 내용 기록 빠른 시작을 참조하세요.

사용 사례

청각 장애가 있거나 난청이 있는 사람을 포함한 모든 참가자가 참석할 수 있는 회의가 되려면 실시간으로 대화 내용 기록을 유지하는 것이 중요합니다. 실시간 모드의 대화 내용 기록에서는 회의 오디오를 사용하고 누가 무슨 말을 하고 있는지 파악하므로 모든 회의 참가자가 음성 텍스트를 따라가며 지연 없이 회의에 참여할 수 있습니다.

회의 참가자는 회의에 집중할 수 있으며, 메모를 할 필요가 없습니다. 참가자는 회의 도중 메모를 남기다 내용을 놓치는 대신 음성 텍스트를 활용하여 회의에 적극적으로 참여하고 빠르게 다음 단계를 진행할 수 있습니다.

작동 방식

다음 다이어그램에서는 기능 작동 방식에 대한 개략적인 개요를 보여줍니다.

Diagram that shows the relationships among different pieces of the meeting transcription solution.

예상 입력

대화 내용 기록은 다음 두 가지 유형의 입력을 사용합니다.

  • 다중 채널 오디오 스트림: 사양 및 설계 세부 정보는 마이크 배열 권장 사항을 참조하세요.
  • 사용자 음성 샘플: 화자 식별에 대한 대화에 앞서 대화 내용 기록에 사용자 프로필이 필요합니다. 각 사용자로부터 오디오 녹음을 수집한 다음, 서명 생성 서비스로 녹음을 보내 오디오의 유효성을 검사하고 사용자 프로필을 생성합니다.

참고 항목

대화 내용 기록에 대한 단일 채널 오디오 구성은 현재 프라이빗 미리 보기에서만 사용할 수 있습니다.

음성 서명에 대한 사용자 음성 샘플은 화자 식별에 필요합니다. 음성 샘플이 없는 화자는 미확인으로 인식됩니다. DifferentiateGuestSpeakers 속성이 활성화된 경우 알 수 없는 화자가 계속 차별화될 수 있습니다(다음 예제 참조). 그런 다음, 대화 내용 기록 출력은 화자를 미리 등록된 특정 화자 이름으로 인식하는 대신 Guest_0Guest_1로 표시합니다.

config.SetProperty("DifferentiateGuestSpeakers", "true");

실시간 또는 비동기

다음 섹션에서는 선택할 수 있는 대화 내용 기록 모드에 대해 자세히 설명합니다.

실시간

오디오 데이터가 라이브로 처리되어 화자 식별자와 음성 텍스트를 반환합니다. 대화 내용 기록 솔루션 요구 사항이 회의 참가자에게 진행 중인 회의의 실시간 음성 텍스트 보기를 제공해야 하는 경우 이 모드를 선택합니다. 예를 들어 청각 장애인과 난청이 있는 참가자가 회의에 더 쉽게 참가할 수 있도록 애플리케이션을 빌드하는 것이 실시간 대화 내용 기록의 이상적인 사용 사례입니다.

비동기

오디오 데이터가 일괄 처리되어 화자 식별자와 음성 텍스트를 반환합니다. 대화 내용 기록 솔루션 요구 사항이 실시간 음성 텍스트 보기 없이 더 높은 정확도를 제공하는 것인 경우 이 모드를 선택합니다. 예를 들어 회의 참가자가 놓친 회의 내용을 쉽게 파악할 수 있도록 애플리케이션을 빌드하려면 비동기 대화 내용 기록 모드를 사용하여 정확도가 높은 대화 내용 기록을 얻을 수 있습니다.

실시간 + 비동기

오디오 데이터가 라이브로 처리되어 화자 식별자 및 음성 텍스트를 반환하며, 추가로 비동기 처리를 통해 정확도가 높은 음성 텍스트를 요청합니다. 애플리케이션에 실시간 대화 내용 기록이 필요하고 회의 종료 후 사용하기 위해 정확도가 더 높은 음성 텍스트가 필요한 경우 이 모드를 선택합니다.

언어 지원

현재 대화 기록은 다음 지역에서 모든 음성 텍스트 변환 언어를 지원합니다. centralus, eastasia, eastus, westeurope.

다음 단계