microsoft-cognitiveservices-speech-sdk package

Klasy

ActivityReceivedEventArgs

Definiuje zawartość odebranego komunikatu/zdarzeń.

AudioConfig

Reprezentuje konfigurację danych wejściowych audio używanych do określania typu danych wejściowych do użycia (mikrofon, plik, strumień).

AudioInputStream

Reprezentuje strumień wejściowy audio używany do niestandardowych konfiguracji danych wejściowych audio.

AudioOutputStream

Reprezentuje strumień wyjściowy audio używany do niestandardowych konfiguracji danych wyjściowych dźwięku.

AudioStreamFormat

Reprezentuje format strumienia audio używany do niestandardowych konfiguracji danych wejściowych audio.

AutoDetectSourceLanguageConfig

Automatyczna konfiguracja wykrywania języka.

AutoDetectSourceLanguageResult

Format danych wyjściowych

AvatarConfig

Definiuje konfigurację mówiącego awatara.

AvatarEventArgs

Definiuje zawartość do rozmów zdarzeń awatara.

AvatarSynthesizer

Definiuje syntetyzator awatara.

AvatarVideoFormat

Definiuje format wideo wyjściowego awatara.

AvatarWebRTCConnectionResult

Definiuje wynik połączenia awatara WebRTC.

BaseAudioPlayer

Podstawowa klasa TODO odtwarzacza audio: odtwarza tylko PCM na razie.

BotFrameworkConfig

Klasa definiująca konfiguracje obiektu łącznika usługi dialogowej na potrzeby korzystania z zaplecza platformy Bot Framework.

CancellationDetails

Zawiera szczegółowe informacje o tym, dlaczego wynik został anulowany.

CancellationDetailsBase

Zawiera szczegółowe informacje o tym, dlaczego wynik został anulowany.

Connection

Połączenie to klasa serwera proxy do zarządzania połączeniem z usługą rozpoznawania mowy określonego rozpoznawania. Domyślnie rozpoznawanie autonomiczne zarządza połączeniem z usługą w razie potrzeby. Klasa Connection udostępnia dodatkowe metody jawnego otwierania lub zamykania połączenia oraz subskrybowania zmian stanu połączenia. Użycie połączenia jest opcjonalne i dotyczy głównie scenariuszy, w których wymagane jest precyzyjne dostrajanie zachowania aplikacji na podstawie stanu połączenia. Użytkownicy mogą opcjonalnie wywołać metodę Open(), aby ręcznie skonfigurować połączenie z wyprzedzeniem przed rozpoczęciem rozpoznawania w rozpoznawaniu skojarzonym z tym połączeniem. Jeśli narzędzie rozpoznawania musi nawiązać połączenie lub rozłączyć się z usługą, skonfiguruje lub wyłączy połączenie niezależnie. W takim przypadku połączenie zostanie powiadomione o zmianie stanu połączenia za pośrednictwem zdarzeń Połączony/Rozłączony. Dodano w wersji 1.2.1.

ConnectionEventArgs

Definiuje ładunek dla zdarzeń połączenia, takich jak Połączone/Rozłączone. Dodano w wersji 1.2.0

ConnectionMessage

ConnectionMessage reprezentuje komunikaty specyficzne dla implementacji wysyłane do i odbierane z usługi mowy. Te komunikaty są udostępniane do celów debugowania i nie powinny być używane w przypadku przypadków użycia w środowisku produkcyjnym w usłudze Mowa w usługach Azure Cognitive Services. Komunikaty wysyłane do usługi mowa i odbierane z tej usługi mogą ulec zmianie bez powiadomienia. Obejmuje to zawartość wiadomości, nagłówki, ładunki, kolejność itp. Dodano w wersji 1.11.0.

ConnectionMessageEventArgs
Conversation
ConversationExpirationEventArgs

Definiuje zawartość zdarzeń sesji, takich jak SessionStarted/Stopped, SoundStarted/Stopped.

ConversationParticipantsChangedEventArgs

Definiuje zawartość zdarzeń sesji, takich jak SessionStarted/Stopped, SoundStarted/Stopped.

ConversationTranscriber

Wykonuje rozpoznawanie mowy z oddzieleniem osoby mówiącej od mikrofonu, pliku lub innych strumieni wejściowych audio i otrzymuje transkrypcję tekstu w wyniku.

ConversationTranscriptionCanceledEventArgs

Definiuje zawartość elementu RecognitionErrorEvent.

ConversationTranscriptionEventArgs

Definiuje zawartość zdarzenia transkrybowanego/transkrypcji konwersacji.

ConversationTranscriptionResult

Definiuje wynik transkrypcji konwersacji.

ConversationTranslationCanceledEventArgs
ConversationTranslationEventArgs

Definiuje ładunek dla zdarzeń sesji, takich jak początek/koniec mowy wykryte

ConversationTranslationResult

Wynik tłumaczenia tekstu.

ConversationTranslator

Dołącz, pozostaw lub połącz się z konwersacją.

Coordinate

Definiuje współrzędną w przestrzeni 2D.

CustomCommandsConfig

Klasa, która definiuje konfiguracje obiektu łącznika usługi dialogowej do używania zaplecza CustomCommands.

Diagnostics

Definiuje interfejs API diagnostyki do zarządzania danymi wyjściowymi konsoli dodanymi w wersji 1.21.0

DialogServiceConfig

Klasa definiująca podstawowe konfiguracje łącznika usługi dialogowej

DialogServiceConnector

Łącznik usługi dialogowej

IntentRecognitionCanceledEventArgs

Zdefiniuj ładunek anulowanych zdarzeń wyników rozpoznawania intencji.

IntentRecognitionEventArgs

Argumenty zdarzeń wyniku rozpoznawania intencji.

IntentRecognitionResult

Wynik rozpoznawania intencji.

IntentRecognizer

Rozpoznawanie intencji.

KeywordRecognitionModel

Reprezentuje model rozpoznawania słów kluczowych do rozpoznawania, gdy użytkownik mówi słowo kluczowe, aby zainicjować dalsze rozpoznawanie mowy.

LanguageUnderstandingModel

Model interpretacji języka

Meeting
MeetingTranscriber
MeetingTranscriptionCanceledEventArgs

Definiuje zawartość obiektu MeetingTranscriptionCanceledEvent.

MeetingTranscriptionEventArgs

Definiuje zawartość zdarzenia transkrypcji/transkrypcji spotkania.

NoMatchDetails

Zawiera szczegółowe informacje dotyczące wyników rozpoznawania NoMatch.

Participant

Reprezentuje uczestnika konwersacji. Dodano w wersji 1.4.0

PhraseListGrammar

Umożliwia dodawanie nowych fraz w celu poprawy rozpoznawania mowy.

Frazy dodane do rozpoznawania są skuteczne na początku następnego rozpoznawania lub następnym razem, gdy zestaw SpeechSDK musi ponownie nawiązać połączenie z usługą mowy.

PronunciationAssessmentConfig

Konfiguracja oceny wymowy.

PronunciationAssessmentResult

Wyniki oceny wymowy.

PropertyCollection

Reprezentuje kolekcję właściwości i ich wartości.

PullAudioInputStream

Reprezentuje strumień wejściowy audio używany do niestandardowych konfiguracji danych wejściowych audio.

PullAudioInputStreamCallback

Abstrakcyjna klasa bazowa, która definiuje metody wywołania zwrotnego (read() i close()) dla niestandardowych strumieni wejściowych audio).

PullAudioOutputStream

Reprezentuje oparty na pamięci strumień danych wyjściowych wypychanych dźwięku używany do niestandardowych konfiguracji danych wyjściowych audio.

PushAudioInputStream

Reprezentuje oparty na pamięci strumień wejściowy wypychania audio używany do niestandardowych konfiguracji danych wejściowych audio.

PushAudioOutputStream

Reprezentuje strumień wyjściowy audio używany do niestandardowych konfiguracji danych wyjściowych dźwięku.

PushAudioOutputStreamCallback

Abstrakcyjna klasa bazowa, która definiuje metody wywołania zwrotnego (write() i close()) dla niestandardowych strumieni wyjściowych audio).

RecognitionEventArgs

Definiuje ładunek dla zdarzeń sesji, takich jak początek/koniec mowy wykryte

RecognitionResult

Definiuje wynik rozpoznawania mowy.

Recognizer

Definiuje klasę bazową Rozpoznawanie, która zawiera głównie typowe programy obsługi zdarzeń.

ServiceEventArgs

Definiuje ładunek dla dowolnego zdarzenia komunikatu usługi Dodane w wersji 1.9.0

SessionEventArgs

Definiuje zawartość zdarzeń sesji, takich jak SessionStarted/Stopped, SoundStarted/Stopped.

SourceLanguageConfig

Konfiguracja języka źródłowego.

SpeakerAudioDestination

Reprezentuje miejsce docelowe odtwarzania dźwięku osoby mówiącej, które działa tylko w przeglądarce. Uwaga: zestaw SDK spróbuje użyć rozszerzeń źródła multimediów do odtwarzania dźwięku. Format Mp3 ma lepszą obsługę w przeglądarce Microsoft Edge, Chrome i Safari (na pulpicie), dlatego lepiej jest określić format mp3 do odtwarzania.

SpeakerIdentificationModel

Definiuje klasę SpeakerIdentificationModel dla modelu rozpoznawania osoby mówiącej zawiera zestaw profilów, dla których można zidentyfikować osoby mówiące

SpeakerRecognitionCancellationDetails
SpeakerRecognitionResult

Format danych wyjściowych

SpeakerRecognizer

Definiuje klasę SpeakerRecognizer dla operacji rozpoznawania osoby mówiącej na podstawie operacji profilu głosowego (np. createProfile, deleteProfile)

SpeakerVerificationModel

Definiuje klasę SpeakerVerificationModel dla modelu rozpoznawania osoby mówiącej zawiera profil umożliwiający zweryfikowanie osoby mówiącej

SpeechConfig

Konfiguracja mowy.

SpeechConfigImpl
SpeechRecognitionCanceledEventArgs
SpeechRecognitionEventArgs

Definiuje zawartość zdarzenia rozpoznawania/rozpoznawania mowy.

SpeechRecognitionResult

Definiuje wynik rozpoznawania mowy.

SpeechRecognizer

Wykonuje rozpoznawanie mowy z mikrofonu, pliku lub innych strumieni wejściowych audio i otrzymuje transkrypcję tekstu w wyniku.

SpeechSynthesisBookmarkEventArgs

Definiuje zawartość zdarzenia zakładki syntezy mowy.

SpeechSynthesisEventArgs

Definiuje zawartość zdarzeń syntezy mowy.

SpeechSynthesisResult

Definiuje wynik syntezy mowy.

SpeechSynthesisVisemeEventArgs

Definiuje zawartość zdarzenia viseme syntezy mowy.

SpeechSynthesisWordBoundaryEventArgs

Definiuje zawartość zdarzenia granic słowa syntezy mowy.

SpeechSynthesizer

Definiuje klasę SpeechSynthesizer dla zamiany tekstu na mowę. Zaktualizowano w wersji 1.16.0

SpeechTranslationConfig

Konfiguracja tłumaczenia mowy.

SynthesisResult

Klasa bazowa na potrzeby wyników syntezy

SynthesisVoicesResult

Definiuje wynik syntezy mowy.

Synthesizer
TranslationRecognitionCanceledEventArgs

Zdefiniuj ładunek anulowanych zdarzeń wyników rozpoznawania mowy.

TranslationRecognitionEventArgs

Argumenty zdarzenia wyniku tłumaczenia tekstu.

TranslationRecognitionResult

Wynik tłumaczenia tekstu.

TranslationRecognizer

Rozpoznawanie tłumaczenia

TranslationSynthesisEventArgs

Argumenty zdarzenia syntezy tłumaczenia

TranslationSynthesisResult

Definiuje wynik syntezy tłumaczenia, czyli dane wyjściowe głosu przetłumaczonego tekstu w języku docelowym.

Translations

Reprezentuje kolekcję parametrów i ich wartości.

TurnStatusReceivedEventArgs

Definiuje zawartość odebranego komunikatu/zdarzeń.

User
VoiceInfo

Informacje o głosie syntezy mowy dodane w wersji 1.20.0.

VoiceProfile

Definiuje klasę profilu głosowego na potrzeby rozpoznawania osoby mówiącej

VoiceProfileCancellationDetails
VoiceProfileClient

Definiuje klasę VoiceProfileClient dla operacji rozpoznawania osoby mówiącej na podstawie operacji profilu głosowego (np. createProfile, deleteProfile)

VoiceProfileEnrollmentCancellationDetails
VoiceProfileEnrollmentResult

Format danych wyjściowych

VoiceProfilePhraseResult

Format danych wyjściowych

VoiceProfileResult

Format danych wyjściowych

Interfejsy

CancellationEventArgs
ConversationInfo
IParticipant

Reprezentuje uczestnika konwersacji. Dodano w wersji 1.4.0

IPlayer

Reprezentuje interfejs odtwarzacza audio do kontrolowania odtwarzania dźwięku, takiego jak wstrzymywanie, wznawianie itp.

MeetingInfo
VoiceSignature

Wyliczenia

AudioFormatTag
CancellationErrorCode

Definiuje kod błędu w przypadku, gdy element CancellationReason to Błąd. Dodano w wersji 1.1.0.

CancellationReason

Definiuje możliwe przyczyny anulowania wyniku rozpoznawania.

LanguageIdMode

Tryb identyfikacji języka

LogLevel
NoMatchReason

Definiuje możliwe przyczyny, dla których wynik rozpoznawania może nie zostać rozpoznany.

OutputFormat

Zdefiniuj formaty danych wyjściowych rozpoznawania mowy.

ParticipantChangedReason
ProfanityOption

Opcja wulgaryzmów. Dodano w wersji 1.7.0.

PronunciationAssessmentGradingSystem

Definiuje system punktów do kalibracji wyniku wymowy; wartość domyślna to FivePoint. Dodano w wersji 1.15.0

PronunciationAssessmentGranularity

Definiuje stopień szczegółowości oceny wymowy; wartość domyślna to Phoneme. Dodano w wersji 1.15.0

PropertyId

Definiuje identyfikatory właściwości mowy.

ResultReason

Definiuje możliwe przyczyny wygenerowania wyniku rozpoznawania.

ServicePropertyChannel

Definiuje kanały używane do przekazywania ustawień właściwości do usługi. Dodano w wersji 1.7.0.

SpeakerRecognitionResultType
SpeechSynthesisBoundaryType

Definiuje typ granicy zdarzenia granic syntezy mowy.

SpeechSynthesisOutputFormat

Zdefiniuj formaty danych wyjściowych syntezy mowy. SpeechSynthesisOutputFormat zaktualizowano w wersji 1.17.0

VoiceProfileType

Format danych wyjściowych