speech Balíček

Microsoft Speech SDK pro Python

Moduly

audio

Třídy, které se zabývají zpracováním zvukového vstupu do různých rozpoznávatelů a zvukový výstup ze syntetizátoru řeči.

dialog

Třídy související s konektorem služby dialogového okna

enums

Microsoft Speech SDK pro Python

intent

Třídy související s rozpoznáváním záměru z řeči

interop

Microsoft Speech SDK pro Python

languageconfig

Třídy, které se zabývají zpracováním jazykových konfigurací

properties

Microsoft Speech SDK pro Python

speech

Třídy související s rozpoznáváním textu z řeči, syntetizací řeči z textu a obecnými třídami používanými v různých nástrojích pro rozpoznávání.

transcription

Třídy související s přepisem konverzace.

translation

Třídy související s překladem řeči do jiných jazyků.

version

Microsoft Speech SDK pro Python

Třídy

AudioDataStream

Představuje zvukový datový proud používaný pro provoz zvukových dat jako datového proudu.

Generuje zvukový datový proud z výsledku syntézy řeči (typ SpeechSynthesisResult) nebo výsledku rozpoznávání klíčových slov (typ KeywordRecognitionResult).

AutoDetectSourceLanguageResult

Představuje výsledek automatického rozpoznávání zdrojového jazyka.

Výsledek lze inicializovat z výsledku rozpoznávání řeči.

CancellationDetails

Microsoft Speech SDK pro Python

Connection

Třída proxy pro správu připojení k řečové službě zadaného Recognizerobjektu .

Ve výchozím nastavení nezávisle Recognizer spravuje připojení ke službě v případě potřeby. Třída Connection poskytuje uživatelům další metody explicitně otevřít nebo zavřít připojení a přihlásit se k odběru změn stavu připojení. Použití je Connection volitelné. Je určená pro scénáře, kde je potřeba doladit chování aplikace na základě stavu připojení. Uživatelé mohou volitelně volat open , aby ručně inicializovali připojení služby před zahájením rozpoznávání u přidruženého Recognizer k tomuto Connection. Po spuštění rozpoznávání může volání open nebo close selhat. To nebude mít vliv na rozpoznávání ani probíhající rozpoznávání. Připojení může z různých důvodů vypadnout. Rozpoznávání se vždy pokusí znovu vytvořit připojení podle potřeby, aby se zajistily průběžné operace. Ve všech těchto případech connected/disconnected události oznamují změnu stavu připojení.

Poznámka

Aktualizováno ve verzi 1.17.0.

Konstruktor pro interní použití.

ConnectionEventArgs

Poskytuje data pro ConnectionEvent.

Poznámka

Přidáno ve verzi 1.2.0

Konstruktor pro interní použití.

EventSignal

Klienti se můžou připojit ke signálu události, aby mohli přijímat události, nebo se odpojit od signálu událostí, aby zastavili příjem událostí.

Konstruktor pro interní použití.

KeywordRecognitionEventArgs

Třída pro argumenty události rozpoznávání klíčových slov

Konstruktor pro interní použití.

KeywordRecognitionModel

Představuje model rozpoznávání klíčových slov.

KeywordRecognitionResult

Výsledek operace rozpoznávání klíčových slov.

Konstruktor pro interní použití.

KeywordRecognizer

Rozpoznávání klíčových slov.

NoMatchDetails

Microsoft Speech SDK pro Python

PhraseListGrammar

Třída, která umožňuje za běhu přidávání frází pro pomoc při rozpoznávání řeči.

Fráze přidané do rozpoznávání se projeví na začátku dalšího rozpoznávání nebo při příštím, kdy se rozpoznávání řeči musí znovu připojit ke službě rozpoznávání řeči.

Poznámka

Přidáno ve verzi 1.5.0.

Konstruktor pro interní použití.

PronunciationAssessmentConfig

Představuje konfiguraci posouzení výslovnosti.

Poznámka

Přidáno ve verzi 1.14.0.

Konfiguraci je možné inicializovat dvěma způsoby:

  • from parameters: pass reference text, grading system, granularity, enable miscue and scenario ID.

  • from json: pass a json string

Podrobnosti o parametrech najdete v tématu https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

Obsahuje výsledek vyhodnocení výslovnosti na úrovni fonemu.

Poznámka

Přidáno ve verzi 1.14.0.

PronunciationAssessmentResult

Představuje výsledek vyhodnocení výslovnosti.

Poznámka

Přidáno ve verzi 1.14.0.

Výsledek lze inicializovat z výsledku rozpoznávání řeči.

PronunciationAssessmentWordResult

Obsahuje výsledek vyhodnocení výslovnosti na úrovni slova.

Poznámka

Přidáno ve verzi 1.14.0.

PropertyCollection

Třída pro načtení nebo nastavení hodnoty vlastnosti z kolekce vlastností.

RecognitionEventArgs

Poskytuje data pro RecognitionEvent.

Konstruktor pro interní použití.

RecognitionResult

Podrobné informace o výsledku operace rozpoznávání.

Konstruktor pro interní použití.

Recognizer

Základní třída pro různé rozpoznávání

ResultFuture

Výsledek asynchronní operace.

privátní konstruktor

SessionEventArgs

Základní třída pro argumenty událostí relace.

Konstruktor pro interní použití.

SourceLanguageRecognizer

Rozpoznávání zdrojového jazyka – samostatný nástroj pro rozpoznávání jazyka, který se dá použít pro rozpoznávání jednoho jazyka nebo průběžné rozpoznávání jazyka.

Poznámka

Přidáno ve verzi 1.18.0.

SpeechConfig

Třída, která definuje konfigurace rozpoznávání řeči / záměru a syntézy řeči.

Konfiguraci je možné inicializovat různými způsoby:

  • z předplatného: předání klíče předplatného a oblasti

  • z koncového bodu: předejte koncový bod. Klíč předplatného nebo autorizační token jsou volitelné.

  • z hostitele: předejte adresu hostitele. Klíč předplatného nebo autorizační token jsou volitelné.

  • z autorizačního tokenu: předání autorizačního tokenu a oblasti

SpeechRecognitionCanceledEventArgs

Třída pro argumenty události zrušení rozpoznávání řeči

Konstruktor pro interní použití.

SpeechRecognitionEventArgs

Třída pro argumenty události rozpoznávání řeči

Konstruktor pro interní použití.

SpeechRecognitionResult

Základní třída pro výsledky rozpoznávání řeči.

Konstruktor pro interní použití.

SpeechRecognizer

Rozpoznávání řeči. Pokud potřebujete zadat informace o zdrojovém jazyce, zadejte pouze jeden z těchto tří parametrů: jazyk, source_language_config nebo auto_detect_source_language_config.

SpeechSynthesisBookmarkEventArgs

Třída pro syntézu řeči záložky argumenty události.

Poznámka

Přidáno ve verzi 1.16.0.

Konstruktor pro interní použití.

SpeechSynthesisCancellationDetails

Obsahuje podrobné informace o tom, proč byl výsledek zrušen.

SpeechSynthesisEventArgs

Třída pro argumenty události syntézy řeči

Konstruktor pro interní použití.

SpeechSynthesisResult

Výsledek operace syntézy řeči.

Konstruktor pro interní použití.

SpeechSynthesisVisemeEventArgs

Třída pro argumenty události viseme syntézy řeči

Poznámka

Přidáno ve verzi 1.16.0.

Konstruktor pro interní použití.

SpeechSynthesisWordBoundaryEventArgs

Třída pro argumenty události hranice slova syntézy řeči

Poznámka

Aktualizováno ve verzi 1.21.0.

Konstruktor pro interní použití.

SpeechSynthesizer

Syntetizátor řeči.

SyllableLevelTimingResult

Obsahuje výsledek časování úrovně slabiky.

Poznámka

Přidáno ve verzi 1.20.0.

SynthesisVoicesResult

Obsahuje podrobné informace o seznamu načtených syntézy hlasů.

Poznámka

Přidáno ve verzi 1.16.0.

Konstruktor pro interní použití.

VoiceInfo

Obsahuje podrobné informace o syntéze hlasových informací.

Poznámka

Aktualizováno ve verzi 1.17.0.

Konstruktor pro interní použití.

Výčty

AudioStreamContainerFormat

Definuje podporovaný formát kontejneru zvukového streamu.

AudioStreamWaveFormat

Představuje formát zadaný uvnitř kontejneru WAV.

CancellationErrorCode

Definuje kód chyby v případě, že CancellationReason je Error.

CancellationReason

Definuje možné příčiny zrušení výsledku rozpoznávání.

NoMatchReason

Definuje možné důvody, proč nemusí být rozpoznán výsledek rozpoznávání.

OutputFormat

Formát výstupu.

ProfanityOption

Odstraní vulgární výrazy (nadávky) nebo nahradí písmena vulgárních slov hvězdičkami.

PronunciationAssessmentGradingSystem

Definuje bodový systém pro kalibraci skóre výslovnosti; Výchozí hodnota je FivePoint.

PronunciationAssessmentGranularity

Definuje členitost vyhodnocení výslovnosti; výchozí hodnota je Phoneme.

PropertyId

Definuje ID vlastností řeči.

ResultReason

Určuje možné důvody, proč se může vygenerovat výsledek rozpoznávání.

ServicePropertyChannel

Definuje kanály používané k předávání nastavení vlastností službě.

SpeechSynthesisOutputFormat

Definuje možné formáty výstupu výstupu syntézy řeči.

StreamStatus

Definuje možný stav zvukového datového proudu.

SynthesisVoiceGender

Definuje pohlaví syntézy hlasů.

SynthesisVoiceType

Definuje typ syntézy hlasů.