Neuigkeiten in Azure KI Speech

Azure KI Speech wird fortlaufend aktualisiert. Damit Sie bezüglich der aktuellen Entwicklungen auf dem neuesten Stand bleiben, bietet dieser Artikel Informationen zu neuen Releases und Funktionen.

Aktuelle Highlights

Versionshinweise

Auswählen eines Diensts oder einer Ressource

Bevorstehende Pläne für Linux- und Android-Benutzer:

Achtung

Dieser Artikel bezieht sich auf CentOS, eine Linux-Distribution, die sich dem End-of-Life-Status (EOL) nähert. Sie sollten Ihre Nutzung entsprechend planen. Weitere Informationen finden Sie im CentOS End-of-Life-Leitfaden.

  • Ubuntu 18.04 erreicht ebenfalls das Ende der Lebensdauer im April 2023, sodass sich unsere Benutzer darauf vorbereiten sollten, dass wir unsere Mindestversion auf Ubuntu 20.04 festlegen.

Speech SDK 1.37.0: Release von April 2024

Neue Funktionen

  • Unterstützung für das Streaming von Eingabetext in der Sprachsynthese wurde hinzugefügt.
  • Die Standardstimme für die Sprachsynthese wurde auf „en-US-AvaMultilingualNeural“ geändert.
  • Android-Builds wurden für die Verwendung von OpenSSL 3.x. aktualisiert.

Fehlerkorrekturen

Beispiele

  • Updates für neue Features.

Speech SDK 1.36.0: Release von März 2024

Neue Funktionen

  • Support für die Sprachidentifikation bei mehrsprachiger Übersetzung auf v2-Endpunkten mithilfe von AutoDetectSourceLanguageConfig::FromOpenRange().

Fehlerkorrekturen

  • Das Ereignis SynthesisCanceled wird nicht ausgelöst, wenn der Stopp während des Ereignisses SynthesisStarted aufgerufen wird.

  • Behebung eines Rauschproblems in der eingebetteten Sprachsynthese.

  • Behebung eines Absturzes bei der eingebetteten Spracherkennung, wenn mehrere Erkennungsmodule parallel ausgeführt werden.

  • Behebung der Einstellung für den Begriffserkennungsmodus in v1/v2-Endpunkten.

  • Behebung verschiedener Probleme mit Microsoft Audio Stack.

Beispiele

  • Updates für neue Features.

Speech SDK 1.35.0: Version von Februar 2024

Neue Funktionen

  • Ändern Sie die Standardstimme der Sprachsynthese von „en-US-JenniferMultilingualNeural“ zu „en-US-AvaNeural“.
  • Unterstützen Sie Details auf Wortebene in eingebetteten Sprachübersetzungsergebnissen mithilfe des detaillierten Ausgabeformats.

Fehlerkorrekturen

  • Beheben Sie die Getter-API für AudioDataStream-Position in Python.
  • Beheben Sie die Sprachübersetzung mithilfe von v2-Endpunkten ohne Spracherkennung.
  • Beheben Sie einen zufälligen Absturz und doppelte Wortgrenzenereignisse in eingebetteter Sprachsynthese.
  • Geben Sie einen korrekten Abbruchfehlercode für einen internen Serverfehler für WebSocket-Verbindungen zurück.
  • Beheben Sie den Fehler beim Laden der „FPIEProcessor.dll“-Bibliothek, wenn MAS mit C# verwendet wird.

Beispiele

  • Kleinere Formatierungsupdates für eingebettete Anerkennungsbeispiele.

Speech SDK 1.34.1: Release von Januar 2024

Wichtige Änderungen

  • Nur Fehlerkorrekturen

Neue Funktionen

  • Nur Fehlerkorrekturen

Fehlerkorrekturen

  • Behebung der in 1.34.0 eingeführten Regression, bei der die URL des Dienstendpunkts mit fehlerhaften Gebietsschemainformationen für Benutzer*innen in mehreren Regionen In China erstellt wurde.

Speech-SDK 1.34.0: Release von November 2023

Wichtige Änderungen

  • SpeechRecognizer wurde aktualisiert, um standardmäßig einen neuen Endpunkt zu verwenden (d. h. wenn keine URL explizit angegeben wird), der für die meisten Eigenschaften keine Abfragezeichenfolgenparameter mehr unterstützt. Anstatt Abfragezeichenfolgenparameter direkt mit ServicePropertyChannel.UriQueryParameter festzulegen, verwenden Sie bitte die entsprechenden API-Funktionen.

Neue Funktionen

  • Kompatibilität mit .NET 8 (Fix für https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170, ausgenommen für Warnungen zu Centos7-x64)
  • Unterstützung für eingebettete Sprachleistungsmetriken, die verwendet werden können, um die Funktionalität eines Geräts zum Ausführen eingebetteter Sprache auszuwerten.
  • Unterstützung für die Quellsprachidentifikation in eingebetteter mehrsprachiger Übersetzung.
  • Unterstützung für eingebettete Spracherkennung, Sprachsynthese und Übersetzung für iOS und Swift/Objective-C, die in der Vorschau veröffentlicht wurden.
  • Eingebettete Unterstützung wird in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod bereitgestellt.

Fehlerkorrekturen

  • Fix für iOS-SDK x2 mal binäres Größenwachstum · Issue # 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Fix für „Zeitstempel auf Wortebene von Azure-Spracherkennungs-API kann nicht abgerufen werden“ · Issue # 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Fix für DialogServiceConnector-Zerstörungsphase, um Ereignisse ordnungsgemäß zu trennen. Dies verursachte gelegentlich Abstürze.
  • Fix für die Ausnahme beim Erstellen eines Erkennungsmoduls, wenn MAS verwendet wird.
  • FPIEProcessor.dll von Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-Paket für Windows UWP x64 und ARM64 hatte Abhängigkeit von VC-Runtimebibliotheken für natives C++. Das Problem wurde behoben, indem die Abhängigkeit auf die richtigen VC-Runtimebibliotheken (für UWP) aktualisiert wurde.
  • Fix für [MAS] Wiederkehrende Aufrufe zur recognizeOnceAsync führen zu SPXERR_ALREADY_INITIALIZED bei Verwendung von MAS · Issue # 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Fix für Absturz der eingebetteten Spracherkennung beim Verwenden von Phrasenlisten.

Beispiele

  • Eingebettete iOS-Beispiele für Spracherkennung, Sprachsynthese und Übersetzung.

Speech-CLI 1.34.0: Release vom November 2023

Neue Funktionen

  • Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.

Fehlerkorrekturen

  • Aktualisierte JMESPath-Abhängigkeit zum neuesten Release, verbessert Zeichenfolgeauswertungen

Speech SDK 1.33.0: Release vom Oktober 2023

Hinweis zu Breaking Change

  • Das neue NuGet-Paket, das für Microsoft Audio Stack (MAS) hinzugefügt wurde, muss jetzt von Anwendungen eingeschlossen werden, die MAS in ihren Paketkonfigurationsdateien verwenden.

Neue Funktionen

  • Das neue NuGet-Paket „Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg“ wurde hinzugefügt. Es bietet eine verbesserte Echounterdrückungsleistung bei Verwendung von Microsoft Audio Stack.
  • Aussprachebewertung: Unterstützung für die Prosodie- und Inhaltsbewertung hinzugefügt, die die gesprochene Sprache in Bezug auf Prosodie, Vokabular, Grammatik und Thema bewerten kann.

Fehlerkorrekturen

Beispiele

Speech CLI 1.33.0: Release vom Oktober 2023

Neue Funktionen

  • Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.

Fehlerkorrekturen

  • Keine

Speech SDK 1.32.1: Release im September 2023

Fehlerkorrekturen

  • Updates für Android-Pakete mit den neuesten Sicherheitskorrekturen von OpenSSL 1.1.1v
  • JS: WebWorkerLoadType-Eigenschaft hinzugefügt, um die Umgehung des Ladens der Daten-URL für Timeout-Worker zu ermöglichen
  • JS: Beheben der Verbindungstrennung der Konversationsübersetzung nach 10 Minuten
  • JS: Authentifizierungstoken für die Konversationsübersetzung wird jetzt an die Übersetzungsdienstverbindung weitergegeben

Beispiele

Speech SDK 1.31.0: Release von August 2023

Neue Funktionen

  • Unterstützung für Echtzeitdiarisierung ist mit dem Speech SDK 1.31.0 in der öffentlichen Vorschau verfügbar. Dieses Feature ist in den folgenden SDKs verfügbar: C#, C++, Java, JavaScript, Python und Objective-C/Swift.

  • Synchronisierte Wortgrenzen- und viseme-Ereignisse mit Audiowiedergabe für die Sprachsynthese

Aktuelle Änderungen

  • Das frühere Szenario „Unterhaltungstranskription“ wird in „Besprechungstranskription“ umbenannt. Verwenden Sie beispielsweise MeetingTranscriber anstelle von ConversationTranscriber und CreateMeetingAsync anstelle von CreateConversationAsync. Obwohl sich die Namen von SDK-Objekten und -Methoden geändert haben, wird das Feature selbst durch die Umbenennung nicht geändert. Verwenden Sie Besprechungstranskriptionsobjekte für die Transkription von Besprechungen mit Benutzerprofilen und Stimmsignaturen. Weitere Informationen finden Sie unter Besprechungstranskription. Die Objekte und Methoden der „Konversationsübersetzung“ sind von diesen Änderungen nicht betroffen. Sie können das ConversationTranslator-Objekt und die zugehörigen Methoden weiterhin für Besprechungsübersetzungsszenarien verwenden.
  • Für die Echtzeitdiarisierung wird ein neues ConversationTranscriber-Objekt eingeführt. Das neue Objektmodell der Unterhaltungstranskription und die Aufrufmuster ähneln der kontinuierlichen Erkennung mit dem SpeechRecognizer-Objekt. Ein wichtiger Unterschied besteht darin, dass das ConversationTranscriber-Objekt für die Verwendung in einem Unterhaltungsszenario konzipiert ist, in dem Sie mehrere Sprecher unterscheiden möchten (Diarisierung). Benutzerprofile und Stimmsignaturen sind nicht anwendbar. Weitere Informationen finden Sie im Schnellstart zur Echtzeitdiarisierung.

In dieser Tabelle werden die vorherigen und neuen Objektnamen für die Echtzeitdiarisierung und Besprechungstranskription angezeigt. Der Name des Szenarios befindet sich in der ersten Spalte, die vorherigen Objektnamen in der zweiten Spalte und die neuen Objektnamen in der dritten Spalte.
Name des Szenarios Vorherige Objektnamen Neue Objektnamen
Echtzeit-Diarisierung Nicht zutreffend ConversationTranscriber
Besprechungstranskription ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 Die Objekte Participant, ParticipantChangedReason und User gelten sowohl für Besprechungstranskriptions- als auch für Besprechungsübersetzungsszenarien.

2 Das Objekt Meeting ist neu und wird mit dem Objekt MeetingTranscriber verwendet.

Fehlerkorrekturen

Beispiele

Speech SDK 1.30.0: Release von Juli 2023

Neue Funktionen

  • C++, C#, Java: Unterstützung für DisplayWords wurde im detaillierten Ergebnis der eingebetteten Spracherkennung hinzugefügt.
  • Objective-C/Swift: Unterstützung für das ConnectionMessageReceived-Ereignis wurde in Objective-C/Swift hinzugefügt.
  • Objective-C/Swift: Verbesserte Schlüsselworterkennungs-Modelle für iOS. Diese Änderung hat die Größe bestimmter Pakete erhöht, die iOS-Binärdateien enthalten (z. B. NuGet, XCFramework). Wir arbeiten daran, die Größe für zukünftige Releases zu reduzieren.

Fehlerkorrekturen

  • Es wurde ein Speicherverlust bei der Verwendung der Spracherkennung mit PhraseListGrammar behoben, den ein Kunde meldete (GitHub-Problem).
  • Ein Deadlock in der offenen Verbindungs-API für Sprachsynthese wurde behoben.

Zusätzliche Hinweise

  • Java: Einige intern verwendete public-Java-API-Methoden wurden im Paket internal, protected oder private geändert. Diese Änderung sollte sich nicht auf Entwickler auswirken, da Anwendungen diese Pakete wahrscheinlich nicht verwenden werden. Wird hier der Transparenz wegen erwähnt.

Beispiele

Speech SDK 1.29.0: Release im Juni 2023

Neue Funktionen

  • C++, C#, Java – Vorschau der APIs für eingebettete Sprachübersetzung Jetzt können Sie Sprachübersetzungen ohne Cloud-Verbindung durchführen!
  • JavaScript – Kontinuierliche Spracherkennung (Continuous Language Identification, LID) jetzt für die Sprachübersetzung aktiviert.
  • JavaScript – Communitybeitrag zum Hinzufügen einer Eigenschaft LocaleName zur Klasse VoiceInfo. Vielen Dank an GitHub-Benutzer shivsarthak für den Pull Request.
  • C++, C#, Java: Für das Resampling der eingebetteten Sprachsyntheseausgabe mit einer Abtastrate von 16 kHz bis 48 kHz wurde Unterstützung hinzugefügt.
  • Unterstützung für Gebietsschema hi-IN in der Absichtserkennung mit Simple Pattern Matcher hinzugefügt.

Behebung von Programmfehlern

  • Ein Absturz, der durch eine Racebedingung in der Spracherkennung während der Objektzerstörung verursacht wurde, der in einigen unserer Android-Tests auftrat, wurde behoben.
  • Mögliche Deadlocks in der Absichtserkennung mit Simple Pattern Matcher wurden behoben.

Beispiele

  • Neue Beispiele für die eingebettete Sprachübersetzung

Speech SDK 1.28.0: Release von Mai 2023

Unterbrechende Änderung

  • JavaScript SDK: Online Certificate Status Protocol (OCSP) wurde entfernt. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Ab Version 1.28 ist unser benutzerdefiniertes OCSP-Modul nicht mehr enthalten.

Neue Funktionen

  • Die eingebettete Spracherkennung gibt nun NoMatchReason::EndSilenceTimeout zurück, wenn am Ende einer Äußerung ein Sprechpausen-Timeout auftritt. Dies entspricht dem Verhalten bei der Erkennung mithilfe des Echtzeit-Sprachdiensts.
  • JavaScript SDK: Legen Sie Eigenschaften unter SpeechTranslationConfig mithilfe von PropertyId-Enumerationswerten fest.

Behebung von Programmfehlern

  • C# unter Windows: Beheben Sie potenzielle Racebedingungen/Deadlocks in der Windows-Audioerweiterung. In Szenarien, in denen der Audiorenderer schnell freigegeben und die Synthesizer-Methode zum Beenden des Sprechens verwendet wird, wurde das zugrunde liegende Ereignis nicht durch Beenden zurückgesetzt. Dies konnte außerdem dazu führen, dass das Rendererobjekt nie freigegeben wurde, während gleichzeitig eine globale Freigabesperre vorhanden war, die den Dotnet GC-Thread einfriert.

Beispiele

  • Ein eingebettetes Sprachbeispiel für MAUI wurde hinzugefügt.
  • Das eingebettete Sprachbeispiel für Android Java wurde um Sprachsynthese erweitert.

Speech SDK 1.27.0: Release im April 2023

Benachrichtigung zur bevorstehenden Änderungen

  • Wir planen, das Online Certificate Status Protocol (OCSP) im nächsten JavaScript SDK-Release zu entfernen. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Version 1.27 ist die letzte Version, die unser benutzerdefiniertes OCSP-Modul enthält.

Neue Funktionen

  • JavaScript: Unterstützung für Mikrofoneingaben aus dem Browser mit Sprecheridentifikation und -überprüfung hinzugefügt.
  • Eingebettete Spracherkennung: Supportupdate für die PropertyId::Speech_SegmentationSilenceTimeoutMs-Einstellung.

Behebung von Programmfehlern

  • Allgemein: Zuverlässigkeitsupdates in der Dienstwiederverbindungslogik (alle Programmiersprachen außer JavaScript).
  • Allgemein: Korrektur von Zeichenfolgenkonvertierungen, die zu Arbeitsspeicherverlust unter Windows führten (alle relevanten Programmiersprachen außer JavaScript).
  • Eingebettete Spracherkennung: Absturz in der französischen Spracherkennung bei Verwendung bestimmter Grammatiklisteneinträge wurde behoben.
  • Quellcodedokumentation: Korrekturen von Kommentaren in der SDK-Referenzdokumentation im Zusammenhang mit der Audioprotokollierung für den Dienst.
  • Absichtserkennung: Korrektur von Musterabgleichsprioritäten im Zusammenhang mit Listenentitäten.

Beispiele

  • Behandeln Sie Authentifizierungsfehler im C#-Beispiel für die Unterhaltungstranskription (CTS).
  • Beispiel für streamingbasierte Aussprachebewertung für Python, JavaScript, Objective-C und Swift hinzugefügt.

Speech SDK 1.26.0: Release von März 2023

Aktuelle Änderungen

  • Bitcode wurde in allen iOS-Zielen in folgenden Paketen deaktiviert: Cocoapod mit xcframework, NuGet (für Xamarin und MAUI) und Unity. Die Änderung wurde vorgenommen, da Apple die Bitcodeunterstützung ab Xcode 14 einstellt. Diese Änderung bedeutet auch, dass Sie möglicherweise eine Fehlermeldung mit dem Hinweis erhalten, dass das Framework keinen Bitcode enthält und eine Neuerstellung erforderlich ist, wenn Sie Xcode 13 verwenden oder den Bitcode für Ihre Anwendung mithilfe des Speech SDK explizit aktiviert haben. Stellen Sie zur Behebung dieses Problems sicher, dass Bitcode für Ihre Ziele deaktiviert ist.
  • Das iOS-Mindestbereitstellungsziel wurde in diesem Release auf 11.0 aktualisiert, was bedeutet, dass armv7-Hardware nicht mehr unterstützt wird.

Neue Funktionen

  • Die eingebettete Spracherkennung (auf dem Gerät) unterstützt jetzt sowohl Audio mit einer Abtastrate von 8 kHz als auch Audio mit einer Abtastrate von 16 kHz (16 Bit pro Sample, Mono-PCM).
  • Die Sprachsynthese meldet jetzt Verbindungs-, Netzwerk- und Dienstlatenzen im Ergebnis, um die End-to-End-Latenzoptimierung zu unterstützen.
  • Neue Entscheidungsregeln für die Absichtserkennung mit einfachem Musterabgleich. Musterabgleiche mit mehr übereinstimmenden Zeichenbytes haben Vorrang vor Musterabgleichen mit weniger übereinstimmenden Zeichenbytes. Beispiel: Das Muster „Wählen Sie rechts oben {etwas} aus“ hat Vorrang vor „Wählen Sie {etwas} aus“.

Fehlerkorrekturen

  • Sprachsynthese: Es wurde ein Fehler behoben, bei dem das Emoji in Wortgrenzenereignissen nicht korrekt ist.
  • Schnellstart: Erkennen von Absichten mit Conversational Language Understanding:
    • Absichten aus dem CLU-Orchestratorworkflow werden jetzt ordnungsgemäß angezeigt.
    • Das JSON-Ergebnis ist jetzt über die Eigenschafts-ID LanguageUnderstandingServiceResponse_JsonResultverfügbar.
  • Spracherkennung mit Schlüsselwortaktivierung: Korrektur für ca. 150 ms fehlende Audiodaten nach einer Schlüsselworterkennung.
  • Korrektur für NuGet-iOS-MAUI-Releasebuild des Speech SDK – vom Kunden gemeldet (GitHub-Problem)

Beispiele

  • Korrektur von Swift-iOS-Beispiel – vom Kunden gemeldet (GitHub-Problem)

Speech SDK 1.25.0: Release von Januar 2023

Aktuelle Änderungen

  • Sprachenerkennungs-APIs (Vorschauversion) wurden vereinfacht. Wenn Sie ein Update auf Speech SDK 1.25 durchführen und eine Buildunterbrechung feststellen, besuchen Sie die Seite Sprachenerkennung, um mehr über die neue Eigenschaft SpeechServiceConnection_LanguageIdMode zu erfahren. Diese einzelne Eigenschaft ersetzt die beiden vorherigen SpeechServiceConnection_SingleLanguageIdPriority und SpeechServiceConnection_ContinuousLanguageIdPriority. Die Priorisierung zwischen geringer Latenz und hoher Genauigkeit ist nach den jüngsten Modellverbesserungen nicht mehr erforderlich. Jetzt müssen Sie nur auswählen, ob die anfängliche Sprachidentifikation oder die kontinuierliche Sprachidentifikation bei der kontinuierlichen Spracherkennung oder -übersetzung ausgeführt werden soll.

Neue Funktionen

  • C#/C++/Java: Das SDK für eingebettete Sprache wird jetzt in der geschlossenen öffentlichen Vorschauversion veröffentlicht. Weitere Informationen finden Sie in der Dokumentation zu Eingebettete Sprache (Vorschau). Sie können jetzt die Spracherkennung und Sprachsynthese auf einem Gerät ausführen, auch wenn die Cloudkonnektivität unterbrochen oder nicht verfügbar ist. Unterstützt auf Android-, Linux-, macOS- und Windows-Plattformen
  • C# MAUI: Unterstützung wurde für iOS- und Mac Catalyst-Ziele in Speech SDK NuGet hinzugefügt (Kundenproblem)
  • Unity: Die Android x86_64-Architektur wurde zum Unity-Paket hinzugefügt (Kundenproblem)
  • Go:
    • Die Unterstützung für direktes Streaming von ALAW/MULAW wurde für die Spracherkennung hinzugefügt (Kundenproblem)
    • Unterstützung wurde für PhraseListGrammar hinzugefügt. Vielen Dank an den GitHub-Benutzer czkoko für den Communitybeitrag!
  • C#/C++: Die Absichtserkennung unterstützt jetzt Conversational Language Understanding-Modelle in C++ und C# mit Orchestrierung im Microsoft-Dienst.

Behebung von Programmfehlern

  • Korrektur eines gelegentlichen Hängens in KeywordRecognizer beim Versuch, die Ausführung zu beenden
  • Python:
    • Korrektur für das Abrufen von Ergebnissen der Aussprachebewertung, wenn PronunciationAssessmentGranularity.FullText festgelegt ist (Kundenproblem)
    • Korrektur für die das Geschlecht betreffende Eigenschaft für männliche Stimmen, die nicht abgerufen werden, wenn Stimmen für die Sprachsynthese abgerufen werden
  • JavaScript
    • Korrektur für die Analyse einiger WAV-Dateien, die auf iOS-Geräten aufgezeichnet wurden (Kundenproblem)
    • Das JS SDK führt die Erstellung jetzt ohne Verwendung von npm-force-resolution durch (Kundenproblem)
    • Conversation Translator legt jetzt den Dienstendpunkt richtig fest, wenn eine speechConfig-Instanz verwendet wird, die mit SpeechConfig.fromEndpoint() erstellt wurde.

Beispiele

  • Beispiele zur Verwendung von eingebetteter Sprache hinzugefügt

  • Beispiel für die Spracherkennung für MAUI hinzugefügt

    Weitere Informationen finden Sie unter Repository für Speech SDK-Beispiele.

Speech SDK 1.24.2: Release von November 2022

Neue Funktionen

  • Keine neuen Features, nur eine Korrektur an der eingebetteten Engine zur Unterstützung neuer Modelldateien.

Behebung von Programmfehlern

  • Alle Programmiersprachen
    • Es wurde ein Problem mit der Verschlüsselung eingebetteter Spracherkennungsmodelle behoben.

Speech SDK 1.24.1: Release von November 2022

Neue Funktionen

Behebung von Programmfehlern

  • Alle Programmiersprachen
    • Beheben des Absturzes der TTS-Einbettung bei nicht unterstütztem Voicefont
    • Fehler behoben, der dazu führte, dass die Wiedergabe unter Linux mit stopSpeaking() nicht beendet werden konnte (#1686)
  • JavaScript SDK
    • Regression bei der Abgrenzung von Audio durch die Unterhaltungstranskription korrigiert
  • Java
    • Aktualisierte POM- und Javadocs-Dateien wurden vorübergehend in Maven Central veröffentlicht, um der Dokumentationspipeline das Aktualisieren von Onlinereferenzdokumenten zu ermöglichen.
  • Python
    • Regression korrigiert, bei der „speak_text(ssml)“ in Python „void“ zurückgab.

Speech SDK 1.24.0: Release vom Oktober 2022

Neue Funktionen

  • Alle Programmiersprachen: AMR-WB (16 kHz) zur Liste der unterstützten Sprachsynthese-Audioausgabeformate hinzugefügt
  • Python: Paket für Linux ARM64 für unterstützte Linux-Distributionen hinzugefügt.
  • C#/C++/Java/Python: Unterstützung für direktes Streaming von ALAW zbd MULAW zum Sprachdienst (zusätzlich zum vorhandenen PCM-Stream) mit AudioStreamWaveFormat hinzugefügt
  • C# MAUI: NuGet-Paket aktualisiert, um Android-Ziele für .NET MAUI-Entwickler zu unterstützen (Kundenproblem)
  • Mac: separates XCframework für Mac hinzugefügt, das keine iOS-Binärdateien enthält. Dies bietet eine Option für Entwickler, die nur Mac-Binärdateien mit einem kleineren XCframework-Paket benötigen.
  • Microsoft Audio Stack (MAS):
    • Wenn Beamforming-Winkel angegeben sind, wird Schall, der außerhalb des angegebenen Bereichs entsteht, besser unterdrückt.
    • Etwa 70 % Reduzierung der Größe von libMicrosoft.CognitiveServices.Speech.extension.mas.so für Linux ARM32 und Linux ARM64.
  • Musterabgleich der Absichtserkennung:
    • Rechtschreibunterstützung für die Sprachen fr, de, es, jp hinzugefügt
    • Vorgefertigte Integer-Unterstützung für Sprache es hinzugefügt.

Fehlerkorrekturen

  • iOS: Behebung des Sprachsynthesefehlers unter iOS 16, der durch einen Fehler bei der Dekodierung komprimierter Audiodaten verursacht wurde (Kundenproblem).
  • JavaScript:
    • Behebung eines nicht funktionierenden Authentifizierungstokens beim Abrufen einer Sprachsynthese-Sprachliste (Kundenproblem).
    • Verwenden von Daten-URLs zum Laden von Workern (Kundenproblem).
    • Erstellen eines Audioprozessor-Worklets nur, wenn AudioWorklet im Browser unterstützt wird (Kundenproblem). Dies war ein Communitybeitrag von William Wong. Vielen Dank, William!
    • Beheben des erkannten Rückrufs, wenn LUIS-Antwort connectionMessage leer ist (Kundenproblem).
    • Korrektes Einstellen des Timeouts für die Sprachsegmentierung.
  • Musterabgleich der Absichtserkennung:
    • Nicht-JSON-Zeichen innerhalb von Modellen werden jetzt ordnungsgemäß geladen.
    • Beheben eines Fehlers, wenn recognizeOnceAsync(text) während der kontinuierlichen Erkennung aufgerufen wurde.

Speech SDK 1.23.0: Release von Juli 2022

Neue Funktionen

  • C#, C++, Java: Unterstützung für die Sprachen zh-cn und zh-hk in der Absichtserkennung mit Musterabgleich hinzugefügt.
  • C#: Unterstützung für AnyCPU .NET Framework-Builds hinzugefügt

Behebung von Programmfehlern

  • Android: Behobene OpenSSL-Sicherheitsrisiken CVE-2022-2068 durch Aktualisieren von OpenSSL auf 1.1.1q
  • Python: Beheben des Absturzes beim Verwenden von PushAudioInputStream
  • iOS: Beheben von „EXC_BAD_ACCESS: Versuch, Null-Zeiger zu dereferenzieren“, wie in iOS gemeldet (GitHub-Problem)

Speech SDK 1.22.0: Release von Juni 2022

Neue Funktionen

  • Java: IntentRecognitionResult-API für getEntities(), applyLanguageModels() und recognizeOnceAsync(text) hinzugefügt, um die Engine für einfachen Musterabgleich zu unterstützen.
  • Unity: Unterstützung für Mac M1 (Apple Silicon) für Unity-Paket hinzugefügt (GitHub Problem)
  • C#: Unterstützung für x86_64 für Xamarin Android hinzugefügt (GitHub Problem)
  • C#: .NET Framework-Mindestversion, die auf v4.6.2 für SDK C#-Paket aktualisiert wurde, als v4.6.1 wurde eingestellt (siehe Microsoft .NET Framework Component Lifecycle-Richtlinie)
  • Linux: Unterstützung für Debian 11 und Ubuntu 22.04 LTS wurde hinzugefügt. Ubuntu 22.04 LTS erfordert die manuelle Installation von libssl1.1 entweder als Binärpaket von hier (z. B. libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb oder höher für x64), oder indem Sie aus Quellen kompilieren.

Behebung von Programmfehlern

  • UWP: OpenSSL-Abhängigkeit aus UWP-Bibliotheken entfernt und durch WinRT Websocket und HTTP-APIs ersetzt, um die Sicherheitskonformität und kleinere binäre Größe zu erfüllen.
  • Mac: Das Problem „MicrosoftCognitiveServicesSpeech-Module nicht gefunden“ wurde behoben, wenn Swift-Projekte für macOS-Plattform verwendet werden
  • Windows, Mac: Es wurde ein plattformspezifisches Problem behoben, bei dem Audioquellen, die über Eigenschaften konfiguriert wurden, um eine Echtzeitrate zu streamen, manchmal zurückfällt und schließlich die Kapazität überschritten hat

Beispiele (GitHub)

  • C#: .NET Framework-Beispiele, die aktualisiert wurden, um v4.6.2 zu verwenden
  • Unity: Beispiel für virtuelle Assistenten, das für Android und UWP behoben wurde
  • Unity: Unity-Beispiele, die für Unity 2020 LTS-Version aktualisiert wurden

Speech SDK 1.21.0: Release von April 2022

Neue Funktionen

  • Java und JavaScript: Unterstützung für die fortlaufende Sprachenerkennung bei Verwendung des SpeechRecognizer-Objekts hinzugefügt
  • JavaScript: Hinzugefügt: Diagnose-APIs zum Aktivieren der Konsolenprotokollierungsstufe und Dateiprotokollierung (nur auf Knotenebene), um Microsoft bei der Behandlung der von Kunden gemeldeten Probleme zu unterstützen.
  • Python: Hinzugefügt: Unterstützung für Unterhaltungstranskription
  • Go: Hinzugefügt: Unterstützung für Sprechererkennung
  • C++ und C#: Unterstützung für eine erforderliche Gruppe von Wörtern in der Absichtserkennung (einfacher Musterabgleich) hinzugefügt. Beispiel: „Timer (festlegen|starten|beginnen)“, wo entweder „festlegen“, „starten“ oder „beginnen“ vorhanden sein muss, damit die Absicht erkannt wird.
  • Alle Programmiersprachen, Sprachsynthese: Hinzugefügt: Eigenschaft „Dauer“ in Word-Begrenzungsereignissen. Hinzugefügt: Unterstützung für Interpunktationsgrenze und Satzgrenze
  • Objective-C/Swift/Java: Hinzugefügt: Ergebnisse auf Wortebene für das Aussprachebewertungs-Ergebnisobjekt (ähnlich wie bei C#). Die Anwendung muss keine JSON-Ergebniszeichenfolge mehr analysieren, um Informationen auf Wortebene abzurufen (GitHub-Problem).
  • iOS-Plattform: Hinzugefügt: Experimentelle Unterstützung für ARMv7-Architektur

Behebung von Programmfehlern

  • iOS-Plattform: Fix zum Ermöglichen der Erstellung von Builds für das Ziel „Jedes iOS-Gerät“ bei Verwendung von Cocoapod (GitHub-Issue)
  • Android-Plattform: Aktualisiert: Die OpenSSL-Version wurde auf 1.1.1n aktualisiert, um Sicherheitsrisiken zu beheben CVE-2022-0778
  • JavaScript: Problem, bei dem der Wav-Header nicht mit der Dateigröße aktualisiert wurde, behoben (GitHub-Issue)
  • JavaScript: Behoben: Synchronisierungsproblem bei der Anforderungs-ID, das zum Abbruch von Übersetzungsszenarien führte (GitHub-Problem)
  • JavaScript: Behoben: Problem beim Instanziieren von SpeakerAudioDestination ohne Stream (GitHub-Problem]
  • C++: Behoben: C+-Header zum Entfernen einer Warnung beim Kompilieren für C++17 oder höher

Beispiele GitHub

  • Neue Java-Beispiele für die Spracherkennung mit Sprachbestimmung
  • Neue Python- und Java-Beispiele für Unterhaltungstranskription
  • Neues Go-Beispiel für die Sprechererkennung.
  • Neues C++- und C#-Tool für Windows, das alle Audioaufnahme- und Rendergeräte aufzählt, um ihre Geräte-ID zu finden. Diese ID wird vom Speech SDK benötigt, wenn Sie Audio von einem nicht standardmäßigen Gerät erfassen oder auf ihm rendern möchten.

Speech SDK 1.20.0: Release von Januar 2022

Neue Funktionen

  • Objective-C, Swift und Python: Unterstützung für DialogServiceConnector wurde hinzugefügt, die für Sprach-Assistenten-Szenarien verwendet wird.
  • Python: Unterstützung für Python 3.10 wurde hinzugefügt. Die Unterstützung für Python 3.6 wurde entfernt, gemäß dem Ende der Lebensdauer von Python 3.6.
  • Unity: Das Speech SDK wird jetzt für Unity-Anwendungen unter Linux unterstützt.
  • C++, C#: IntentRecognizer mit Musterabgleich wird jetzt in C# unterstützt. Darüber hinaus werden jetzt Szenarien mit benutzerdefinierten Entitäten, optionalen Gruppen und Entitätsrollen in C++ und C# unterstützt.
  • C++, C#: Verbesserte Protokollierung der Diagnoseablaufverfolgung mithilfe der neuen Klassen FileLogger, MemoryLogger und EventLogger. SDK-Protokolle sind ein wichtiges Tool für Microsoft, um von Kunden gemeldete Probleme zu diagnostizieren. Diese neuen Klassen erleichtern es Kunden, Speech SDK-Protokolle in ihr eigenes Protokollierungssystem zu integrieren.
  • Alle Programmiersprachen: PronunciationAssessmentConfig verfügt jetzt über Eigenschaften zum Festlegen des gewünschten Phonemalphabets (IPA oder SAPI) und der N-besten Phonemanzahl (wodurch vermieden wird, eine JSON-Konfigurationsdatei erstellen zu müssen, gemäß GitHub Issue 1284). Außerdem wird jetzt die Ausgabe auf Silbenebene unterstützt.
  • Android, iOS und macOS (alle Programmiersprachen): GStreamer wird nicht mehr benötigt, um Netzwerke mit begrenzter Bandbreite zu unterstützen. SpeechSynthesizer verwendet jetzt die Audiodecodierungsfunktionen des Betriebssystems, um komprimierte Audiodaten zu decodieren, die vom Sprachsynthese-Dienst gestreamt werden.
  • Alle Programmiersprachen: SpeechSynthesizer unterstützt jetzt drei neue Opus-Rohausgabeformate (ohne Container), die häufig in Livestreamingszenarien verwendet werden.
  • JavaScript: Die getVoicesAsync()-API wurde zu SpeechSynthesizer hinzugefügt, um die Liste der unterstützten Synthesestimmen abzurufen (GitHub Issue 1350).
  • JavaScript: Die getWaveFormat()-API wurde zu AudioStreamFormat hinzugefügt, um Nicht-PCM-Wellenformate zu unterstützen (GitHub Issue 452)
  • JavaScript: Lautstärke-Getter/-Setter- und mute()/unmute()-APIs wurden zu SpeakerAudioDestination hinzugefügt (GitHub Issue 463)

Behebung von Programmfehlern

  • C++, C#, Java, JavaScript, Objective-C und Swift: Korrektur zum Entfernen einer Verzögerung von 10 Sekunden beim Beenden einer Spracherkennung, die einen PushAudioInputStream verwendet. Diese ist für den Fall gedacht, bei dem keine neue Audiodatei als Eingang übertragen wird, nachdem StopContinuousRecognition aufgerufen wurde (GitHub Issues 1318, 331).
  • Unity unter Android und UWP: Unity-Metadateien wurden für UWP, Android ARM64 und das Windows-Subsystem für Android (WSA) ARM64 korrigiert (GitHub Issue 1360).
  • iOS: Das Kompilieren Ihrer Speech SDK-Anwendung auf einem beliebigen iOS-Gerät bei Verwendung von CocoaPods ist jetzt korrigiert (GitHub Issue 1320).
  • iOS: Wenn SpeechSynthesizer so konfiguriert ist, dass Audiodaten direkt an einen Lautsprecher ausgegeben werden, wurde in seltenen Fällen die Wiedergabe am Anfang angehalten. Dies wurde behoben.
  • JavaScript: Verwendung des Fallbacks des Skriptprozessors für Mikrofoneingaben verwenden, wenn kein Audio-Worklet gefunden wird (GitHub Issue 455)
  • JavaScript: Hinzufügen eines Protokolls zum Agent, um einen bei der Sentry-Integration gefundenen Fehler zu beheben (GitHub Issue 465)

Beispiele GitHub

  • C++-, C#-, Python- und Java-Beispiele, die zeigen, wie Sie detaillierte Erkennungsergebnisse abrufen. Die Details umfassen alternative Erkennungsergebnisse, Zuverlässigkeitsbewertung, lexikalische Form, normalisierte Form, maskierte normalisierte Form mit jeweiligem Timing auf Wortebene.
  • Ein iOS-Beispiel mit der Verwendung von AVFoundation als externe Audioquelle wurde hinzugefügt.
  • Ein Java-Beispiel wurde hinzugefügt, um zu zeigen, wie Untertitel im SRT-Format (SubRip-Text) mithilfe des WordBoundary-Ereignisses abgerufen werden.
  • Android-Beispiele für die Aussprachebewertung.
  • C++- und C#-Beispiele, die die Verwendung der neuen Diagnoseprotokollierungsklassen zeigen.

Speech SDK 1.19.0: Release von November 2021

Highlights

  • Sprechererkennungsdienst ist jetzt allgemein verfügbar. Speech SDK-APIs sind unter C++, C#, Java und JavaScript verfügbar. Mit der Sprechererkennung können Sie Sprecher anhand ihrer einzigartigen Stimmmerkmale genau überprüfen und identifizieren. Weitere Informationen zu diesem Thema finden in der Dokumentation.

  • Wir haben die Unterstützung für Ubuntu 16.04 in Verbindung mit Azure DevOps und GitHub eingestellt. Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Migrieren Sie Ubuntu 16.04-Workflows zu mindestens Ubuntu 18.04.

  • OpenSSL-Verknüpfung in Linux-Binärdateien wurde in den dynamischen Modus geändert. Die Binärgröße von Linux wurde um etwa 50 % reduziert.

  • Mac M1 ARM-basierte Chipunterstützung wurde hinzugefügt.

Neue Funktionen

  • C++/C#/Java: Neue APIs wurden hinzugefügt, um die Audioverarbeitungsunterstützung für Spracheingaben mit Microsoft Audio Stack zu ermöglichen. Die Dokumentation finden Sie hier.

  • C++ : Neue APIs für die Absichtserkennung, um einen erweiterten Musterabgleich zu ermöglichen. Dies umfasst Listenentitäten und vordefinierte Ganzzahlentitäten sowie Unterstützung für die Gruppierung von Absichten und Entitäten als Modelle (Dokumentation, Updates und Beispiele befinden sich in der Entwicklung und werden in naher Zukunft veröffentlicht).

  • Mac:Unterstützung für ARM64 (M1)-basierte Hardware für Cocoapod, Python, Java und NuGet-Pakete im Zusammenhang mit GitHub-Issue 1244.

  • iOS/Mac:iOS- und macOS-Binärdateien sind jetzt in xcframework im Zusammenhang mit GitHub Issue 919 gepackt.

  • iOS/Mac: Unterstützung für Mac-Katalysator im Zusammenhang mit GitHub Issue 1171.

  • Linux: Neues tar-Paket für CentOS7 Informationen zum Speech SDKwurde hinzugefügt. Das TAR-Paket von Linux enthält nun spezifische Bibliotheken für RHEL/CentOS 7 in lib/centos7-x64. Speech SDK-Bibliotheken in lib/x64 gelten weiterhin für alle anderen unterstützten Linux x64-Distributionen (einschließlich RHEL/CentOS 8) und funktionieren nicht unter RHEL/CentOS 7.

  • JavaScript: VoiceProfile- und SpeakerRecognizer-APIs wurden in async/awaitable geändert.

  • JavaScript: Unterstützung für Azure-Regionen der US-Regierung wurde hinzugefügt.

  • Windows: Unterstützung für die Wiedergabe auf UWP (Universal Windows Platform) wurde hinzugefügt.

Behebung von Programmfehlern

  • Android: OpenSSL-Sicherheitsupdate (aktualisiert auf Version 1.1.1l) für Android-Pakete.

  • Python: Fehler behoben, bei dem die Auswahl des Lautsprechergeräts in Python fehlschlägt.

  • Core: Automatisches Wiederherstellen der Verbindung, wenn ein Verbindungsversuch fehlschlägt.

  • iOS: Audiokomprimierung wurde für iOS-Pakete aufgrund von Instabilität und Bitcode-Buildproblemen bei Verwendung von GStreamer deaktiviert. Details sind GitHub Issue 1209 verfügbar.

Beispiele GitHub

  • Mac/iOS: Aktualisierte Beispiele und Schnellstarts zur Verwendung des xcframework-Pakets.

  • .NET: Beispiele für die Verwendung von .NET Core 3.1 wurden aktualisiert.

  • JavaScript: Beispiel für Sprach-Assistenten wurde hinzugefügt.

Speech SDK 1.18.0: Release von Juli 2021

Hinweis: Informationen zu den ersten Schritten mit dem Speech SDK finden Sie hier.

Zusammenfassung der Highlights

  • Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Mit Azure DevOps und GitHub wird die Unterstützung für Version 16.04 im September 2021 eingestellt. Migrieren Sie Ubuntu 16.04-Workflows vorher mindestens zu Ubuntu 18.04.

Neue Funktionen

  • C++ : Der einfache Sprachmusterabgleich mit Absichtserkennung vereinfacht jetzt die Implementierung einfacher Absichtserkennungsszenarien.
  • C++/C#/Java: Wir haben der VoiceProfileClient-Klasse eine neue API GetActivationPhrasesAsync() hinzugefügt, die den Empfang einer Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Sprechererkennung für unabhängige Erkennungsszenarien ermöglicht.
    • Wichtig: Das Feature zur Sprechererkennung befindet sich in der Vorschauphase. 90 Tage nach der Freigabe für die allgemeine Verfügbarkeit werden alle in der Vorschauversion des Features erstellten Sprachprofile nicht mehr unterstützt. Die Sprachprofile aus der Vorschauversion funktionieren dann nicht mehr.
  • Python: Den vorhandenen SpeechRecognizer- und TranslationRecognizer-Objekten wurde Unterstützung für die kontinuierliche Sprachidentifikation (Continuous Language Identification, LID) hinzugefügt.
  • Python: Ein neues Python-Objekt namens SourceLanguageRecognizer für die einmalige oder kontinuierliche Sprachidentifikation (ohne Erkennung oder Übersetzung) wurde hinzugefügt.
  • JavaScript: Der VoiceProfileClient-Klasse wurde eine API getActivationPhrasesAsync hinzugefügt, die den Empfang einer Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Sprechererkennung für unabhängige Erkennungsszenarien ermöglicht.
  • Die enrollProfileAsync-API der VoiceProfileClient-Klasse von JavaScript ist jetzt asynchron „awaitable“. Ein Beispiel zur Verwendung finden Sie in diesem unabhängigen Identifikationscode.

Verbesserungen

  • Java: Vielen Java-Objekten wurde Unterstützung für AutoCloseable hinzugefügt. Für die Freigabe von Ressourcen wird jetzt das try-with-resources-Modell unterstützt. Weitere Informationen finden Sie in diesem Beispiel mit try-with-resources. Sie können sich auch das Tutorial zur try-with-resources-Anweisung in der Oracle Java-Dokumentation ansehen, um mehr über dieses Muster zu erfahren.
  • Der Speicherbedarf des Datenträgers wurde für viele Plattformen und Architekturen erheblich reduziert. Beispiele für die Binärdatei Microsoft.CognitiveServices.Speech.core: 475 KB kleiner für x64 Linux (Reduktion um 8,0 %), 464 KB kleiner für ARM64 Windows UWP (Reduktion um 11,5 %), 343 KB kleiner für x86 Windows (Reduktion um 17,5 %) und 451 KB kleiner für x64 Windows (Reduktion um 19,4 %).

Behebung von Programmfehlern

  • Java: Der Synthesefehler bei Synthesetext mit Ersatzzeichen wurde behoben. Ausführlichere Informationen finden Sie hier.
  • JavaScript: Für die Verarbeitung von Audioeingaben über das Browsermikrofon wird jetzt AudioWorkletNode anstelle der veralteten ScriptProcessorNode-Schnittstelle verwendet. Ausführlichere Informationen finden Sie hier.
  • JavaScript: Halten Sie Konversationen in Szenarien mit zeitintensiver Konversationsübersetzung korrekt aufrecht. Ausführlichere Informationen finden Sie hier.
  • JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Medienstream hergestellt hat. Ausführlichere Informationen finden Sie hier.
  • JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Pushstream hergestellt hat. Ausführlichere Informationen finden Sie hier.
  • JavaScript: Die Offsetberechnung auf Wortebene in detaillierten Erkennungsergebnissen wurde korrigiert. Ausführlichere Informationen finden Sie hier.

Beispiele

  • Aktualisierte Java-Schnellstartbeispiele finden Sie hier.
  • Die Beispiele zur JavaScript-Sprechererkennung wurden aktualisiert, um die neue Verwendung der enrollProfileAsync()-Methode zu veranschaulichen. Beispiele finden Sie hier.

Speech SDK 1.17.0: Version aus Mai 2021

Hinweis

Erste Schritte mit dem Speech SDK finden Sie hier:

Zusammenfassung der Highlights

  • Geringerer Speicherbedarf: Wir verringern weiterhin den Speicher- und Datenträgerbedarf des Speech SDK und seiner Komponenten.
  • Mit einer neuen eigenständigen Sprachenerkennungs-API können Sie erkennen, welche Sprache gesprochen wird.
  • Entwickeln Sie sprachaktivierte Mixed Reality- und Gaminganwendungen mit Unity unter macOS.
  • Sie können jetzt in der Programmiersprache Go zusätzlich zur Spracherkennung auch die Sprachsynthese verwenden.
  • Es gibt verschiedene Fehlerbehebungen für von unseren geschätzten Kunden auf GitHub gekennzeichneten Issues. VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.

Neue Funktionen

  • C++/C#: Neue eigenständige Start- und fortlaufende Sprachenerkennung über die SourceLanguageRecognizer-API. Wenn Sie nur die in Audioinhalten gesprochene(n) Sprache(n) erkennen möchten, ist dies die richtige API dafür. Mehr dazu finden Sie in den Details für C++ und C#.
  • C++/C#: Spracherkennung und Übersetzungserkennung unterstützen jetzt sowohl die Spracherkennung zu Beginn als auch die kontinuierliche Spracherkennung, sodass Sie programmgesteuert bestimmen können, welche Sprache(n) gesprochen werden, bevor sie transkribiert oder übersetzt werden. Weitere Informationen zur Spracherkennung finden Sie hier und weitere Informationen zur Sprachübersetzung finden Sie hier.
  • C#: Unterstützung für Unity wurde zu macOS (x64) hinzugefügt. Dadurch werden Anwendungsfälle für Spracherkennung und Sprachsynthese in Mixed Reality und Gaming ermöglicht.
  • Go: Wir haben die Unterstützung für Sprachsynthese/Text-zu-Sprache zur Programmiersprache Go hinzugefügt, um die Sprachsynthese in noch mehr Anwendungsfällen zur Verfügung zu stellen. Weitere Informationen finden Sie in unserer Schnellstartanleitung oder in unserer Referenzdokumentation.
  • C++/C#/Java/Python/Objective-C/Go: Der Sprachsynthetizer unterstützt jetzt das connection-Objekt. Dies hilft Ihnen bei der Verwaltung und Überwachung der Verbindung mit dem Spracherkennungsdienst und ist besonders hilfreich, um eine Vorabverbindung zur Verringerung der Wartezeit herzustellen. Die zugehörige Dokumentation finden Sie hier.
  • C++/C#/Java/Python/Objective-C/Go: Wir machen jetzt die Warte- und Unterschreitungszeit in SpeechSynthesisResult verfügbar, um Sie bei der Überwachung und Diagnose von Wartezeitproblemen bei der Sprachsynthese zu unterstützen. Weitere Informationen finden Sie unter den Details für C++, C#, Java, Python, Objective-C und Go.
  • C++/C#/Java/Python/Objective-C: Die Sprachsynthese verwendet jetzt standardmäßig neuronale Stimmen, wenn Sie keine Stimme angeben, die verwendet werden soll. Dadurch erhalten Sie standardmäßig eine höhere Wiedergabetreue, dies erhöht aber auch den Standardpreis. Sie können eine unserer über 70 Standardstimmen oder über 130 neuronale Stimmen angeben, um den Standardwert zu ändern.
  • C++/C#/Java/Python/Objective-C/Go: Wir haben eine Eigenschaft für das Geschlecht zu den Synthesestimmeninformationen hinzugefügt, um die Auswahl von Stimmen basierend auf dem Geschlecht zu erleichtern. Dies behandelt das GitHub-Problem 1055.
  • C++, C#, Java, JavaScript: Wir unterstützen jetzt retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync und getAllProfilesAsync() in der Sprechererkennung, um dem Benutzer die Verwaltung aller Stimmenprofile für ein bestimmtes Konto zu erleichtern. Weitere Informationen finden Sie in der Dokumentation für C++, C#, Java, JavaScript. Dies behandelt das GitHub-Problem 338.
  • JavaScript: Wir haben Wiederholungsversuche bei Verbindungsfehlern hinzugefügt, die Ihre JavaScript-basierten Sprachanwendungen zuverlässiger gestalten.

Verbesserungen

  • Speech SDK-Binärdateien für Linux und Android wurden aktualisiert, um die neueste Version von OpenSSL (1.1.1k) zu verwenden.
  • Verbesserungen beim Codeumfang:
    • Language Understanding ist jetzt in eine separate „lu“-Bibliothek unterteilt.
    • Die Größe der Binärdateien für den Windows x64-Kern wurde um 14,4 % verringert.
    • Die Größe der Binärdateien für den Android ARM64-Kern wurde um 13,7 % verringert.
    • Andere Komponenten wurden ebenfalls verkleinert.

Behebung von Programmfehlern

  • Alle: Das GitHub-Problem 842 für ServiceTimeout wurde behoben. Sie können jetzt lange Audiodateien mithilfe des Speech SDK transkribieren, ohne dass die Verbindung mit dem Dienst mit diesem Fehler beendet wird. Es wird jedoch weiterhin empfohlen, die Batchtranskription für lange Dateien zu verwenden.
  • C# : Das GitHub-Problem 947 wurde behoben, bei dem eine fehlende Spracheingabe Ihre App in einem fehlerhaften Zustand hinterlassen konnte.
  • Java: Das GitHub-Problem 997 wurde behoben, bei dem das Speech SDK für Java 1.16 abstürzt, wenn „DialogServiceConnector“ ohne Netzwerkverbindung oder mit einem ungültigen Abonnementschlüssel verwendet wird.
  • Ein Absturz beim abrupten Beenden der Spracherkennung (z. B. mithilfe von STRG+C in der Konsolen-App) wurde behoben.
  • Java: Es wurde eine Korrektur zum Löschen temporärer Dateien unter Windows hinzugefügt, wenn das Speech SDK für Java verwendet wird.
  • Java: Das GitHub-Problem 994 wurde behoben, bei dem der Aufruf von DialogServiceConnector.stopListeningAsync zu einem Fehler führen konnte.
  • Java: Es wurde ein Kundenproblem im Schnellstart des virtuellen Assistenten behoben.
  • JavaScript: GitHub-Issue 366, bei dem ConversationTranslator den Fehler „this.cancelSpeech ist keine Funktion“ ausgelöst hat, behoben.
  • JavaScript: Das GitHub-Problem 298, bei dem das Beispiel „Abrufen des Ergebnisses als InMemory-Datenstrom“ den Ton laut wiedergegeben hat, wurde behoben.
  • JavaScript: GitHub-Issue 350, bei dem der Aufruf von AudioConfig zu „ReferenceError: MediaStream ist nicht definiert“ geführt hat, behoben.
  • JavaScript: Eine „UnhandledPromiseRejection“-Warnung in Node.js für zeitintensive Sitzungen wurde behoben.

Beispiele

  • Die Unity-Beispieldokumentation für macOS wurde hieraktualisiert.
  • Ein React Native-Beispiel für den Azure KI Speech-Spracherkennungsdienst ist jetzt hier verfügbar.

Speech SDK 1.16.0: Release von März 2021

Hinweis

Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.

Neue Funktionen

  • C++/C#/Java/Python: Wechsel zur aktuellen Version von GStreamer (1.18.3), um die Transkription jedes Medienformats unter Windows, Linux und Android zu unterstützen. Die zugehörige Dokumentation finden Sie hier.
  • C++/C#/Java/Objective-C/Python: Jetzt wird das Decodieren von komprimierter Sprachsynthese/synthetisierten Audiodaten in das SDK unterstützt. Wenn Sie das Ausgabeaudioformat auf PCM festlegen und GStreamer auf Ihrem System verfügbar ist, fordert das SDK automatisch komprimierte Audiodaten vom Dienst an, um Bandbreite zu sparen und die Audiodaten auf dem Client zu decodieren. Sie können SpeechServiceConnection_SynthEnableCompressedAudioTransmission auf false festlegen, um dieses Feature zu deaktivieren. Details zu C++, C#, Java, Objective-C, Python.
  • JavaScript: Node.js-Benutzer können jetzt die -AudioConfig.fromWavFileInputAPIverwenden. GitHub-Issue 252 bezieht sich auf dieses Problem.
  • C++/C#/Java/Objective-C/Python: Die GetVoicesAsync()-Methode wurde hinzugefügt, damit die Sprachsynthese alle verfügbaren Synthesestimmen zurückgibt. Details zu C++, C#, Java, Objective-C und Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: Das VisemeReceived-Ereignis für TTS/Sprachsynthese wurde hinzugefügt, um synchrone Visemanimiation zurückzugeben. Die zugehörige Dokumentation finden Sie hier.
  • C++/C#/Java/JavaScript/Objective-C/Python: Für TTS wurde das BookmarkReached-Ereignis hinzugefügt. Sie können im Eingabe-SSML Lesezeichen festlegen und den Audiooffset jedes Lesezeichen abrufen. Die zugehörige Dokumentation finden Sie hier.
  • Java: Unterstützung für Sprechererkennungs-APIs wurde hinzugefügt. Ausführlichere Informationen finden Sie hier.
  • C++/C#/Java/JavaScript/Objective-C/Python: Es wurden zwei neue Ausgabeaudioformate mit einem WebM-Container für TTS („Webm16Khz16BitMonoOpus“ und „Webm24Khz16BitMonoOpus“) hinzugefügt. Diese Formate sind besser für das Streaming von Audiodaten mit dem Opus-Codec geeignet. Details zu C++, C#, Java, JavaScript, Objective-C und Python.
  • C++/C#/Java: Unterstützung für das Abrufen des Sprachprofils für das Sprechererkennungsszenario wurde hinzugefügt. Details zu C++, C# und Java.
  • C++/C#/Java/Objective-C/Python: Unterstützung für eine separate freigegebene Bibliothek für die Steuerung von Audiomikrofon und Lautsprecher wurde hinzugefügt. Dies ermöglicht dem Entwickler die Verwendung des SDK in Umgebungen ohne Abhängigkeiten von erforderlichen Audiobibliotheken.
  • Objective-C/Swift: Es wurde Unterstützung für Modulframeworks mit Umbrella-Header hinzugefügt. Dies ermöglicht dem Entwickler den Import des Speech SDK als Modul in Apps mit Objective-C (iOS oder Mac)/Swift. GitHub-Issue 452 bezieht sich auf dieses Problem.
  • Python: Python 3.9 wird jetzt unterstützt, während Python 3.5 aufgrund der Einstellung des Supports für Python 3.5 nicht mehr unterstützt wird.

Bekannte Probleme

  • C++/C#/Java: DialogServiceConnector kann nicht mit CustomCommandsConfig auf eine Anwendung für benutzerdefinierte Befehle zugreifen. Stattdessen tritt ein Verbindungsfehler auf. Dies kann umgangen werden, indem Sie der Anforderung mit config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) die Anwendungs-ID manuell hinzufügen. Das erwartete Verhalten von CustomCommandsConfig wird in der nächsten Version wiederhergestellt.

Verbesserungen

  • Wir möchten die Speicherauslastung und den Datenträger-Speicherbedarf des Speech SDK releaseunabhängig verringern, und Android-Binärdateien sind jetzt um 3 % bis 5 % kleiner.
  • Verbesserte Genauigkeit, Lesbarkeit und Abschnitte mit weiteren Informationen in unserer C#-Referenzdokumentation hier.

Behebung von Programmfehlern

  • JavaScript: Umfangreiche WAV-Dateiheader werden jetzt ordnungsgemäß analysiert (vergrößert das Headersegment auf 512 Bytes). GitHub-Issue 962 bezieht sich auf dieses Problem.
  • JavaScript: Ein Problem bei der Mikrofonzeitsteuerung wurde korrigiert, das auftritt, wenn der Mikrofonstream vor der Stopperkennung endet. Dies betrifft eine Funktionsstörung der Spracherkennung in Firefox.
  • JavaScript: Die Initialisierungszusage wird jetzt ordnungsgemäß behandelt, wenn der Browser das Ausschalten des Mikrofons erzwingt, bevor „turnon“ abgeschlossen wurde.
  • JavaScript: „url-dependency“ wurde durch „url-parse“ ersetzt. GitHub-Issue 264 bezieht sich auf dieses Problem.
  • Android: Das Problem wurde behoben, dass keine Rückrufe erfolgen, wenn minifyEnabled auf „true“ festgelegt ist.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY wird ordnungsgemäß auf die zugrunde liegende Socket-E/A für TTS festgelegt, um die Latenz zu verringern.
  • C++/C#/Java/Python/Objective-C/Go: Das Problem wurde behoben, dass gelegentlich ein Absturz erfolgt, wenn die Erkennung unmittelbar nach dem Starten einer Erkennung zerstört wurde.
  • C++/C#/Java: Das Problem wurde behoben, dass bei der Zerstörung der Sprechererkennung gelegentlich ein Absturz erfolgt.

Beispiele

  • JavaScript: Browserbeispiele erfordern nicht mehr einen speziellen Download von JavaScript-Bibliotheksdateien.

Speech-SDK 1.15.0: Release von Januar 2021

Hinweis

Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.

Zusammenfassung der Highlights

  • Der geringere Arbeitsspeicher und Speicherbedarf des Datenträgers machen das SDK effizienter.
  • Es sind Ausgabeformate mit höherer Genauigkeit für die private Vorschau der benutzerdefinierten neuronalen Stimme verfügbar.
  • Die Absichtserkennung kann jetzt mehr als nur die höchste Absicht abrufen und zurückgeben, sodass Sie eine separate Bewertung der Absicht Ihres Kunden durchführen können.
  • Das Einrichten von Sprach-Assistenten oder Bots ist nun einfacher, Sie können das Zuhören sofort beenden und die Reaktionen auf Fehler besser steuern.
  • Die Geräteleistung wurde verbessert, da die Komprimierung optional ist.
  • Die Verwendung des Speech-SDK unter Windows ARM bzw. ARM64 ist möglich.
  • Das Debuggen auf niedriger Ebene wurde verbessert.
  • Das Feature zur Bewertung der Aussprache ist jetzt in größerem Umfang verfügbar.
  • Es gibt verschiedene Fehlerbehebungen für von unseren geschätzten Kunden auf GitHub gekennzeichneten Issues. VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.

Verbesserungen

  • Das Speech-SDK ist jetzt effizienter und einfacher zu verwenden. Es wurde ein Multirelease gestartet, um die Speicherauslastung und den Speicherbedarf des Speech-SDK zu reduzieren. Im ersten Schritt wurden erhebliche Änderungen an der Dateigröße in freigegebenen Bibliotheken vorgenommen. Im Vergleich zum Release 1.14:
    • Die 64-Bit-UWP-kompatiblen Windows-Bibliotheken sind etwa 30 Prozent kleiner.
    • 32-Bit-Windows-Bibliotheken wurden noch nicht hinsichtlich Größe verbessert.
    • Linux-Bibliotheken sind 20 bis 25 Prozent kleiner.
    • Android-Bibliotheken sind 3 bis 5 Prozent kleiner.

Neue Funktionen

  • All: Für die private Vorschau der benutzerdefinierten neuronalen Stimme über die TTS-Sprachsynthese-API sind neue 48-kHz-Ausgabeformate verfügbar: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • All: Custom Voice ist ebenfalls einfacher zu verwenden. Die Unterstützung für das Einstellen von Custom Voice über EndpointId (C++, C#, Java, JavaScript, Objective-C, Python) wurde hinzugefügt. Vor dieser Änderung mussten Custom Voice-Benutzer die Endpunkt-URL über die FromEndpoint-Methode festlegen. Kunden können nun die FromSubscription-Methode wie bei vordefinierten Stimmen verwenden und dann die Bereitstellungs-ID angeben, indem sie EndpointId festlegen. Dadurch wird das Einrichten von benutzerdefinierten Stimmen vereinfacht.
  • C++/C#/Java/Objective-C/Python: Fragen Sie mehr als nur die höchste Absicht von IntentRecognizer ab. Jetzt wird das Konfigurieren des JSON-Ergebnisses über die LanguageUnderstandingModel FromEndpoint-Methode mithilfe des verbose=true-URI-Parameters unterstützt, das alle Absichten und nicht nur die Absicht mit der höchsten Bewertung enthält. Dies bezieht sich auf das GitHub-Issue 880. Die aktualisierte Dokumentation finden Sie hier.
  • C++/C#/Java: Sie können Ihren Sprach-Assistenten oder Bot dazu bringen, dass er das Zuhören sofort beendet. DialogServiceConnector (C++, C#, Java) verfügt jetzt über eine StopListeningAsync()-Methode für die gemeinsame Verwendung mit ListenOnceAsync(). Dadurch wird die Audioaufzeichnung sofort beendet und ordnungsgemäß auf das Ergebnis gewartet, sodass sich dies perfekt für Szenarios mit der Schaltfläche „Jetzt Beenden“ eignet.
  • C++/C#/Java/JavaScript: Sorgen Sie dafür, dass Ihr Sprach-Assistent oder Bot besser auf zugrunde liegende Systemfehler reagiert. DialogServiceConnector (C++, C#, Java, JavaScript) verfügt jetzt über einen neuen TurnStatusReceived-Ereignishandler. Diese optionalen Ereignisse entsprechen allen ITurnContext-Auflösungen im Zusammenhang mit dem Bot und melden ggf. Ausführungsfehler (z. B. als Ergebnis eines Ausnahmefehlers, Timeouts oder Netzwerkfehlers zwischen Direct Line Speech und dem Bot). TurnStatusReceived erleichtert das Reagieren auf Fehlerbedingungen. Wenn ein Bot beispielsweise zu viel Zeit für eine Back-End-Datenbankabfrage benötigt (z. B. bei der Suche nach einem Produkt), kann dem Client mit TurnStatusReceived und einer Nachricht wie „Entschuldigung, ich habe das nicht verstanden. Probieren Sie es später noch mal.“ mitgeteilt werden, dass er die Aufforderung später noch mal durchführen soll.
  • C++/C# : Verwenden Sie das Speech-SDK auf mehreren Plattformen. Das NuGet-Paket für das Speech-SDK unterstützt jetzt native Windows ARM-/ARM64-Desktopbinärdateien (UWP wurde bereits unterstützt), damit das Speech-SDK für mehr Computertypen verwendet werden kann.
  • Java: DialogServiceConnector verfügt jetzt über eine setSpeechActivityTemplate()-Methode, die zuvor versehentlich von der Sprache ausgeschlossen wurde. Dies entspricht dem Festlegen der Conversation_Speech_Activity_Template-Eigenschaft und erfordert, dass alle zukünftigen Bot Framework-Aktivitäten, die vom Direct Line Speech-Dienst stammen, den bereitgestellten Inhalt in ihre JSON-Nutzdaten zusammenführen.
  • Java: Das Debuggen auf niedriger Ebene wurde verbessert. Die Connection-Klasse verfügt jetzt ähnlich wie andere Programmiersprachen (C++, C#) über ein MessageReceived-Ereignis. Dieses Ereignis ermöglicht den Zugriff auf vom Dienst eingehende Daten auf niedriger Ebene und kann bei der Diagnose und beim Debuggen hilfreich sein.
  • JavaScript: Das Einrichten von Sprach-Assistenten und Bots über die BotFrameworkConfig-Klasse wird einfacher, da diese nun über die Factorymethoden fromHost() und fromEndpoint() verfügt, die die Verwendung von benutzerdefinierten Dienstidentifizierungen im Vergleich zum manuellen Festlegen von Eigenschaften vereinfachen. Die optionale Angabe von botId wurde für die Verwendung eines nicht dem Standard entsprechenden Bots in den Konfigurationsfactorys ebenfalls standardisiert.
  • JavaScript: Die Geräteleistung wurde durch das Hinzufügen der Zeichenfolgensteuerungseigenschaft für die WebSocket-Komprimierung verbessert. Aus Leistungsgründen wurde die WebSocket-Komprimierung standardmäßig deaktiviert. Diese kann für Szenarios mit geringer Bandbreite erneut aktiviert werden. Ausführlichere Informationen finden Sie hier. Dies bezieht sich auf das GitHub-Issue 242.
  • JavaScript: Die Unterstützung für die Bewertung der Aussprache wurde hinzugefügt, um die Auswertung der Aussprache zu ermöglichen. Den Schnellstart finden Sie hier.

Behebung von Programmfehlern

  • Alle (mit Ausnahme von JavaScript): Es wurde eine Regression in Version 1.14 korrigiert, bei der das Erkennungsmodul zu viel Speicher belegt hat.
  • C++: Es wurde ein Problem mit der automatischen Speicherbereinigung mit DialogServiceConnector behoben, auf das sich das GitHub-Issue 794 bezieht.
  • C# : Es wurde ein Problem mit dem Herunterfahren des Threads behoben, das dazu geführt hat, dass Objekte beim Verwerfen ungefähr eine Sekunde blockiert wurden.
  • C++/C#/Java: Es wurde eine Ausnahme korrigiert, die verhindert, dass eine Anwendung das Sprachautorisierungstoken oder die Aktivitätsvorlage mehr als einmal auf einem DialogServiceConnector festlegt.
  • C++/C#/Java: Es wurde ein Problem behoben, das dazu geführt hat, dass das Erkennungsmodul aufgrund einer Racebedingung beim Löschen abgestürzt ist.
  • JavaScript: DialogServiceConnector hat den optionalen botId-Parameter, der in den Factorys von BotFrameworkConfig angegebenen wurde, zuvor nicht berücksichtigt. Dadurch ist es notwendig, den Abfragezeichenfolgenparameter botId manuell festzulegen, um einen nicht dem Standard entsprechenden Bot zu verwenden. Der Fehler wurde korrigiert, und botId-Werte, die in den Factorys von BotFrameworkConfig bereitgestellt werden, werden einschließlich der neuen Ergänzungen fromHost() und fromEndpoint() berücksichtigt und verwendet. Dies gilt auch für den applicationId-Parameter für CustomCommandsConfig.
  • JavaScript: Das GitHub Issue 881 wurde behoben, sodass das Erkennungsmodul Objekten wiederverwenden kann.
  • JavaScript: Es wurde ein Problem behoben, bei dem das SKD mehrmals in einer TTS-Sitzung speech.config gesendet wurde und somit Bandbreite verschwendet hat.
  • JavaScript: Die Fehlerbehandlung bei der Mikrofonautorisierung wurde vereinfacht, sodass mehr beschreibende Meldungen angezeigt werden können, wenn ein Benutzer die Mikrofoneingabe im Browser nicht zugelassen hat.
  • JavaScript: Das GitHub-Issue 249 wurde behoben, bei dem Typfehler in ConversationTranslator und ConversationTranscriber einen Kompilierungsfehler für TypeScript-Benutzer verursacht haben.
  • Objective-C: Es wurde ein Problem behoben, bei dem der GStreamer-Build für iOS in Xcode 11.4 nicht ausgeführt werden konnte. Das GitHub-Issue 911 bezieht sich auf dieses Problem.
  • Python: Das GitHub-Issue 870 wurde behoben, indem „DeprecationWarning: the imp module is deprecated in favor of importlib“ (DeprecationWarning: Das imp-Modul für importlib ist veraltet.) entfernt wurde.

Beispiele

Speech SDK 1.14.0: Release vom Oktober 2020

Hinweis

Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.

Neue Funktionen

  • Linux: Unterstützung für Debian 10 und Ubuntu 20.04 LTS wurde hinzugefügt.
  • Python/Objective-C: Die Unterstützung für die KeywordRecognizer-API wurde hinzugefügt. Die Dokumentation finden Sie hier.
  • C++/Java/C# : Die Unterstützung zum Festlegen beliebiger HttpHeader-Schlüssel/-Werte über ServicePropertyChannel::HttpHeader wurde hinzugefügt.
  • JavaScript: Die Unterstützung für die ConversationTranscriber-API wurde hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • C++/C# : Die neue AudioDataStream FromWavFileInput-Methode (zum Lesen von WAV-Dateien) wurde hier (C++) und hier (C#) hinzugefügt.
  • C++/C#/Java/Python/Objective-C/Swift: Es wurde eine stopSpeakingAsync()-Methode zum Beenden der Sprachsynthese hinzugefügt. Die Referenzdokumentation finden Sie hier (C++), hier (C#), hier (Java), hier (Python) und hier (Objective-C/Swift).
  • C#, C++, Java: Es wurde eine FromDialogServiceConnector()-Funktion zur Klasse Connection hinzugefügt, mit der Ereignisse für DialogServiceConnector zum Herstellen oder Aufheben von Verbindungen überwacht werden können. Die Referenzdokumentation finden Sie hier (C#), hier (C++) und hier (Java).
  • C++/C#/Java/Python/Objective-C/Swift: Die Unterstützung für die Aussprachebewertung wurde hinzugefügt. Diese bewertet die Aussprache und gibt den Rednern Feedback zur Genauigkeit und zum Redefluss der gesprochenen Audioinformationen. Lesen Sie die Dokumentation.

Unterbrechende Änderung

  • JavaScript: Der Rückgabetyp von PullAudioOutputStream.read() wurde von einer internen Zusage in eine native JavaScript-Zusage geändert.

Behebung von Programmfehlern

  • All: Die 1.13-Regression wurde in SetServiceProperty behoben, bei der Werte mit bestimmten Zeichen ignoriert wurden.
  • C# : Windows-Konsolenbeispiele in Visual Studio 2019 wurden behoben, in denen bei der Suche von nativen DLLs Fehler aufgetreten sind.
  • C# : Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als KeywordRecognizer-Eingabe verwendet wurde.
  • ObjectiveC/Swift: Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als Eingabe des Erkennungsmoduls verwendet wurde.
  • Windows: Es wurde ein Problem mit der Koexistenz von BT HFP/A2DP auf der universellen Windows-Plattform behoben.
  • JavaScript: Die Zuordnung von Sitzungs-IDs wurde behoben, um die Protokollierung zu verbessern und bei internen Debug-/Dienstkorrelationen zu helfen.
  • JavaScript: Es wurde eine Fehlerbehebung für DialogServiceConnector hinzugefügt, die ListenOnce-Aufrufe nach dem Ausführen des ersten Aufrufs deaktiviert.
  • JavaScript: Es wurde ein Problem behoben, bei dem die Ergebnisausgabe immer nur „simple“ (einfach) ergibt.
  • JavaScript: Ein Problem bei der fortlaufenden Erkennung wurde in Safari unter macOS behoben.
  • JavaScript: Es wurde eine Risikominderung für die CPU-Last für das Szenario mit hohem Anforderungsdurchsatz durchgeführt.
  • JavaScript: Der Zugriff auf Details des Ergebnisses der Sprachprofilregistrierung wurde zugelassen.
  • JavaScript: Ein Fehler bei der fortlaufenden Erkennung in IntentRecognizer wurde behoben.
  • C++/C#/Java/Python/Swift/ObjectiveC: Eine falsche URL für „australiaeast“ und „brazilsouth“ in IntentRecognizer wurde behoben.
  • C++/C# : Es wurde VoiceProfileType als Argument beim Erstellen eines VoiceProfile-Objekts hinzugefügt.
  • C++/C#/Java/Python/Swift/ObjectiveC: Es wurde ein Problem für das potenzielle SPX_INVALID_ARG beim Versuch behoben, AudioDataStream von einer angegebenen Position zu lesen.
  • IOS: Es wurde der Absturz bei der Spracherkennung unter Unity behoben.

Beispiele

  • ObjectiveC: Ein Beispiel für die Schlüsselworterkennung wurde hier hinzugefügt.
  • C#/JavaScript: Ein Schnellstart für die Unterhaltungstranskription wurde hier (C#) und hier (JavaScript) hinzugefügt.
  • C++/C#/Java/Python/Swift/ObjectiveC: Hier wurde ein Beispiel für die Bewertung der Aussprache hinzugefügt.
  • Xamarin: Der Schnellstart wurde hier auf die neueste Visual Studio-Vorlage aktualisiert.

Bekanntes Problem

  • Das DigiCert Global Root G2-Zertifikat wird in HoloLens 2 und Android 4.4 (KitKat) nicht standardmäßig unterstützt und muss zum System hinzugefügt werden, damit das Speech SDK funktioniert. Das Zertifikat wird in naher Zukunft den Betriebssystemimages von HoloLens 2 hinzugefügt werden. Kunden von Android 4.4 müssen das aktualisierte Zertifikat dem System hinzufügen.

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!

Speech SDK 1.13.0: Release 2020-July

Hinweis

Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können die Software hier herunterladen und installieren.

Neue Funktionen

  • C# : Unterstützung für asynchrone Unterhaltungstranskription hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • JavaScript: Unterstützung für Sprechererkennung für Browser und Node.js hinzugefügt.
  • JavaScript: Unterstützung für Sprachenerkennung/Sprach-ID hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • Objective-C: Unterstützung für die Unterhaltung auf mehreren Geräten und Unterhaltungstranskription hinzugefügt.
  • Python: Unterstützung für komprimierte Audiodaten für Python unter Windows und Linux hinzugefügt. Die zugehörige Dokumentation finden Sie hier.

Behebung von Programmfehlern

  • All: Es wurde ein Problem behoben, durch das der KeywordRecognizer die Streams nach einer Erkennung nicht weiterleitete.
  • All: Es wurde ein Problem behoben, durch das der aus einem KeywordRecognitionResult abgeleitete Stream nicht das Schlüsselwort enthielt.
  • All: Es wurde ein Problem behoben, durch das SendMessageAsync die Nachricht nicht wirklich über das Netzwerk gesendet hat, nachdem die Benutzer darauf warteten.
  • All: Es wurde ein Absturz in den Sprechererkennungs-APIs korrigiert, wenn Benutzer VoiceProfileClient::SpeakerRecEnrollProfileAsync mehrfach aufgerufen haben und nicht darauf warteten, dass die Aufrufe beendet wurden.
  • All: Die Aktivierung der Dateiprotokollierung in der VoiceProfileClient- und der SpeakerRecognizer-Klasse wurde korrigiert.
  • JavaScript: Es wurde ein Problem mit der Drosselung behoben, wenn der Browser minimiert wird.
  • JavaScript: Es wurde ein Problem mit einem Arbeitsspeicherverlust in Streams behoben.
  • JavaScript: Zwischenspeicherung für OCSP-Antworten von Node.js hinzugefügt.
  • Java: Es wurde ein Problem behoben, durch das BigInteger-Felder immer „0“ zurückgaben.
  • iOS: Es wurde ein Problem beim Veröffentlichen von Apps, die auf dem Speech SDK basieren, im iOS App Store behoben.

Beispiele

  • C++: Beispielcode für Sprechererkennung hier hinzugefügt.

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!

Speech SDK 1.12.1: Release von Juni 2020

Neue Funktionen

Behebung von Programmfehlern

  • C#, C++: Die Mikrofonaufzeichnung funktionierte in 1.12 bei der Sprechererkennung nicht. Dies wurde behoben.
  • JavaScript: Fehler bei der Sprachsynthese in Firefox und Safari unter macOS und iOS wurden behoben.
  • Ein Fehler wurde behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Unterhaltungstranskription von 8-Kanal-Datenströmen zu einem Absturz kam.
  • Es wurde ein Fehler behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Konversationsübersetzung von mehreren Geräten zu einem Absturz kam.

Beispiele

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!

Speech SDK 1.12.0: Release von Mai 2020

Neue Funktionen

  • Goh: Neue Unterstützung der Sprache Go für Spracherkennung und benutzerdefinierten Sprach-Assistenten. Ihre Entwicklungsumgebung können Sie hier einrichten. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
  • JavaScript: Browserunterstützung für Sprachsynthese hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • C++, C#, Java: Unterstützung des neuen KeywordRecognizer-Objekts sowie neuer APIs unter Windows, Android, Linux und iOS. Lesen Sie die Dokumentation. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
  • Java: Konversation mit mehreren Geräten mit Übersetzungsunterstützung hinzugefügt. Die zugehörige Referenzdokumentation finden Sie hier.

Verbesserungen und Optimierungen

  • JavaScript: Mikrofonimplementierung für Browser optimiert, um die Genauigkeit bei der Spracherkennung zu verbessern.
  • Java: Bindungen mit direkter JNI-Implementierung ohne SWIG wurden umgestaltet. Durch diese Änderung wird die Bindungsgröße aller für Windows, Android, Linux und Mac verwendeten Java-Pakete um das Zehnfache verringert und die weitere Entwicklung der Speech SDK-Java-Implementierung vereinfacht.
  • Linux: Die unterstützende Dokumentation wurde mit den neuesten RHEL 7-spezifischen Anmerkungen aktualisiert.
  • Die Verbindungslogik wurde verbessert, um im Falle von Dienst- oder Netzwerkfehlern mehrere Verbindungsversuche zu unternehmen.
  • Die Speech-Schnellstartseite auf portal.azure.com wurde aktualisiert, um Entwickler*innen beim nächsten Schritt der Azure KI Speech-Journey zu unterstützen.

Behebung von Programmfehlern

  • C#, Java: Ein Problem beim Laden von SDK-Bibliotheken in Linux ARM wurde behoben (sowohl für die 32-Bit- als auch für die 64-Bit-Version).
  • C#: Das explizite Löschen nativer Handles für die TranslationRecognizer-, IntentRecognizer- und Connection-Objekte wurde korrigiert.
  • C# : Für das ConversationTranscriber-Objekt wurde die Lebensdauerverwaltung für Audioeingaben korrigiert.
  • Es wurde ein Problem behoben, bei dem der Grund für das IntentRecognizer-Ergebnis nicht ordnungsgemäß festgelegt wurde, wenn Absichten aus einfachen Ausdrücken erkannt wurden.
  • Problem behoben, bei dem das SpeechRecognitionEventArgs-Ergebnisoffset nicht ordnungsgemäß festgelegt wurde.
  • Es wurde eine Racebedingung behoben, bei der vom SDK versucht wurde, eine Netzwerknachricht zu senden, bevor die WebSocket-Verbindung hergestellt wurde. Dies war für TranslationRecognizer beim Hinzufügen von Teilnehmern reproduzierbar.
  • Es wurden Arbeitsspeicherverluste in der Schlüsselworterkennungs-Engine korrigiert.

Beispiele

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!

Speech SDK 1.11.0: Release von März 2020

Neue Funktionen

  • Linux: Unterstützung für Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 mit Anweisungen zum Konfigurieren des Systems für Speech SDK hinzugefügt.
  • Linux: Unterstützung für .NET Core C# unter Linux ARM32 und ARM64 hinzugefügt. Weitere Informationen finden Sie hier.
  • C#, C++: UtteranceId in ConversationTranscriptionResult hinzugefügt. Dies ist eine konsistente ID für alle Spracherkennungs-Zwischenergebnisse und -Endergebnisse. Ausführlichere Informationen für C# und C++.
  • Python: Unterstützung für Language ID wurde hinzugefügt. Siehe „speech_sample.py“ im GitHub-Repository
  • Windows: Unterstützung für komprimierte Audioeingabeformate auf der Windows-Plattform für alle Win32-Konsolenanwendungen hinzugefügt. Ausführlichere Informationen finden Sie hier.
  • JavaScript: Unterstützung von Sprachsynthese (Text-zu-Sprache) in NodeJS. Hiererhalten Sie weitere Informationen.
  • JavaScript: Fügen Sie neue APIs hinzu, um die Überprüfung aller gesendeten und empfangenen Nachrichten zu ermöglichen. Hiererhalten Sie weitere Informationen.

Behebung von Programmfehlern

  • C#, C++: Es wurde ein Problem behoben, sodass SendMessageAsync jetzt binäre Nachrichten als binären Typ sendet. Ausführlichere Informationen für C# und C++.
  • C#, C++: Es wurde das Problem behoben, dass die Verwendung des Connection MessageReceived-Ereignisses einen Absturz verursachen kann, wenn Recognizer vor dem Connection-Objekt verworfen wird. Ausführlichere Informationen für C# und C++.
  • Android: Die Audiopuffergröße des Mikrofons wurde von 800 ms auf 100 ms verringert, um die Wartezeit zu reduzieren.
  • Android: Es wurde ein Problem beim x86-Android-Emulator in Android Studio behoben.
  • JavaScript: Unterstützung für Regionen in China mit der fromSubscription-API hinzugefügt. Ausführlichere Informationen finden Sie hier.
  • JavaScript: Fügen Sie weitere Fehlerinformationen zu Verbindungsfehlern aus NodeJS hinzu.

Beispiele

  • Unity: Problem bei öffentlichem Absichtserkennungsbeispiel ist behoben, bei dem der LUIS-JSON-Import fehlgeschlagen ist. Ausführlichere Informationen finden Sie hier.
  • Python: Beispiel für Language ID hinzugefügt. Ausführlichere Informationen finden Sie hier.

Abgekürzte Tests aufgrund von COVID-19: Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Geräteüberprüfung nicht im gewohnten Umfang durchführen. Beispielsweise konnten die Mikrofoneingabe und Lautsprecherausgabe unter Linux, iOS und macOS nicht getestet werden. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Beschädigungen auf diesen Plattformen geführt haben, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns auf GitHub.
Vielen Dank für Ihre Unterstützung. Fragen können Sie wie immer auf GitHub oder in Stack Overflow stellen. Auf diesen Plattformen können Sie auch Feedback geben.
Bleiben Sie gesund!

Speech SDK 1.10.0: Release von Februar 2020

Neue Funktionen

  • Python-Pakete zur Unterstützung des neuen Python-Release 3.8 hinzugefügt
  • x64-Unterstützung für Red Hat Enterprise Linux (RHEL)/CentOS 8 (C++, C#, Java, Python)

    Hinweis

    Kunden müssen OpenSSL wie hier beschrieben konfigurieren.

  • Linux ARM32-Unterstützung für Debian und Ubuntu
  • Von „DialogServiceConnector“ wird jetzt der optionale Parameter „bot ID“ für „BotFrameworkConfig“ unterstützt. Dieser Parameter ermöglicht die Verwendung mehrerer Direct Line Speech-Bots mit einer einzelnen Speech-Ressource. Ohne Angabe des Parameters wird der (auf der Direct Line Speech-Kanalkonfigurationsseite festgelegte) Standardbot verwendet.
  • „DialogServiceConnector“ verfügt nun über die Eigenschaft „SpeechActivityTemplate“. Der Inhalt dieser JSON-Zeichenfolge wird von Direct Line Speech verwendet, um ein breites Spektrum an unterstützten Feldern in allen Aktivitäten vorab aufzufüllen, die einen Direct Line Speech-Bot erreichen. Hierzu zählen auch Aktivitäten, die als Reaktion auf Ereignisse automatisch generiert werden (beispielsweise Spracherkennung).
  • Von der Sprachsynthese wird nun der Abonnementschlüssel für die Authentifizierung verwendet. Dadurch verringert sich die Wartezeit für das erste Byte des ersten Syntheseergebnisses nach der Erstellung eines Synthesizers.
  • Verringerung der durchschnittlichen Wortfehlerrate um 18,6 Prozent dank aktualisierter Spracherkennungsmodelle für 19 Gebietsschemas (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Die neuen Modelle führen zu erheblichen Verbesserungen in verschiedenen Bereichen. Hierzu zählen unter anderem Diktat, Callcentertranskription und Videoindizierung.

Behebung von Programmfehlern

  • Fehler behoben, der dazu führte, dass von der Unterhaltungstranskription in Java-APIs nicht ordnungsgemäß gewartet wurde
  • Xamarin-bezogenes GitHub-Problem mit dem Android-x86-Emulator behoben
  • Fehlende (Get|Set)Property-Methoden zu „AudioConfig“ hinzugefügt
  • Fehler bei der Sprachsynthese behoben, der dazu führte, dass der Audiodatenstrom (audioDataStream) im Falle eines Verbindungsfehlers nicht beendet werden konnte
  • Die Verwendung eines Endpunkts ohne Region hatte USP-Fehler für die Konversationsübersetzung zur Folge.
  • Für die ID-Generierung in universellen Windows-Anwendungen wird nun ein Algorithmus für eine angemessen eindeutige GUID verwendet. Zuvor wurde ungewollt standardmäßig eine Stubimplementierung verwendet, die bei umfangreichen Interaktionen häufig zu Konflikten führte.

Beispiele

Weitere Änderungen

Speech SDK 1.9.0: Release 2020-January

Neue Funktionen

  • Mehrgerätekonversation: Verbinden Sie mehrere Geräte mit derselben sprach- oder textbasierten Konversation, und übersetzen Sie optional die zwischen ihnen gesendeten Nachrichten. Weitere Informationen finden Sie in diesem Artikel.
  • Unterstützung für die Schlüsselworterkennung wurde für das .aar-Paket für Android und für x86- und x64-Versionen hinzugefügt.
  • Objective-C: Methoden SendMessage und SetMessageProperty wurden dem Connection-Objekt hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
  • Die TTS-API in C++ unterstützt jetzt std::wstring als Texteingabe für die Synthese. Dadurch ist es nicht mehr erforderlich, den Typ wstring vor der Übergabe an das SDK in string zu konvertieren. Ausführlichere Informationen finden Sie hier.
  • C#: Sprach-ID und Ausgangssprachenkonfiguration sind jetzt verfügbar.
  • JavaScript: Dem Connection-Objekt wurde eine Funktion für die Weiterleitung benutzerdefinierter Nachrichten vom Speech-Dienst als Rückruf von receivedServiceMessage zu hinzugefügt.
  • JavaScript: Unterstützung für FromHost API wurde hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen. Die zugehörige Dokumentation finden Sie hier.
  • JavaScript: NODE_TLS_REJECT_UNAUTHORIZED wird nun dank eines Beitrags von orgads berücksichtigt. Ausführlichere Informationen finden Sie hier.

Wichtige Änderungen

  • OpenSSL wurde auf Version 1.1.1b aktualisiert und ist statisch mit der Kernbibliothek des Speech SDK für Linux verknüpft. Dies kann zu einer Unterbrechung führen, wenn OpenSSL für Ihren Posteingang nicht im Verzeichnis /usr/lib/ssl im System installiert wurde. In unserer Dokumentation zum Speech SDK finden Sie Möglichkeiten, wie Sie das Problem umgehen können.
  • Wir haben den in C# für WordLevelTimingResult.Offset zurückgegebenen Datentyp von int in long geändert, um den Zugriff auf WordLevelTimingResults zu ermöglichen, wenn Sprachdaten länger als 2 Minuten sind.
  • PushAudioInputStream und PullAudioInputStream senden nun WAV-Headerinformationen an den Speech-Dienst basierend auf dem AudioStreamFormat, das bei der Erstellung optional angegeben werden kann. Kunden müssen nun das unterstützte Audioeingabeformat verwenden. Alle anderen Formate führen zu weniger guten Erkennungsergebnissen oder anderen Problemen.

Behebung von Programmfehlern

  • Weitere Informationen finden Sie im obigen OpenSSL-Update unter „Wichtige Änderungen“. Wir haben sowohl einen zeitweiligen Absturz als auch ein Leistungsproblem (Sperrkonflikte bei hoher Auslastung) in Linux und Java korrigiert.
  • Java: Es wurden Verbesserungen am Objektabschluss in Szenarien mit hoher Parallelität vorgenommen.
  • Das NuGet-Paket wurde umstrukturiert. Wir haben die drei Kopien von Microsoft.CognitiveServices.Speech.core.dll und Microsoft.CognitiveServices.Speech.extension.kws.dll im Ordner „lib“ entfernt, sodass das NuGet-Paket nun kleiner ist und schneller heruntergeladen werden kann. Außerdem haben wir Header hinzugefügt, die zum Kompilieren einiger nativer C++-Apps benötigt werden.
  • Die korrigierten Schnellstartbeispiele finden Sie hier. Diese wurden ohne Anzeige der Ausnahme „Mikrofon wurde nicht gefunden“ unter Linux, macOS und Windows beendet.
  • Ein SDK-Absturz bei langen Spracherkennungsergebnissen für bestimmte Codepfade wie in diesem Beispiel wurde korrigiert.
  • Ein Fehler bei der SDK-Bereitstellung in Azure-Web-App-Umgebungen wurde behoben, um dieses Kundenproblem zu beseitigen.
  • Ein TTS-Fehler bei der Verwendung mehrerer <voice>- oder <audio>-Tags wurde behoben, um dieses Kundenproblems zu beseitigen.
  • Ein TTS 401-Fehler beim Wiederherstellen des SDK nach dem Anhalten wurde behoben.
  • JavaScript: Ein zirkulärer Import von Audiodaten wurde dank eines Beitrags von euirim korrigiert.
  • JavaScript: Unterstützung für das Festlegen von Diensteigenschaften wurde wie in 1.7 hinzugefügt.
  • JavaScript: Ein Problem wurde behoben, bei dem ein Verbindungsfehler zu kontinuierlichen erfolglosen WebSocket-Verbindungsversuchen führen konnte.

Beispiele

Weitere Änderungen

  • Die Größe der SDK-Kernbibliothek unter Android wurde optimiert.
  • Das SDK ab Version 1.9.0 unterstützt sowohl int- als auch string-Typen im Feld für die Stimmensignaturversion für die Unterhaltungstranskription.

Speech SDK 1.8.0: Release von November 2019

Neue Funktionen

  • FromHost()-API hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen.
  • Quellsprachenerkennung für die Spracherkennung hinzugefügt (in Java und C++)
  • SourceLanguageConfig-Objekt zur Angabe erwarteter Ausgangssprachen für die Spracherkennung hinzugefügt (in Java und C++)
  • KeywordRecognizer-Unterstützung unter Windows (UWP), Android und iOS über die NuGet- und Unity-Pakete hinzugefügt
  • Java-Remoteunterhaltungs-API für die Unterhaltungstranskription in asynchronen Batches hinzugefügt

Wichtige Änderungen

  • Die Funktionen für die Unterhaltungstranskription wurden unter den Namespace Microsoft.CognitiveServices.Speech.Transcription verschoben.
  • Ein Teil der Unterhaltungstranskriptionsmethoden wurde in die neue Conversation-Klasse verschoben.
  • Die Unterstützung für 32-Bit-iOS (ARMv7 und x86) wurde eingestellt.

Behebung von Programmfehlern

  • Ein Absturz wurde behoben, der auftrat, wenn die lokale KeywordRecognizer-Instanz ohne gültigen Abonnementschlüssel für den Speech-Dienst verwendet wurde.

Beispiele

  • Xamarin-Beispiel für KeywordRecognizer
  • Unity-Beispiel für KeywordRecognizer
  • C++- und Java-Beispiele für die automatische Erkennung der Ausgangssprache

Speech SDK 1.7.0: Release von September 2019

Neue Funktionen

  • Unterstützung der Betaversion für Xamarin unter der universellen Windows-Plattform (UWP), Android und iOS wurde hinzugefügt
  • iOS-Unterstützung für Unity wurde hinzugefügt
  • Unterstützung von Compressed-Eingaben für ALaw, Mulaw, FLAC unter Android, iOS und Linux hinzugefügt
  • SendMessageAsync in der Klasse Connection zum Senden einer Nachricht an einen Dienst hinzugefügt
  • SetMessageProperty in der Klasse Connection zum Festlegen der Eigenschaft einer Nachricht hinzugefügt
  • Die Sprachsynthese hat Bindungen für Java (JRE und Android), Python, Swift und Objective-C hinzugefügt.
  • TTS hat die Unterstützung der Wiedergabe für macOS, iOS und Android hinzugefügt
  • Es wurden Informationen zur „Wortgrenze“ für TTS hinzugefügt

Behebung von Programmfehlern

  • IL2CPP-Buildproblem in Unity 2019 für Android wurde behoben
  • Es wurde ein Problem behoben, bei dem falsch formatierte Header in der Eingabe von WAV-Dateien falsch verarbeitet wurden
  • Es wurde ein Problem behoben, bei dem UUIDs in einigen Verbindungseigenschaften nicht eindeutig waren
  • Es wurden einige Warnungen bezüglich Spezifizierer für die NULL-Zulässigkeit in den Swift-Bindungen behoben (möglicherweise sind kleine Codeänderungen erforderlich)
  • Es wurde ein Fehler behoben, der dazu führte, dass WebSocket-Verbindungen unter Netzwerklast nicht ordnungsgemäß geschlossen wurden
  • Problem unter Android behoben, das gelegentlich dazu führt, dass DialogServiceConnector doppelte Eindruck-IDs verwendet
  • Es wurden Verbesserungen an der Stabilität von Verbindungen über Interaktionen mit Mehrfachdurchläufen und an der Berichterstellung bei Fehlern vorgenommen (über Ereignisse vom Typ Canceled), wenn sie mit DialogServiceConnector auftreten.
  • DialogServiceConnector-Sitzungsstarts stellen jetzt ordnungsgemäß Ereignisse bereit, einschließlich des Aufrufs von ListenOnceAsync(), während StartKeywordRecognitionAsync() aktiv ist.
  • Es wurde ein Absturzproblem behoben, das mit dem Empfangen von DialogServiceConnector-Aktivitäten verbunden war.

Beispiele

  • Schnellstart für Xamarin
  • Aktualisierter CPP-Schnellstart mit Linux ARM64-Informationen
  • Aktualisierter Unity-Schnellstart mit iOS-Informationen

Speech SDK 1.6.0: Release von Juni 2019

Beispiele

  • Schnellstartbeispiele für Sprachsynthese auf UWP und Unity
  • Schnellstartbeispiel für Swift unter iOS
  • Unity-Beispiele für Sprach- und Absichtserkennung sowie Übersetzung
  • Schnellstartbeispiele für DialogServiceConnector aktualisiert

Verbesserungen/Änderungen

  • Dialog „Namespace“:
    • SpeechBotConnector wurde in DialogServiceConnector umbenannt.
    • BotConfig wurde in DialogServiceConfig umbenannt.
    • BotConfig::FromChannelSecret() wurde DialogServiceConfig::FromBotSecret() neu zugeordnet.
    • Alle vorhandenen Direct Line Speech-Clients werden nach der Umbenennung weiterhin unterstützt.
  • Aktualisierung des TTS-REST-Adapter zur Unterstützung von Proxys, dauerhafte Verbindung
  • Verbesserung von Fehlermeldungen, wenn eine ungültige Region übergeben wird.
  • Swift/Objective-C:
    • Verbesserte Fehlerberichterstellung: Methoden, die zu einem Fehler führen können, sind jetzt in zwei Versionen vorhanden: Eine, die ein NSError-Objekt für die Fehlerbehandlung bereitstellt, und eine, das eine Ausnahme auslöst. Das erste wird für Swift verfügbar gemacht. Diese Änderung erfordert Anpassungen an vorhandenem Swift-Code.
    • Verbesserte Behandlung von Ereignissen

Behebung von Programmfehlern

  • Korrektur für TTS: Hierbei führte SpeakTextAsync die Rückgabe aus, ohne zu warten, bis das Audiorendering abgeschlossen war.
  • Korrektur für das Marshalling von Zeichenfolgen in C#, um vollständige Sprachunterstützung zu ermöglichen.
  • Korrektur für ein .NET Core-App-Problem beim Laden der Core-Bibliothek mit dem Zielframework net461 in Beispielen.
  • Korrektur für gelegentlich Probleme beim Bereitstellen nativer Bibliotheken im Ausgabeordner in Beispielen.
  • Korrektur für das zuverlässige Schließen von WebSockets.
  • Korrektur für mögliche Abstürze beim Öffnen einer Verbindung bei hoher Auslastung unter Linux
  • Korrektur für fehlende Metadaten im Frameworkbündel für macOS.
  • Korrektur für Probleme mit pip install --user unter Windows.

Speech SDK 1.5.1

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Behebung von Programmfehlern

  • Fehlerbehebung bei FromSubscription bei Verwendung mit Unterhaltungstranskription.
  • Fehlerbehebung bei der Schlüsselworterkennung für Sprach-Assistenten.

Speech SDK 1.5.0: Release von Mai 2019

Neue Funktionen

  • Die Schlüsselworterkennung (Keyword Spotting Functionality, KWS) ist für Windows und Linux verfügbar. Die KWS-Funktionalität kann u. U. mit jedem Mikrofontyp verwendet werden, offiziell wird KWS derzeit jedoch nur für die Mikrofonarrays in der Azure Kinect DK-Hardware oder im Speech Devices SDK unterstützt.
  • Begriffshinweisfunktionalität ist über das SDK verfügbar. Weitere Informationen finden Sie hier.
  • Unterhaltungstranskriptionsfunktionalität ist über das SDK verfügbar.
  • Unterstützung für Sprach-Assistenten über den Direct Line Speech-Kanal wurde hinzugefügt.

Beispiele

  • Beispiele für neue Funktionen oder neue Dienste, die vom SDK unterstützt werden, wurden hinzugefügt.

Verbesserungen/Änderungen

  • Verschiedene Erkennungseigenschaften wurden hinzugefügt, um das Dienstverhalten oder Dienstergebnisse anzupassen (z. B. Maskieren von Obszönitäten).
  • Sie können die Erkennung jetzt über die Standardkonfigurationseigenschaften konfigurieren, auch wenn Sie den Erkenner FromEndpoint erstellt haben.
  • Objective-C: Die Eigenschaft OutputFormat wurde zu SPXSpeechConfiguration hinzugefügt.
  • Das SDK unterstützt jetzt Debian 9 als Linux-Distribution.

Behebung von Programmfehlern

  • Ein Problem wurde behoben, bei dem die Sprecherressource in der Sprachsynthese zu früh zerstört wurde.

Speech SDK 1.4.2

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Speech SDK 1.4.1

Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:

  • Verhindern Sie das Laden von „https-proxy-agent“ durch Webpack.

Speech SDK 1.4.0: Release von April 2019

Neue Funktionen

  • Das SDK unterstützt jetzt den Sprachsynthese-Dienst als Betaversion. Dies wird unter Windows- und Linux-Desktops für C++ und C# unterstützt. Weitere Informationen finden Sie in der Übersicht über die Sprachsynthese.
  • Das SDK unterstützt jetzt MP3- und Opus/OGG-Audiodateien als Streameingabedateien. Dieses Feature steht nur unter Linux mit C++ und C# zur Verfügung und befindet sich derzeit in der Betaversion (weitere Details finden Sie hier).
  • Das Speech SDK für Java, .NET Core, C++ und Objective-C unterstützt nun auch macOS. Die Objective-C-Unterstützung für macOS befindet sich derzeit in der Betaphase.
  • iOS: Das Speech SDK für iOS (Objective-C) wird jetzt auch als ein CocoaPod veröffentlicht.
  • JavaScript: Unterstützung von nicht standardisierten Mikrofonen als Eingabegeräte.
  • JavaScript: Proxyunterstützung für Node.js.

Beispiele

  • Beispiele für die Verwendung des Speech SDK mit C++ und Objective-C unter macOS wurden hinzugefügt.
  • Beispiele zur Veranschaulichung der Verwendung des Sprachsynthese-Diensts wurden hinzugefügt.

Verbesserungen/Änderungen

  • Python: Zusätzliche Eigenschaften der Erkennungsergebnisse werden jetzt über die properties-Eigenschaft verfügbar gemacht.
  • Zur weiteren Unterstützung beim Entwickeln und Debuggen können Sie die Informationen aus SDK-Protokollierung und Diagnose in eine Protokolldatei umleiten (weitere Details finden Sie hier).
  • JavaScript: Verbesserte Prozessleistung bei Audiodaten.

Behebung von Programmfehlern

  • Mac/iOS: Ein Fehler, der zu einer langen Wartezeit geführt hat, wenn keine Verbindung mit Speech Services hergestellt werden konnte, wurde behoben.
  • Python: verbesserte Fehlerbehandlung für Argumente in Python-Rückrufen.
  • JavaScript: Ein Fehler bei Statusmeldungen nach dem Ende der Spracheingabe mit RequestSession wurde behoben.

Sprach-SDK 1.3.1: Aktualisierung von Februar 2019

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Fehlerbehebung

  • Korrigiert einen Speicherverlust bei der Verwendung von Mikrofoneingabe. Streambasierte oder Dateieingaben sind nicht betroffen.

Speech SDK 1.3.0: Version von Februar 2019

Neue Funktionen

  • Das Speech SDK unterstützt die Auswahl des Eingangsmikrofons über die AudioConfig-Klasse. Dadurch können Sie Audiodaten über ein anderes als das Standardmikrofon an den Spracherkennungsdienst streamen. Weitere Informationen finden Sie in der Dokumentation, in der die Auswahl eines Audioeingabegeräts beschrieben wird. Für JavaScript ist diese Funktion noch nicht verfügbar.
  • Das Speech SDK unterstützt jetzt Unity in einer Betaversion. Senden Sie uns Feedback über den Abschnitt „Issue“ im GitHub-Beispielrepository. Dieses Release unterstützt Unity unter Windows x86 und x64 (Desktopanwendungen oder Anwendungen der universellen Windows-Plattform) und unter Android (ARM32/64, x86). Weitere Informationen finden Sie in unserem Unity-Schnellstart.
  • Die Datei Microsoft.CognitiveServices.Speech.csharp.bindings.dll (im Lieferumfang von früheren Releases enthalten) ist nicht mehr erforderlich. Die Funktion ist jetzt in das Core-SDK integriert.

Beispiele

Die folgenden neuen Inhalte stehen in unserem Beispielrepository zur Verfügung:

  • Weitere Beispiele für AudioConfig.FromMicrophoneInput
  • Weitere Python-Beispiele für Absichtserkennung und Übersetzung.
  • Weitere Beispiele für die Verwendung des Objekts Connection in iOS
  • Weitere Java-Beispiele für die Übersetzung mit Audioausgabe.
  • Neues Beispiel für die Verwendung der REST-API zur Batchtranskription.

Verbesserungen/Änderungen

  • Python
    • Verbesserte Parameterüberprüfung und Fehlermeldungen in SpeechConfig
    • Unterstützung für das Objekt Connection hinzugefügt
    • Unterstützung für 32-Bit-Python (x86) unter Windows.
    • Das Speech SDK für Python befindet sich nicht mehr in der Betaversion.
  • iOS
    • Das SDK wird jetzt für das iOS SDK, Version 12.1, erstellt.
    • Das SDK unterstützt jetzt die iOS-Versionen 9.2 und höher.
    • Verbesserte Referenzdokumentation und Korrektur mehrerer Eigenschaftsnamen.
  • JavaScript
    • Unterstützung für das Objekt Connection hinzugefügt
    • Hinzugefügte Typdefinitionsdateien für JavaScript-Pakete
    • Anfangsunterstützung und Implementierung für Phrasenhinweise.
    • Rückgabe der Eigenschaftensammlung mit Dienst-JSON für die Erkennung.
  • Windows-DLLs enthalten jetzt eine Versionsressource.
  • Wenn Sie eine FromEndpoint-Erkennung erstellen, können Sie der Endpunkt-URL direkt Parameter hinzufügen. Mithilfe von FromEndpoint können Sie die Erkennung nicht über die Standardkonfigurationseigenschaften konfigurieren.

Behebung von Programmfehlern

  • Leere Angaben für Proxybenutzername und Proxykennwort wurden nicht ordnungsgemäß behandelt. Wenn Sie in diesem Release den Proxybenutzernamen und das Proxykennwort auf eine leere Zeichenfolge festlegen, werden diese bei der Herstellung einer Verbindung mit dem Proxy nicht übermittelt.
  • Vom SDK erstellte SessionId-Angaben waren für einige Sprachen/Umgebungen nicht immer wirklich zufällig vergeben. Es wurde eine Initialisierung des Zufallsgenerators hinzugefügt, um dieses Problem zu beheben.
  • Verbesserte Verarbeitung des Autorisierungstokens. Wenn Sie ein Autorisierungstoken verwenden möchten, geben Sie es in SpeechConfig an, und lassen Sie den Abonnementschlüssel leer. Erstellen Sie die Erkennung dann wie gewohnt.
  • In einigen Fällen wurde das Connection-Objekt nicht ordnungsgemäß freigegeben. Dieses Problem wurde behoben.
  • Das JavaScript-Beispiel wurde korrigiert, um die Audioausgabe für die Übersetzungssynthese auch in Safari zu unterstützen.

Speech SDK 1.2.1

Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:

  • Ende des Datenstroms wird bei turn.end und nicht bei speech.end ausgelöst.
  • In Audiopump wurde der Fehler behoben, dass der nächste Sendevorgang nicht geplant wurde, wenn beim aktuellen Sendevorgang ein Fehler auftrat.
  • Die kontinuierliche Erkennung mit Authentifizierungstoken wurde korrigiert.
  • Programmfehlerbehebung für verschiedene Erkennungen/Endpunkte.
  • Verbesserungen bei der Dokumentation.

Speech SDK 1.2.0: Release von Dezember 2018

Neue Funktionen

  • Python
    • Die Betaversion der Python-Unterstützung (ab 3.5) ist mit diesem Release verfügbar. Weitere Informationen finden Sie hier] (../../quickstart-python.md).
  • JavaScript
    • Das Speech SDK für JavaScript wird jetzt als Open-Source-Code bereitgestellt. Der Quellcode steht auf GitHubzur Verfügung.
    • Node.js wird jetzt unterstützt. Weitere Informationen finden Sie hier.
    • Die Längenbeschränkung für Audiositzungen wurde entfernt. Die Verbindungswiederherstellung erfolgt automatisch im Hintergrund.
  • Connection-Objekt
    • Über Recognizer kann auf ein Objekt vom Typ Connection zugegriffen werden. Mit diesem Objekt können Sie die Dienstverbindung explizit initiieren und Verbindungsherstellungs- und Verbindungstrennungsereignisse abonnieren. (Für JavaScript und Python ist diese Funktion noch nicht verfügbar.)
  • Unterstützung von Ubuntu 18.04
  • Android
    • ProGuard-Unterstützung während der APK-Generierung aktiviert

Verbesserungen

  • Verbesserungen bei der internen Threadverwendung (weniger Threads, Sperren, Mutexe)
  • Verbesserte Fehlerberichterstellung/-informationen. In einigen Fällen wurden Fehlermeldungen nicht ordnungsgemäß weitergegeben.
  • Entwicklungsabhängigkeiten in JavaScript wurden für die Verwendung aktueller Module aktualisiert.

Behebung von Programmfehlern

  • Arbeitsspeicherverluste aufgrund eines Typenkonflikts in RecognizeAsync behoben
  • In einigen Fällen sind Ausnahmen verloren gegangen.
  • Behebung des Arbeitsspeicherverlusts in Übersetzungsereignisargumenten
  • Sperrproblem bei der Verbindungswiederherstellung in langen Sitzungen behoben
  • Problem behoben, dass dazu führen konnte, dass das Endergebnis für fehlerhafte Übersetzungen verpasst wird.
  • C#: Wenn im Hauptthread nicht auf einen Vorgang vom Typ async gewartet wurde, konnte es vorkommen, dass die Erkennung vor Abschluss der asynchronen Aufgabe entfernt wurde.
  • Java: Problem behoben, das zum Absturz des virtuellen Java-Computers geführt hat
  • Objective-C: Enumerationszuordnung korrigiert. Anstelle von RecognizingIntent wurde „RecognizedIntent“ zurückgegeben.
  • JavaScript: Standardausgabeformat in SpeechConfig auf „einfach“ festgelegt
  • JavaScript: Beseitigung der Inkonsistenz zwischen Eigenschaften des Konfigurationsobjekts in JavaScript und anderen Sprachen

Beispiele

  • Mehrere Beispiele aktualisiert und korrigiert (z.B. die Ausgabestimmen für die Übersetzung).
  • Node.js-Beispiele zum Beispielrepository hinzugefügt

Speech SDK 1.1.0

Neue Funktionen

  • Unterstützung für Android x86/x64.
  • Proxyunterstützung: Im SpeechConfig-Objekt können Sie jetzt eine Funktion aufrufen, um die Proxyinformationen (Hostname, Port, Benutzername und Kennwort) festzulegen. Dieses Feature ist in iOS noch nicht verfügbar.
  • Verbesserte Fehlercodes und Meldungen. Wenn eine Erkennung einen Fehler zurückgab, wurde dadurch bereits Reason (im abgebrochenen Ereignis) oder CancellationDetails (im Erkennungsergebnis) auf Error festgelegt. Das abgebrochene Ereignis enthält jetzt zwei zusätzliche Member: ErrorCode und ErrorDetails. Wenn der Server zusätzliche Fehlerinformationen mit dem Fehler zurückgibt, sind diese jetzt in den neuen Membern verfügbar.

Verbesserungen

  • In der Konfiguration der Erkennung wurde eine zusätzliche Überprüfung hinzugefügt, und es wurde eine zusätzliche Fehlermeldung hinzugefügt.
  • Die Verarbeitung von langen Pausen mitten in einer Audiodatei wurde verbessert.
  • NuGet-Paket: Für .NET Framework-Projekte wird die Erstellung mit AnyCPU-Konfiguration verhindert.

Behebung von Programmfehlern

  • In Erkennungen wurden verschiedene Ausnahmen behoben. Darüber hinaus werden Ausnahmen abgefangen und in Ereignisse vom Typ Canceled konvertiert.
  • Ein Arbeitsspeicherverlust in der Eigenschaftenverwaltung wurde behoben.
  • Es wurde ein Fehler behoben, bei dem eine Audioeingabedatei zum Absturz der Erkennung führen konnte.
  • Es wurde ein Fehler behoben, bei dem nach dem Ereignis zum Beenden einer Sitzung weiter Ereignisse empfangen werden konnten.
  • Einige Racebedingungen im Threading wurden korrigiert.
  • Ein iOS-Kompatibilitätsproblem wurde behoben, das zu einem Absturz führen konnte.
  • Verbesserungen bei der Stabilität für die Android-Mikrofonunterstützung.
  • Es wurde ein Fehler behoben, bei dem eine Erkennung in JavaScript die Erkennungssprache ignorierte.
  • Es wurde ein Fehler behoben, der (in einigen Fällen) das Festlegen von EndpointId in JavaScript verhinderte.
  • Die Parameterreihenfolge in AddIntent in JavaScript wurde geändert, und es wurde eine fehlende JavaScript-Signatur für AddIntent hinzugefügt.

Beispiele

  • Dem Beispielrepository wurden C++- und C#-Beispiele für die Verwendung von Pull- und Pushstreams hinzugefügt.

Speech SDK 1.0.1

Verbesserte Zuverlässigkeit und Fehlerbehebungen:

  • Ein potenziell schwerwiegender Fehler aufgrund einer Racebedingung bei der Löscherkennung wurde behoben.
  • Ein potenziell schwerwiegender Fehler bei nicht festgelegten Eigenschaften wurde behoben.
  • Zusätzliche Fehler- und Parameterüberprüfungen wurden hinzugefügt.
  • Objective-C: Ein potenziell schwerwiegender Fehler durch Namensüberschreibungen in NSString wurde behoben.
  • Objective-C: Sichtbarkeit der API wurde angepasst
  • JavaScript: Korrektur in Bezug auf Ereignisse und deren Nutzlasten.
  • Verbesserungen bei der Dokumentation.

Im Beispielrepository wurde ein neues Beispiel für JavaScript hinzugefügt.

Azure KI Speech SDK 1.0.0: Release von September 2018

Neue Funktionen

Wichtige Änderungen

  • Mit diesem Release werden einige Breaking Changes eingeführt. Ausführliche Informationen finden Sie auf dieser Seite.

Azure KI Speech SDK 0.6.0: Release von August 2018

Neue Funktionen

  • Mit dem Speech SDK erstellte UWP-Apps erfüllen nun die Anforderungen des Windows App Certification Kit (WACK). Sehen Sie sich den UWP-Schnellstart an.
  • Unterstützung für .NET Standard 2.0 unter Linux (Ubuntu 16.04 x 64)
  • Experimentell: Unterstützung für Java 8 unter Windows (64 Bit) und Linux (Ubuntu 16.04 x64). Sehen Sie sich den Schnellstart zur Java Runtime Environment an.

Funktionale Änderung

  • Es werden weitere Detailinformationen zu Verbindungsfehlern verfügbar gemacht.

Wichtige Änderungen

  • In Java (Android) erfordert die SpeechFactory.configureNativePlatformBindingWithDefaultCertificate-Funktion keinen Path-Parameter mehr. Der Pfad wird nun auf allen unterstützten Plattformen automatisch erkannt.
  • Der get-Accessor der EndpointUrl-Eigenschaft in Java und C# wurde entfernt.

Behebung von Programmfehlern

  • In Java werden die Ergebnisse der Audiosynthese in der Übersetzungserkennung jetzt implementiert.
  • Ein Problem wurde behoben, das inaktive Threads und eine erhöhte Anzahl von offenen und nicht verwendeten Sockets verursachen konnte.
  • Ein Problem wurde behoben, das dazu führen konnte, dass lange ausgeführte Erkennungen während der Übertragung beendet wurden.
  • Eine Racebedingung beim Herunterfahren der Erkennung wurde behoben.

Azure KI Speech SDK 0.5.0: Release von Juli 2018

Neue Funktionen

  • Unterstützung für Android-Plattform (API 23: Android 6.0 Marshmallow oder höher). Sehen Sie sich den Android-Schnellstart an.
  • Unterstützung für .NET Standard 2.0 unter Windows. Sehen Sie sich den .NET Core-Schnellstart an.
  • Experimentell: Unterstützung für UWP unter Windows (Version 1709 oder höher).
    • Sehen Sie sich den UWP-Schnellstart an.
    • Beachten Sie, dass mit dem Speech SDK erstellte UWP-Apps die Anforderungen des Windows App Certification Kit (WACK) noch nicht erfüllen.
  • Unterstützung einer lang andauernden Erkennung mit automatischer erneuter Verbindungsherstellung.

Funktionale Änderungen

  • StartContinuousRecognitionAsync() unterstützt eine lang andauernde Erkennung.
  • Das Erkennungsergebnis enthält mehr Felder. Versatz vom Audiobeginn und Dauer (beides in Takten) des erkannten Texts und weitere Werte, die den Erkennungsstatus darstellen, z.B. InitialSilenceTimeout und InitialBabbleTimeout.
  • Unterstützung für AuthorizationToken zum Erstellen von Factoryinstanzen.

Wichtige Änderungen

  • Erkennungsereignisse: Der NoMatch-Ereignistyp wurde mit dem Error-Ereignis zusammengeführt.
  • SpeechOutputFormat in C# wurde in OutputFormat umbenannt, um mit C++ konsistent zu bleiben.
  • Der Rückgabetyp einiger Methoden der AudioInputStream-Schnittstelle wurde geringfügig geändert:
    • In Java gibt die read-Methode jetzt long anstelle von int zurück.
    • In C# gibt die Read-Methode jetzt uint anstelle von int zurück.
    • In C++ geben die Read- und die GetFormat-Methoden jetzt size_t anstelle von int zurück.
  • C++: Instanzen von Audioeingabestreams können jetzt nur als shared_ptr übergeben werden.

Behebung von Programmfehlern

  • Korrektur falscher Rückgabewerte im Ergebnis, wenn bei RecognizeAsync() ein Timeout auftritt.
  • Die Abhängigkeit von Media Foundation-Bibliotheken für Windows wurde entfernt. Das SDK verwendet jetzt die Core Audio-APIs.
  • Korrektur der Dokumentation: Eine Seite Regionen wurde hinzugefügt, um die unterstützten Regionen zu beschreiben.

Bekanntes Problem

  • Das Speech SDK für Android meldet die Ergebnisse der Sprachsynthese für Übersetzungen nicht. Dieses Problem wird im nächsten Release behoben.

Azure KI Speech SDK 0.4.0: Release von Juni 2018

Funktionale Änderungen

  • AudioInputStream

    Eine Erkennung kann jetzt einen Stream als Audioquelle nutzen. Weitere Informationen finden Sie in der zugehörigen Schrittanleitung.

  • Detailliertes Ausgabeformat

    Beim Erstellen von SpeechRecognizer können Sie das Ausgabeformat Detailed oder Simple anfordern. DetailedSpeechRecognitionResult enthält eine Zuverlässigkeitsbewertung, erkannten Text, eine lexikalische Rohform, eine normalisierte Form und eine normalisierte Form mit maskierten anstößigen Ausdrücken.

Unterbrechende Änderung

  • Änderung von SpeechRecognitionResult.RecognizedText in SpeechRecognitionResult.Text in C#.

Behebung von Programmfehlern

  • Ein mögliches Rückrufproblem auf USP-Ebene beim Herunterfahren wurde behoben.
  • Wenn eine Audioeingabedatei von einer Erkennung genutzt wurde, wurde das Dateihandle länger als erforderlich gespeichert.
  • Mehrere Deadlocks zwischen dem Nachrichtensystem und der Erkennung wurden entfernt.
  • Ein NoMatch-Ergebnis wird ausgelöst, wenn bei der Antwort vom Dienst ein Timeout auftritt.
  • Die Media Foundation-Bibliotheken unter Windows werden verzögert geladen. Diese Bibliothek ist nur für die Mikrofoneingabe erforderlich.
  • Die Uploadgeschwindigkeit für Audiodaten ist auf das Doppelte der ursprünglichen Audiogeschwindigkeit beschränkt.
  • C# .NET-Assemblys haben unter Windows nun einen starken Namen.
  • Korrektur der Dokumentation: Region ist eine erforderliche Information zum Erstellen einer Erkennung.

Weitere Beispiele wurden hinzugefügt und werden regelmäßig aktualisiert. Die Sammlung der aktuellsten Beispiele finden Sie im GitHub-Repository mit Beispielen für das Speech SDK.

Azure KI Speech SDK 0.2.12733: Release von Mai 2018

Dieses Release ist das erste öffentliche Vorschaurelease des Azure KI Speech SDK.