Teilen über


Erfassen der Benutzereingabe

Mit der Veröffentlichung der Aktion „Anrufautomatisierungserkennung“ in Azure Communication Services können Entwickler jetzt ihre IVR- oder Contact Center-Anwendungen verbessern, um Benutzereingaben zu erkennen. Eines der häufigsten Erkennungsszenarien ist das Abspielen einer Nachricht für den Benutzer, die ihn auffordert, eine Antwort zu geben, die dann von der Anwendung erkannt wird; sobald sie erkannt wurde, führt die Anwendung eine entsprechende Aktion durch. Eingaben von Anrufern können auf verschiedene Arten empfangen werden, z.B. DTMF (Benutzereingaben über die Ziffern auf dem Anrufgerät), Sprache oder eine Kombination aus DTMF und Sprache.

Spracherkennung mit Sprache-in-Text

Die Integration der Azure-Kommunikationsdienste in die Azure KI Services ermöglicht es Ihnen, mit der Erkennenaktion Audiodaten in Echtzeit zu analysieren, um gesprochene Worte in Text umzuwandeln. Ohne weitere Konfiguration verwendet Microsoft ein universelles Sprachmodell als Basismodell, das mit Microsoft-eigenen Daten trainiert wird und häufig verwendete gesprochene Sprache widerspiegelt. Dieses Modell wird mit Dialekten und Phonemen vortrainiert, die verschiedene gängige Gebiete repräsentieren. Weitere Informationen zu unterstützten Sprachen finden Sie unter Sprach- und Stimmunterstützung für den Speech-Dienst.

DTMF

Die DTMF-Erkennung (Dual-Tone Multifrequency) ist der Vorgang des Verstehens von Tönen/Sounds, die von einem Telefon generiert werden, wenn eine Zifferntaste gedrückt wird. Die Ausrüstung am Empfangsende, die nach dem bestimmten Ton lauscht, wandelt ihn dann in Befehle um. Diese Befehle signalisieren im Allgemeinen die Benutzerabsicht beim Navigieren in einem IVR-Szenario. In einigen Fällen kann sie auch verwendet werden, um wichtige Informationen zu erfassen, die der Benutzer über die Zifferntastatur seines Telefons angeben muss.

DTMF-Ereignisse und ihre zugehörigen Töne

Ereignis Ton
0 Zero
1 Eine
2 Zwei
3 drei
4 4 (vier)
5 5 (fünf)
6 Sechs
7 Sieben
8 Acht
9 Neun
A A
B B
C C
D D
* Sternchen
# Pfund

Gängige Anwendungsfälle

Die Erkennungsaktion kann aus vielen Gründen verwendet werden. Hier finden Sie einige Beispiele dafür, wie Entwickler die Erkennungsaktion in ihrer Anwendung verwenden können.

Verbessern der User Journey mit Self-Service-Aufforderungen

  • Benutzer können den Anruf steuern: Indem Sie die Eingabeerkennung aktivieren, können Sie dem Anrufer die Navigation in Ihrem IVR-Menü ermöglichen und Informationen bereitstellen, die zum Lösen seiner Anfrage verwendet werden können.
  • Sammeln von Benutzerinformationen: Wenn Sie die Eingabeerkennung aktivieren, kann Ihre Anwendung Eingaben von den Anrufern sammeln. Dies können Informationen wie Kontonummern, Kreditkarteninformationen usw. sein.
  • Transkribieren der Anruferantwort – Mit der Spracherkennung können Sie Benutzereingaben erfassen, die Audiodaten in Text umwandeln und analysieren, um bestimmte Geschäftsvorgänge auszuführen.

Unterbrechen von Audioaufforderungen

Benutzer*innen können ein IVR-Menü verlassen und mit einem menschlichen Agent sprechen: Mit einer DTMF-Unterbrechung können Benutzer*innen das IVR-Menü verlassen und mit einem menschlichen Agent chatten.

Beispielarchitektur zum Erfassen von Benutzereingaben in einem Anruf mit Spracherkennung

Diagramm mit Beispielarchitektur für die Aktion „KI-Erkennung“.

Beispielarchitektur zum Erfassen von Benutzereingaben in einem Anruf

Erkennungsaktion

Bekannte Einschränkung

  • In-Band-DTMF wird nicht unterstützt, verwenden Sie stattdessen RFC 2833 DTMF.
  • In Textprompts für die Sprachsynthese werden maximal 400 Zeichen unterstützen. Wenn Ihr Prompt länger ist, wird die Verwendung von SSML für Sprachsynthese-Wiedergabeaktionen empfohlen.
  • Sie können in Szenarien, in denen Sie Ihre Kontingentgrenze für den Speech-Dienst überschreiten, eine Erhöhung dieses Grenzwerts anfordern, indem Sie die hier beschriebenen Schritte ausführen.

Nächste Schritte