Tal till talchatt i Azure OpenAI

Artikel
02/13/2024

Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |

I den här instruktionsguiden kan du använda Azure AI Speech för att kommunicera med Azure OpenAI Service. Texten som identifieras av Speech-tjänsten skickas till Azure OpenAI. Speech-tjänsten syntetiserar tal från textsvaret från Azure OpenAI.

Tala i mikrofonen för att starta en konversation med Azure OpenAI.

Speech-tjänsten känner igen ditt tal och konverterar det till text (tal till text).
Din begäran som text skickas till Azure OpenAI.
Taltjänstens text till tal-funktion syntetiserar svaret från Azure OpenAI till standardhögtalaren.

Även om upplevelsen av det här exemplet är ett utbyte fram och tillbaka, kommer Azure OpenAI inte ihåg kontexten för konversationen.

Viktigt!

Om du vill slutföra stegen i den här guiden måste du ha åtkomst till Microsoft Azure OpenAI Service i din Azure-prenumeration. För närvarande måste man ansöka om att få åtkomst till den här tjänsten. Ansöka om åtkomst till Azure OpenAI genom att fylla i formuläret på https://aka.ms/oai/access.

Förutsättningar

Azure-prenumeration – Skapa en kostnadsfritt
Skapa en Microsoft Azure OpenAI Service-resurs i Azure-portalen.
Distribuera en modell i din Azure OpenAI-resurs. Mer information om modelldistribution finns i distributionsguiden för Azure OpenAI-resurser.
Hämta Azure OpenAI-resursnyckeln och slutpunkten. När azure OpenAI-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar. Mer information om Azure AI-tjänstresurser finns i Hämta nycklarna för din resurs.
Skapa en Speech-resurs i Azure-portalen.
Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar. Mer information om Azure AI-tjänstresurser finns i Hämta nycklarna för din resurs.

Konfigurera miljön

Speech SDK är tillgängligt som ett NuGet-paket och implementerar .NET Standard 2.0. Du installerar Speech SDK senare i den här guiden, men kontrollera först SDK-installationsguiden om det finns fler krav.

Ange miljövariabler

Det här exemplet kräver miljövariabler med namnet OPEN_AI_KEY, OPEN_AI_ENDPOINT, OPEN_AI_DEPLOYMENT_NAME, SPEECH_KEYoch SPEECH_REGION.

Ditt program måste autentiseras för att få åtkomst till Azure AI-tjänstresurser. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter. När du till exempel har fått en nyckel för din Speech-resurs skriver du den till en ny miljövariabel på den lokala dator som kör programmet.

Dricks

Inkludera inte nyckeln direkt i koden och publicera den aldrig offentligt. Mer autentiseringsalternativ som Azure Key Vault finns i Säkerhet för Azure AI-tjänster.

Om du vill ange miljövariablerna öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

Om du vill ange OPEN_AI_KEY miljövariabeln ersätter du your-openai-key med en av nycklarna för resursen.
Om du vill ange OPEN_AI_ENDPOINT miljövariabeln ersätter du your-openai-endpoint med en av regionerna för resursen.
Om du vill ange OPEN_AI_DEPLOYMENT_NAME miljövariabeln ersätter du your-openai-deployment-name med en av regionerna för resursen.
Om du vill ange SPEECH_KEY miljövariabeln ersätter du your-speech-key med en av nycklarna för resursen.
Om du vill ange SPEECH_REGION miljövariabeln ersätter du your-speech-region med en av regionerna för resursen.

setx OPEN_AI_KEY your-openai-key
setx OPEN_AI_ENDPOINT your-openai-endpoint
setx OPEN_AI_DEPLOYMENT_NAME your-openai-deployment-name
setx SPEECH_KEY your-speech-key
setx SPEECH_REGION your-speech-region

Kommentar

Om du bara behöver komma åt miljövariabeln i den aktuella konsolen som körs anger du miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som körs och som behöver läsa miljövariabeln, inklusive konsolfönstret. Om Visual Studio till exempel är din redigerare startar du om Visual Studio innan du kör exemplet.

export OPEN_AI_KEY=your-openai-key
export OPEN_AI_ENDPOINT=your-openai-endpoint
export OPEN_AI_DEPLOYMENT_NAME=your-openai-deployment-name
export SPEECH_KEY=your-speech-key
export SPEECH_REGION=your-speech-region

När du har lagt till miljövariablerna kör source ~/.bashrc du från konsolfönstret för att göra ändringarna effektiva.

Bash

Redigera .bash_profile och lägg till miljövariablerna:

export OPEN_AI_KEY=your-openai-key
export OPEN_AI_ENDPOINT=your-openai-endpoint
export OPEN_AI_DEPLOYMENT_NAME=your-openai-deployment-name
export SPEECH_KEY=your-speech-key
export SPEECH_REGION=your-speech-region

När du har lagt till miljövariablerna kör source ~/.bash_profile du från konsolfönstret för att göra ändringarna effektiva.

Xcode

För iOS- och macOS-utveckling anger du miljövariablerna i Xcode. Följ till exempel de här stegen för att ange miljövariabeln i Xcode 13.4.1.

Välj Redigera schema för produktschema>>.
Välj Argument på sidan Kör (Felsöka körning).
Under Miljövariabler väljer du plustecknet (+) för att lägga till en ny miljövariabel.
Ange som Namn och ange din Speech-resursnyckel för Värdet.SPEECH_KEY

Upprepa stegen för att ange andra obligatoriska miljövariabler.

Fler konfigurationsalternativ finns i Xcode-dokumentationen.

Identifiera tal från en mikrofon

Följ de här stegen för att skapa ett nytt konsolprogram.

Öppna ett kommandotolksfönster i mappen där du vill ha det nya projektet. Kör det här kommandot för att skapa ett konsolprogram med .NET CLI.
```
dotnet new console
```
Kommandot skapar en Program.cs fil i projektkatalogen.

Installera Speech SDK i ditt nya projekt med .NET CLI.

dotnet add package Microsoft.CognitiveServices.Speech

Installera Azure OpenAI SDK (förhandsversion) i ditt nya projekt med .NET CLI.
```
dotnet add package Azure.AI.OpenAI --prerelease 
```

Ersätt innehållet i Program.cs med följande kod.

using System.Text;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;
using Azure;
using Azure.AI.OpenAI;

// This example requires environment variables named "OPEN_AI_KEY", "OPEN_AI_ENDPOINT" and "OPEN_AI_DEPLOYMENT_NAME"
// Your endpoint should look like the following https://YOUR_OPEN_AI_RESOURCE_NAME.openai.azure.com/
string openAIKey = Environment.GetEnvironmentVariable("OPEN_AI_KEY") ??
                   throw new ArgumentException("Missing OPEN_AI_KEY");
string openAIEndpoint = Environment.GetEnvironmentVariable("OPEN_AI_ENDPOINT") ??
                        throw new ArgumentException("Missing OPEN_AI_ENDPOINT");

// Enter the deployment name you chose when you deployed the model.
string engine = Environment.GetEnvironmentVariable("OPEN_AI_DEPLOYMENT_NAME") ??
                throw new ArgumentException("Missing OPEN_AI_DEPLOYMENT_NAME");

// This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY") ??
                   throw new ArgumentException("Missing SPEECH_KEY");
string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION") ??
                      throw new ArgumentException("Missing SPEECH_REGION");

// Sentence end symbols for splitting the response into sentences.
List<string> sentenceSaperators = new() { ".", "!", "?", ";", "。", "！", "？", "；", "\n" };

try
{
    await ChatWithOpenAI();
}
catch (Exception ex)
{
    Console.WriteLine(ex);
}

// Prompts Azure OpenAI with a request and synthesizes the response.
async Task AskOpenAI(string prompt)
{
    object consoleLock = new();
    var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);

    // The language of the voice that speaks.
    speechConfig.SpeechSynthesisVoiceName = "en-US-JennyMultilingualNeural";
    var audioOutputConfig = AudioConfig.FromDefaultSpeakerOutput();
    using var speechSynthesizer = new SpeechSynthesizer(speechConfig, audioOutputConfig);
    speechSynthesizer.Synthesizing += (sender, args) =>
    {
        lock (consoleLock)
        {
            Console.ForegroundColor = ConsoleColor.Yellow;
            Console.Write($"[Audio]");
            Console.ResetColor();
        }
    };

    // Ask Azure OpenAI
    OpenAIClient client = new(new Uri(openAIEndpoint), new AzureKeyCredential(openAIKey));
    var completionsOptions = new ChatCompletionsOptions()
    {
        DeploymentName = engine,
        Messages = { new ChatRequestUserMessage(prompt) },
        MaxTokens = 100,
    };
    var responseStream = await client.GetChatCompletionsStreamingAsync(completionsOptions);

    StringBuilder gptBuffer = new();
    await foreach (var completionUpdate in responseStream)
    {
        var message = completionUpdate.ContentUpdate;
        if (string.IsNullOrEmpty(message))
        {
            continue;
        }

        lock (consoleLock)
        {
            Console.ForegroundColor = ConsoleColor.DarkBlue;
            Console.Write($"{message}");
            Console.ResetColor();
        }

        gptBuffer.Append(message);

        if (sentenceSaperators.Any(message.Contains))
        {
            var sentence = gptBuffer.ToString().Trim();
            if (!string.IsNullOrEmpty(sentence))
            {
                await speechSynthesizer.SpeakTextAsync(sentence);
                gptBuffer.Clear();
            }
        }
    }
}

// Continuously listens for speech input to recognize and send as text to Azure OpenAI
async Task ChatWithOpenAI()
{
    // Should be the locale for the speaker's language.
    var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);
    speechConfig.SpeechRecognitionLanguage = "en-US";

    using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
    using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    var conversationEnded = false;

    while (!conversationEnded)
    {
        Console.WriteLine("Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.");

        // Get audio from the microphone and then send it to the TTS service.
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();

        switch (speechRecognitionResult.Reason)
        {
            case ResultReason.RecognizedSpeech:
                if (speechRecognitionResult.Text == "Stop.")
                {
                    Console.WriteLine("Conversation ended.");
                    conversationEnded = true;
                }
                else
                {
                    Console.WriteLine($"Recognized speech: {speechRecognitionResult.Text}");
                    await AskOpenAI(speechRecognitionResult.Text);
                }

                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"No speech could be recognized: ");
                break;
            case ResultReason.Canceled:
                var cancellationDetails = CancellationDetails.FromResult(speechRecognitionResult);
                Console.WriteLine($"Speech Recognition canceled: {cancellationDetails.Reason}");
                if (cancellationDetails.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"Error details={cancellationDetails.ErrorDetails}");
                }

                break;
        }
    }
}

Om du vill öka eller minska antalet token som returneras av Azure OpenAI ändrar du MaxTokens egenskapen i klassinstansen ChatCompletionsOptions . Mer information om token och kostnadskonsekvenser finns i Azure OpenAI-token och Prissättning för Azure OpenAI.
Kör det nya konsolprogrammet för att starta taligenkänning från en mikrofon:
```
dotnet run
```

Viktigt!

Se till att du anger OPEN_AI_KEYmiljövariablerna , OPEN_AI_ENDPOINT, OPEN_AI_DEPLOYMENT_NAMESPEECH_KEY och SPEECH_REGIONenligt beskrivningen. Om du inte anger dessa variabler misslyckas exemplet med ett felmeddelande.

Tala i mikrofonen när du uppmanas att göra det. Konsolens utdata innehåller uppmaningen att börja tala, sedan din begäran som text och sedan svaret från Azure OpenAI som text. Svaret från Azure OpenAI ska konverteras från text till tal och sedan skickas till standardhögtalaren.

PS C:\dev\openai\csharp> dotnet run
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Recognized speech:Make a comma separated list of all continents.
Azure OpenAI response:Africa, Antarctica, Asia, Australia, Europe, North America, South America
Speech synthesized to speaker for text [Africa, Antarctica, Asia, Australia, Europe, North America, South America]
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Recognized speech: Make a comma separated list of 1 Astronomical observatory for each continent. A list should include each continent name in parentheses.
Azure OpenAI response:Mauna Kea Observatories (North America), La Silla Observatory (South America), Tenerife Observatory (Europe), Siding Spring Observatory (Australia), Beijing Xinglong Observatory (Asia), Naukluft Plateau Observatory (Africa), Rutherford Appleton Laboratory (Antarctica)
Speech synthesized to speaker for text [Mauna Kea Observatories (North America), La Silla Observatory (South America), Tenerife Observatory (Europe), Siding Spring Observatory (Australia), Beijing Xinglong Observatory (Asia), Naukluft Plateau Observatory (Africa), Rutherford Appleton Laboratory (Antarctica)]
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Conversation ended.
PS C:\dev\openai\csharp>

Anmärkningar

Här följer några fler överväganden:

Om du vill ändra taligenkänningsspråket ersätter du en-US med ett annat språk som stöds. Till exempel es-ES för spanska (Spanien). Standardspråket är en-US. Mer information om hur du identifierar ett av flera språk som kan talas finns i språkidentifiering.
Om du vill ändra den röst som du hör ersätter en-US-JennyMultilingualNeural du med en annan röst som stöds. Om rösten inte talar språket för den text som returneras från Azure OpenAI matar taltjänsten inte ut syntetiserat ljud.
Om du vill använda en annan modell ersätter du gpt-35-turbo-instruct med ID:t för en annan distribution. Distributions-ID:t är inte nödvändigtvis detsamma som modellnamnet. Du namngav distributionen när du skapade den i Azure OpenAI Studio.
Azure OpenAI utför även con tältläge ration på promptindata och genererade utdata. Uppmaningarna eller svaren kan filtreras om skadligt innehåll identifieras. Mer information finns i artikeln om innehållsfiltrering .

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation Paket (PyPi) | Ytterligare exempel på GitHub |

Tala i mikrofonen för att starta en konversation med Azure OpenAI.

Speech-tjänsten känner igen ditt tal och konverterar det till text (tal till text).
Din begäran som text skickas till Azure OpenAI.
Taltjänstens text till tal-funktion syntetiserar svaret från Azure OpenAI till standardhögtalaren.

Även om upplevelsen av det här exemplet är ett utbyte fram och tillbaka, kommer Azure OpenAI inte ihåg kontexten för konversationen.

Viktigt!

Förutsättningar

Azure-prenumeration – Skapa en kostnadsfritt
Skapa en Microsoft Azure OpenAI Service-resurs i Azure-portalen.
Distribuera en modell i din Azure OpenAI-resurs. Mer information om modelldistribution finns i distributionsguiden för Azure OpenAI-resurser.
Hämta Azure OpenAI-resursnyckeln och slutpunkten. När azure OpenAI-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar. Mer information om Azure AI-tjänstresurser finns i Hämta nycklarna för din resurs.
Skapa en Speech-resurs i Azure-portalen.
Hämta resursnyckeln och regionen Speech. När speech-resursen har distribuerats väljer du Gå till resurs för att visa och hantera nycklar. Mer information om Azure AI-tjänstresurser finns i Hämta nycklarna för din resurs.

Konfigurera miljön

Speech SDK för Python är tillgänglig som en PyPI-modul (Python Package Index). Speech SDK för Python är kompatibelt med Windows, Linux och macOS.

Installera Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017, 2019 och 2022 för din plattform. Att installera det här paketet för första gången kan kräva en omstart.
I Linux måste du använda x64-målarkitekturen.

Installera en version av Python från 3.7 eller senare. Kontrollera först installationsguiden för SDK för ytterligare krav.

Installera följande Python-bibliotek: os, requests, json.

Ange miljövariabler

Det här exemplet kräver miljövariabler med namnet OPEN_AI_KEY, OPEN_AI_ENDPOINT, OPEN_AI_DEPLOYMENT_NAME, SPEECH_KEYoch SPEECH_REGION.

Dricks

Inkludera inte nyckeln direkt i koden och publicera den aldrig offentligt. Mer autentiseringsalternativ som Azure Key Vault finns i Säkerhet för Azure AI-tjänster.

Om du vill ange miljövariablerna öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

Om du vill ange OPEN_AI_KEY miljövariabeln ersätter du your-openai-key med en av nycklarna för resursen.
Om du vill ange OPEN_AI_ENDPOINT miljövariabeln ersätter du your-openai-endpoint med en av regionerna för resursen.
Om du vill ange OPEN_AI_DEPLOYMENT_NAME miljövariabeln ersätter du your-openai-deployment-name med en av regionerna för resursen.
Om du vill ange SPEECH_KEY miljövariabeln ersätter du your-speech-key med en av nycklarna för resursen.
Om du vill ange SPEECH_REGION miljövariabeln ersätter du your-speech-region med en av regionerna för resursen.

setx OPEN_AI_KEY your-openai-key
setx OPEN_AI_ENDPOINT your-openai-endpoint
setx OPEN_AI_DEPLOYMENT_NAME your-openai-deployment-name
setx SPEECH_KEY your-speech-key
setx SPEECH_REGION your-speech-region

Kommentar

Om du bara behöver komma åt miljövariabeln i den aktuella konsolen som körs anger du miljövariabeln med set i stället för setx.

export OPEN_AI_KEY=your-openai-key
export OPEN_AI_ENDPOINT=your-openai-endpoint
export OPEN_AI_DEPLOYMENT_NAME=your-openai-deployment-name
export SPEECH_KEY=your-speech-key
export SPEECH_REGION=your-speech-region

När du har lagt till miljövariablerna kör source ~/.bashrc du från konsolfönstret för att göra ändringarna effektiva.

Bash

Redigera .bash_profile och lägg till miljövariablerna:

export OPEN_AI_KEY=your-openai-key
export OPEN_AI_ENDPOINT=your-openai-endpoint
export OPEN_AI_DEPLOYMENT_NAME=your-openai-deployment-name
export SPEECH_KEY=your-speech-key
export SPEECH_REGION=your-speech-region

När du har lagt till miljövariablerna kör source ~/.bash_profile du från konsolfönstret för att göra ändringarna effektiva.

Xcode

För iOS- och macOS-utveckling anger du miljövariablerna i Xcode. Följ till exempel de här stegen för att ange miljövariabeln i Xcode 13.4.1.

Välj Redigera schema för produktschema>>.
Välj Argument på sidan Kör (Felsöka körning).
Under Miljövariabler väljer du plustecknet (+) för att lägga till en ny miljövariabel.
Ange som Namn och ange din Speech-resursnyckel för Värdet.SPEECH_KEY

Upprepa stegen för att ange andra obligatoriska miljövariabler.

Fler konfigurationsalternativ finns i Xcode-dokumentationen.

Identifiera tal från en mikrofon

Följ de här stegen för att skapa ett nytt konsolprogram.

Öppna ett kommandotolksfönster i mappen där du vill ha det nya projektet. Öppna en kommandotolk där du vill ha det nya projektet och skapa en ny fil med namnet openai-speech.py.
Kör det här kommandot för att installera Speech SDK:
```
pip install azure-cognitiveservices-speech
```
Kör det här kommandot för att installera OpenAI SDK:
```
pip install openai
```
Kommentar

Det här biblioteket underhålls av OpenAI, inte Microsoft Azure. Se versionshistoriken eller version.py incheckningshistorik för att spåra de senaste uppdateringarna i biblioteket.

Skapa en fil med namnet openai-speech.py. Kopiera följande kod till filen:

import os
import azure.cognitiveservices.speech as speechsdk
from openai import AzureOpenAI

# This example requires environment variables named "OPEN_AI_KEY", "OPEN_AI_ENDPOINT" and "OPEN_AI_DEPLOYMENT_NAME"
# Your endpoint should look like the following https://YOUR_OPEN_AI_RESOURCE_NAME.openai.azure.com/
client = AzureOpenAI(
azure_endpoint=os.environ.get('OPEN_AI_ENDPOINT'),
api_key=os.environ.get('OPEN_AI_KEY'),
api_version="2023-05-15"
)

# This will correspond to the custom name you chose for your deployment when you deployed a model.
deployment_id=os.environ.get('OPEN_AI_DEPLOYMENT_NAME')

# This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
audio_output_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)

# Should be the locale for the speaker's language.
speech_config.speech_recognition_language="en-US"
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

# The language of the voice that responds on behalf of Azure OpenAI.
speech_config.speech_synthesis_voice_name='en-US-JennyMultilingualNeural'
speech_synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_output_config)
# tts sentence end mark
tts_sentence_end = [ ".", "!", "?", ";", "。", "！", "？", "；", "\n" ]

# Prompts Azure OpenAI with a request and synthesizes the response.
def ask_openai(prompt):
    # Ask Azure OpenAI in streaming way
    response = client.chat.completions.create(model=deployment_id, max_tokens=200, stream=True, messages=[
        {"role": "user", "content": prompt}
    ])
    collected_messages = []
    last_tts_request = None

    # iterate through the stream response stream
    for chunk in response:
        if len(chunk.choices) > 0:
            chunk_message = chunk.choices[0].delta.content  # extract the message
            if chunk_message is not None:
                collected_messages.append(chunk_message)  # save the message
                if chunk_message in tts_sentence_end: # sentence end found
                    text = ''.join(collected_messages).strip() # join the recieved message together to build a sentence
                    if text != '': # if sentence only have \n or space, we could skip
                        print(f"Speech synthesized to speaker for: {text}")
                        last_tts_request = speech_synthesizer.speak_text_async(text)
                        collected_messages.clear()
    if last_tts_request:
        last_tts_request.get()

# Continuously listens for speech input to recognize and send as text to Azure OpenAI
def chat_with_open_ai():
    while True:
        print("Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.")
        try:
            # Get audio from the microphone and then send it to the TTS service.
            speech_recognition_result = speech_recognizer.recognize_once_async().get()

            # If speech is recognized, send it to Azure OpenAI and listen for the response.
            if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
                if speech_recognition_result.text == "Stop.": 
                    print("Conversation ended.")
                    break
                print("Recognized speech: {}".format(speech_recognition_result.text))
                ask_openai(speech_recognition_result.text)
            elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
                print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
                break
            elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
                cancellation_details = speech_recognition_result.cancellation_details
                print("Speech Recognition canceled: {}".format(cancellation_details.reason))
                if cancellation_details.reason == speechsdk.CancellationReason.Error:
                    print("Error details: {}".format(cancellation_details.error_details))
        except EOFError:
            break

# Main

try:
    chat_with_open_ai()
except Exception as err:
    print("Encountered exception. {}".format(err))

Om du vill öka eller minska antalet token som returneras av Azure OpenAI ändrar du parametern max_tokens . Mer information om token och kostnadskonsekvenser finns i Azure OpenAI-token och Prissättning för Azure OpenAI.
Kör det nya konsolprogrammet för att starta taligenkänning från en mikrofon:
```
python openai-speech.py
```

Viktigt!

Se till att du anger OPEN_AI_KEYmiljövariablerna , OPEN_AI_ENDPOINT, OPEN_AI_DEPLOYMENT_NAMESPEECH_KEY och SPEECH_REGION enligt beskrivningen tidigare. Om du inte anger dessa variabler misslyckas exemplet med ett felmeddelande.

PS C:\dev\openai\python> python.exe .\openai-speech.py
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Recognized speech:Make a comma separated list of all continents.
Azure OpenAI response:Africa, Antarctica, Asia, Australia, Europe, North America, South America
Speech synthesized to speaker for text [Africa, Antarctica, Asia, Australia, Europe, North America, South America]
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Recognized speech: Make a comma separated list of 1 Astronomical observatory for each continent. A list should include each continent name in parentheses.
Azure OpenAI response:Mauna Kea Observatories (North America), La Silla Observatory (South America), Tenerife Observatory (Europe), Siding Spring Observatory (Australia), Beijing Xinglong Observatory (Asia), Naukluft Plateau Observatory (Africa), Rutherford Appleton Laboratory (Antarctica)
Speech synthesized to speaker for text [Mauna Kea Observatories (North America), La Silla Observatory (South America), Tenerife Observatory (Europe), Siding Spring Observatory (Australia), Beijing Xinglong Observatory (Asia), Naukluft Plateau Observatory (Africa), Rutherford Appleton Laboratory (Antarctica)]
Azure OpenAI is listening. Say 'Stop' or press Ctrl-Z to end the conversation.
Conversation ended.
PS C:\dev\openai\python>

Anmärkningar

Här följer några fler överväganden:

Om du vill ändra taligenkänningsspråket ersätter du en-US med ett annat språk som stöds. Till exempel es-ES för spanska (Spanien). Standardspråket är en-US. Mer information om hur du identifierar ett av flera språk som kan talas finns i språkidentifiering.
Om du vill ändra den röst som du hör ersätter en-US-JennyMultilingualNeural du med en annan röst som stöds. Om rösten inte talar språket för den text som returneras från Azure OpenAI matar taltjänsten inte ut syntetiserat ljud.
Om du vill använda en annan modell ersätter du gpt-35-turbo-instruct med ID:t för en annan distribution. Tänk på att distributions-ID:t inte nödvändigtvis är detsamma som modellnamnet. Du namngav distributionen när du skapade den i Azure OpenAI Studio.
Azure OpenAI utför även con tältläge ration på promptindata och genererade utdata. Uppmaningarna eller svaren kan filtreras om skadligt innehåll identifieras. Mer information finns i artikeln om innehållsfiltrering .

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Share via

Tal till talchatt i Azure OpenAI

Förutsättningar

Konfigurera miljön

Ange miljövariabler

Bash

Xcode

Identifiera tal från en mikrofon

Anmärkningar

Rensa resurser

Förutsättningar

Konfigurera miljön

Ange miljövariabler

Bash

Xcode

Identifiera tal från en mikrofon

Anmärkningar

Rensa resurser

Ytterligare resurser

Share via

Tal till talchatt i Azure OpenAI

Förutsättningar

Konfigurera miljön

Ange miljövariabler

Identifiera tal från en mikrofon

Anmärkningar

Rensa resurser

Förutsättningar

Konfigurera miljön

Ange miljövariabler

Identifiera tal från en mikrofon

Anmärkningar

Rensa resurser

Relaterat innehåll

Ytterligare resurser