Share via


Snabbstart: Skapa bildtext med tal till text

Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |

I den här snabbstarten kör du en konsolapp för att skapa bildtext med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade bildtext resultat i realtid eller offline.

Förutsättningar

Konfigurera miljön

Speech SDK är tillgängligt som ett NuGet-paket och implementerar .NET Standard 2.0. Du installerar Speech SDK senare i den här guiden, men kontrollera först SDK-installationsguiden om det finns fler krav.

Du måste också installera GStreamer för komprimerat indataljud.

Ange miljövariabler

Ditt program måste autentiseras för att få åtkomst till Azure AI-tjänstresurser. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter. När du till exempel har fått en nyckel för din Speech-resurs skriver du den till en ny miljövariabel på den lokala datorn som kör programmet.

Dricks

Inkludera inte nyckeln direkt i koden och publicera den aldrig offentligt. Mer autentiseringsalternativ som Azure Key Vault finns i Säkerhet för Azure AI-tjänster.

Om du vill ange miljövariabeln för din Speech-resursnyckel öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

  • Om du vill ange SPEECH_KEY miljövariabeln ersätter du din nyckel med en av nycklarna för resursen.
  • Om du vill ange SPEECH_REGION miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Kommentar

Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariabeln, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.

Skapa bildtext från tal

Följ de här stegen för att skapa och köra bildtext ing-kodexemplet för snabbstart.

  1. Kopiera scenarier/csharp/dotnetcore/bildtext ing/exempelfiler från GitHub. Om du har Git installerat öppnar du en kommandotolk och kör git clone kommandot för att ladda ned Lagringsplatsen för Speech SDK-exempel.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Öppna en kommandotolk och ändra till projektkatalogen.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Skapa projektet med .NET CLI.
    dotnet build
    
  4. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Viktigt!

    Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Se till att du anger SPEECH_KEY miljövariablerna och SPEECH_REGION enligt beskrivningen ovan. Använd annars argumenten --key och --region .

Kontrollera resultat

När du använder realTime alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing och Recognized händelser. Mer information finns i Hämta partiella resultat.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

När du använder --offline alternativet är resultatet stabilt från den slutliga Recognized händelsen. Partiella resultat ingår inte i utdata:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: captioning --input <input file>

Anslut ionsalternativ är:

  • --key: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --key .
  • --region REGION: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --region . Exempel: westus, northeurope

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-bildtext exemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --language LANG: Ange ett språk med något av motsvarande språk som stöds. Detta används när bildtext delas upp i linjer. Standardvärdet är en-US.

Bland alternativen för igenkänning finns:

  • --offline: Utdata offlineresultat. Åsidosätter --realTime. Standardutdataläget är offline.
  • --realTime: Utdata i realtidsresultat.

Realtidsutdata innehåller Recognizing händelseresultat. Standardutdata offline är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdata bildtext till den angivna file. Den här flaggan krävs.
  • --srt: Utdata bildtext i SRT-format (underbeskrivningstext). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om SRT- och WebVTT-bildtext filformat finns i Utdataformat för bildtext.
  • --maxLineLength LENGTH: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).
  • --lines LINES: Ange antalet rader för en bildtext till RADER. Minimum är 1. Standardvärdet är 2.
  • --delay MILLISECONDS: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använder realTime flaggan. Minimum är 0,0. Standardvärdet är 1 000.
  • --remainTime MILLISECONDS: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Det här alternativet gäller endast när du använder realTime flaggan. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation Paket (NuGet) | Ytterligare exempel på GitHub |

I den här snabbstarten kör du en konsolapp för att skapa bildtext med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade bildtext resultat i realtid eller offline.

Förutsättningar

Konfigurera miljön

Speech SDK är tillgängligt som ett NuGet-paket och implementerar .NET Standard 2.0. Du installerar Speech SDK senare i den här guiden, men först kontrollerar du SDK-installationsguiden för ytterligare krav

Du måste också installera GStreamer för komprimerat indataljud.

Ange miljövariabler

Ditt program måste autentiseras för att få åtkomst till Azure AI-tjänstresurser. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter. När du till exempel har fått en nyckel för din Speech-resurs skriver du den till en ny miljövariabel på den lokala datorn som kör programmet.

Dricks

Inkludera inte nyckeln direkt i koden och publicera den aldrig offentligt. Mer autentiseringsalternativ som Azure Key Vault finns i Säkerhet för Azure AI-tjänster.

Om du vill ange miljövariabeln för din Speech-resursnyckel öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

  • Om du vill ange SPEECH_KEY miljövariabeln ersätter du din nyckel med en av nycklarna för resursen.
  • Om du vill ange SPEECH_REGION miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Kommentar

Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariabeln, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.

Skapa bildtext från tal

Följ de här stegen för att skapa och köra snabbstartsexemplet bildtext ing med Visual Studio Community 2022 i Windows.

  1. Ladda ned eller kopiera scenarier/cpp/windows/bildtext ing/exempelfiler från GitHub till en lokal katalog.

  2. Öppna lösningsfilen captioning.sln i Visual Studio Community 2022.

  3. Installera Speech SDK i projektet med NuGet-pakethanteraren.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Öppna Allmänna projektegenskaper>>. Ange Konfiguration till All configurations. Ange C++ Language Standard till ISO C++17 Standard (/std:c++17).

  5. Öppna Build>Configuration Manager.

    • I en 64-bitars Windows-installation ställer du in Aktiv lösningsplattformx64.
    • Vid en 32-bitars Windows-installation ställer du in Aktiv lösningsplattformx86.
  6. Öppna Felsökning av projektegenskaper>>. Ange önskade kommandoradsargument i Kommandoargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Viktigt!

    Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Se till att du anger SPEECH_KEY miljövariablerna och SPEECH_REGION enligt beskrivningen ovan. Använd annars argumenten --key och --region .

  7. Skapa och kör konsolprogrammet.

Kontrollera resultat

När du använder realTime alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing och Recognized händelser. Mer information finns i Hämta partiella resultat.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

När du använder --offline alternativet är resultatet stabilt från den slutliga Recognized händelsen. Partiella resultat ingår inte i utdata:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: captioning --input <input file>

Anslut ionsalternativ är:

  • --key: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --key .
  • --region REGION: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --region . Exempel: westus, northeurope

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-bildtext exemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --language LANG: Ange ett språk med något av motsvarande språk som stöds. Detta används när bildtext delas upp i linjer. Standardvärdet är en-US.

Bland alternativen för igenkänning finns:

  • --offline: Utdata offlineresultat. Åsidosätter --realTime. Standardutdataläget är offline.
  • --realTime: Utdata i realtidsresultat.

Realtidsutdata innehåller Recognizing händelseresultat. Standardutdata offline är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdata bildtext till den angivna file. Den här flaggan krävs.
  • --srt: Utdata bildtext i SRT-format (underbeskrivningstext). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om SRT- och WebVTT-bildtext filformat finns i Utdataformat för bildtext.
  • --maxLineLength LENGTH: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).
  • --lines LINES: Ange antalet rader för en bildtext till RADER. Minimum är 1. Standardvärdet är 2.
  • --delay MILLISECONDS: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använder realTime flaggan. Minimum är 0,0. Standardvärdet är 1 000.
  • --remainTime MILLISECONDS: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Det här alternativet gäller endast när du använder realTime flaggan. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation Paket (Go) | Ytterligare exempel på GitHub |

I den här snabbstarten kör du en konsolapp för att skapa bildtext med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade bildtext resultat i realtid eller offline.

Förutsättningar

Konfigurera miljön

Kontrollera om det finns några plattformsspecifika installationssteg.

Du måste också installera GStreamer för komprimerat indataljud.

Skapa bildtext från tal

Följ de här stegen för att skapa och köra bildtext ing-kodexemplet för snabbstart.

  1. Ladda ned eller kopiera scenarier/go/bildtext ing/exempelfiler från GitHub till en lokal katalog.

  2. Öppna en kommandotolk i samma katalog som captioning.go.

  3. Kör följande kommandon för att skapa en go.mod fil som länkar till Speech SDK-komponenterna som finns på GitHub:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Skapa GO-modulen.

    go build
    
  5. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Ersätt YourSubscriptionKey med din Speech-resursnyckel och ersätt YourServiceRegion med din Speech-resursregion, till exempel westus eller northeurope. Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Viktigt!

    Kom ihåg att ta bort nyckeln från koden när du är klar och publicera den aldrig offentligt. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter som Azure Key Vault. Mer information finns i säkerhetsartikeln för Azure AI-tjänster.

Kontrollera resultat

Utdatafilen med fullständiga bildtext skrivs till caption.output.txt. Mellanliggande resultat visas i konsolen:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Anslut ionsalternativ är:

  • --key: Din Speech-resursnyckel.
  • --region REGION: Din Speech-resursregion. Exempel: westus, northeurope

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-bildtext exemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --languages LANG1,LANG2: Aktivera språkidentifiering för angivna språk. Exempel: en-US,ja-JP. Det här alternativet är endast tillgängligt med C++-, C#- och Python-bildtext exempel. Mer information finns i Språkidentifiering.

Bland alternativen för igenkänning finns:

  • --recognizing: Resultat av utdatahändelsen Recognizing . Standardutdata är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdata bildtext till den angivna file. Den här flaggan krävs.
  • --srt: Utdata bildtext i SRT-format (underbeskrivningstext). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om SRT- och WebVTT-bildtext filformat finns i Utdataformat för bildtext.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation | Ytterligare exempel på GitHub

I den här snabbstarten kör du en konsolapp för att skapa bildtext med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade bildtext resultat i realtid eller offline.

Förutsättningar

Konfigurera miljön

Innan du kan göra något måste du installera Speech SDK. Exemplet i den här snabbstarten fungerar med Microsoft Build of OpenJDK 17

  1. Installera Apache Maven. Kör mvn -v sedan för att bekräfta att installationen har slutförts.
  2. Skapa en ny pom.xml fil i roten för projektet och kopiera följande till den:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.37.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Installera Speech SDK och beroenden.
    mvn clean dependency:copy-dependencies
    
  4. Du måste också installera GStreamer för komprimerat indataljud.

Ange miljövariabler

Ditt program måste autentiseras för att få åtkomst till Azure AI-tjänstresurser. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter. När du till exempel har fått en nyckel för din Speech-resurs skriver du den till en ny miljövariabel på den lokala datorn som kör programmet.

Dricks

Inkludera inte nyckeln direkt i koden och publicera den aldrig offentligt. Mer autentiseringsalternativ som Azure Key Vault finns i Säkerhet för Azure AI-tjänster.

Om du vill ange miljövariabeln för din Speech-resursnyckel öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

  • Om du vill ange SPEECH_KEY miljövariabeln ersätter du din nyckel med en av nycklarna för resursen.
  • Om du vill ange SPEECH_REGION miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Kommentar

Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariabeln, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.

Skapa bildtext från tal

Följ de här stegen för att skapa och köra bildtext ing-kodexemplet för snabbstart.

  1. Kopiera scenarier/java/jre/bildtext ing/exempelfiler från GitHub till din projektkatalog. Filen pom.xml som du skapade i miljökonfigurationen måste också finnas i den här katalogen.
  2. Öppna en kommandotolk och kör det här kommandot för att kompilera projektfilerna.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Viktigt!

    Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Se till att du anger SPEECH_KEY miljövariablerna och SPEECH_REGION enligt beskrivningen ovan. Använd annars argumenten --key och --region .

Kontrollera resultat

När du använder realTime alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing och Recognized händelser. Mer information finns i Hämta partiella resultat.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

När du använder --offline alternativet är resultatet stabilt från den slutliga Recognized händelsen. Partiella resultat ingår inte i utdata:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: java -cp ".;target\dependency\*" Captioning --input <input file>

Anslut ionsalternativ är:

  • --key: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --key .
  • --region REGION: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --region . Exempel: westus, northeurope

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-bildtext exemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --language LANG: Ange ett språk med något av motsvarande språk som stöds. Detta används när bildtext delas upp i linjer. Standardvärdet är en-US.

Bland alternativen för igenkänning finns:

  • --offline: Utdata offlineresultat. Åsidosätter --realTime. Standardutdataläget är offline.
  • --realTime: Utdata i realtidsresultat.

Realtidsutdata innehåller Recognizing händelseresultat. Standardutdata offline är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdata bildtext till den angivna file. Den här flaggan krävs.
  • --srt: Utdata bildtext i SRT-format (underbeskrivningstext). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om SRT- och WebVTT-bildtext filformat finns i Utdataformat för bildtext.
  • --maxLineLength LENGTH: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).
  • --lines LINES: Ange antalet rader för en bildtext till RADER. Minimum är 1. Standardvärdet är 2.
  • --delay MILLISECONDS: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använder realTime flaggan. Minimum är 0,0. Standardvärdet är 1 000.
  • --remainTime MILLISECONDS: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Det här alternativet gäller endast när du använder realTime flaggan. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentation Paket (npm) | Ytterligare exempel på GitHub-bibliotekets källkod | |

I den här snabbstarten kör du en konsolapp för att skapa bildtext med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade bildtext resultat i realtid eller offline.

Förutsättningar

Konfigurera miljön

Innan du kan göra något måste du installera Speech SDK för JavaScript. Om du bara vill att paketnamnet ska installeras kör du npm install microsoft-cognitiveservices-speech-sdk. Anvisningar för guidad installation finns i installationsguiden för SDK.

Skapa bildtext från tal

Följ de här stegen för att skapa och köra bildtext ing-kodexemplet för snabbstart.

  1. Kopiera scenarier/javascript/node/bildtext ing/exempelfiler från GitHub till din projektkatalog.

  2. Öppna en kommandotolk i samma katalog som Captioning.js.

  3. Installera Speech SDK för JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Ersätt YourSubscriptionKey med din Speech-resursnyckel och ersätt YourServiceRegion med din Speech-resursregion, till exempel westus eller northeurope. Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Kommentar

    Speech SDK för JavaScript stöder inte komprimerat indataljud. Du måste använda en WAV-fil enligt exemplet.

    Viktigt!

    Kom ihåg att ta bort nyckeln från koden när du är klar och publicera den aldrig offentligt. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter som Azure Key Vault. Mer information finns i säkerhetsartikeln för Azure AI-tjänster.

Kontrollera resultat

Utdatafilen med fullständiga bildtext skrivs till caption.output.txt. Mellanliggande resultat visas i konsolen:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: node captioning.js --key <key> --region <region> --input <input file>

Anslut ionsalternativ är:

  • --key: Din Speech-resursnyckel.
  • --region REGION: Din Speech-resursregion. Exempel: westus, northeurope

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-bildtext exemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --languages LANG1,LANG2: Aktivera språkidentifiering för angivna språk. Exempel: en-US,ja-JP. Det här alternativet är endast tillgängligt med C++-, C#- och Python-bildtext exempel. Mer information finns i Språkidentifiering.

Bland alternativen för igenkänning finns:

  • --recognizing: Resultat av utdatahändelsen Recognizing . Standardutdata är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdata bildtext till den angivna file. Den här flaggan krävs.
  • --srt: Utdata bildtext i SRT-format (underbeskrivningstext). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om SRT- och WebVTT-bildtext filformat finns i Utdataformat för bildtext.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Referensdokumentationspaket (ladda ned) | Ytterligare exempel på GitHub |

Speech SDK för Objective-C har stöd för att få taligenkänningsresultat för bildtext ing, men vi har ännu inte tagit med någon guide här. Välj ett annat programmeringsspråk för att komma igång och lära dig mer om begreppen, eller se Objective-C-referensen och exemplen som är länkade från början av den här artikeln.

Referensdokumentationspaket (ladda ned) | Ytterligare exempel på GitHub |

Speech SDK för Swift har stöd för att få taligenkänningsresultat för bildtext ing, men vi har ännu inte tagit med någon guide här. Välj ett annat programmeringsspråk för att komma igång och lära dig mer om begreppen, eller se Swift-referensen och exemplen som är länkade från början av den här artikeln.

Referensdokumentation Paket (PyPi) | Ytterligare exempel på GitHub |

I den här snabbstarten kör du en konsolapp för att skapa bildtext med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade bildtext resultat i realtid eller offline.

Förutsättningar

Konfigurera miljön

Speech SDK för Python är tillgänglig som en PyPI-modul (Python Package Index). Speech SDK för Python är kompatibelt med Windows, Linux och macOS.

  1. Installera en version av Python från 3.10 eller senare. Kontrollera först installationsguiden för SDK om det finns fler krav
  2. Du måste också installera GStreamer för komprimerat indataljud.

Ange miljövariabler

Ditt program måste autentiseras för att få åtkomst till Azure AI-tjänstresurser. För produktion använder du ett säkert sätt att lagra och komma åt dina autentiseringsuppgifter. När du till exempel har fått en nyckel för din Speech-resurs skriver du den till en ny miljövariabel på den lokala datorn som kör programmet.

Dricks

Inkludera inte nyckeln direkt i koden och publicera den aldrig offentligt. Mer autentiseringsalternativ som Azure Key Vault finns i Säkerhet för Azure AI-tjänster.

Om du vill ange miljövariabeln för din Speech-resursnyckel öppnar du ett konsolfönster och följer anvisningarna för operativsystemet och utvecklingsmiljön.

  • Om du vill ange SPEECH_KEY miljövariabeln ersätter du din nyckel med en av nycklarna för resursen.
  • Om du vill ange SPEECH_REGION miljövariabeln ersätter du din region med en av regionerna för resursen.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Kommentar

Om du bara behöver komma åt miljövariablerna i den aktuella konsolen kan du ange miljövariabeln med set i stället för setx.

När du har lagt till miljövariablerna kan du behöva starta om alla program som behöver läsa miljövariabeln, inklusive konsolfönstret. Om du till exempel använder Visual Studio som redigerare startar du om Visual Studio innan du kör exemplet.

Skapa bildtext från tal

Följ de här stegen för att skapa och köra bildtext ing-kodexemplet för snabbstart.

  1. Ladda ned eller kopiera scenarier/python/konsol/bildtext ing/exempelfiler från GitHub till en lokal katalog.
  2. Öppna en kommandotolk i samma katalog som captioning.py.
  3. Kör det här kommandot för att installera Speech SDK:
    pip install azure-cognitiveservices-speech
    
  4. Kör programmet med önskade kommandoradsargument. Se användning och argument för tillgängliga alternativ. Här är ett exempel:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Viktigt!

    Kontrollera att sökvägarna som anges av --input och --output är giltiga. Annars måste du ändra sökvägarna.

    Se till att du anger SPEECH_KEY miljövariablerna och SPEECH_REGION enligt beskrivningen ovan. Använd annars argumenten --key och --region .

Kontrollera resultat

När du använder realTime alternativet i exemplet ovan inkluderas de partiella resultaten från Recognizing händelser i utdata. I det här exemplet innehåller endast den slutliga Recognized händelsen kommatecken. Kommatecken är inte de enda skillnaderna mellan Recognizing och Recognized händelser. Mer information finns i Hämta partiella resultat.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

När du använder --offline alternativet är resultatet stabilt från den slutliga Recognized händelsen. Partiella resultat ingår inte i utdata:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Utdataformatet SRT (SubRip Text) är hh:mm:ss,fff. Mer information finns i Utdataformat för bildtext.

Användning och argument

Användning: python captioning.py --input <input file>

Anslut ionsalternativ är:

  • --key: Din Speech-resursnyckel. Åsidosätter miljövariabeln SPEECH_KEY. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --key .
  • --region REGION: Din Speech-resursregion. Åsidosätter miljövariabeln SPEECH_REGION. Du måste ange miljövariabeln (rekommenderas) eller använda alternativet --region . Exempel: westus, northeurope

Bland indataalternativen finns:

  • --input FILE: Indataljud från filen. Standardinmatningen är mikrofonen.
  • --format FORMAT: Använd komprimerat ljudformat. Endast giltigt med --file. Giltiga värden är alaw, any, flac, mp3, mulawoch ogg_opus. Standardvärdet är any. Om du vill använda en wav fil anger du inte formatet. Det här alternativet är inte tillgängligt med JavaScript-bildtext exemplet. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.

Språkalternativen är:

  • --language LANG: Ange ett språk med något av motsvarande språk som stöds. Detta används när bildtext delas upp i linjer. Standardvärdet är en-US.

Bland alternativen för igenkänning finns:

  • --offline: Utdata offlineresultat. Åsidosätter --realTime. Standardutdataläget är offline.
  • --realTime: Utdata i realtidsresultat.

Realtidsutdata innehåller Recognizing händelseresultat. Standardutdata offline är Recognized endast händelseresultat. Dessa skrivs alltid till konsolen, aldrig till en utdatafil. Alternativet --quiet åsidosätter detta. Mer information finns i Hämta resultat för taligenkänning.

Bland noggrannhetsalternativen finns:

Utdataalternativen omfattar:

  • --help: Visa den här hjälpen och stoppa
  • --output FILE: Utdata bildtext till den angivna file. Den här flaggan krävs.
  • --srt: Utdata bildtext i SRT-format (underbeskrivningstext). Standardformatet är WebVTT (Web Video Text Tracks). Mer information om SRT- och WebVTT-bildtext filformat finns i Utdataformat för bildtext.
  • --maxLineLength LENGTH: Ange det maximala antalet tecken per rad för en bildtext till LENGTH. Minimum är 20. Standardvärdet är 37 (30 för kinesiska).
  • --lines LINES: Ange antalet rader för en bildtext till RADER. Minimum är 1. Standardvärdet är 2.
  • --delay MILLISECONDS: Hur många MILLISECONDS som fördröjer visningen av varje bildtext för att efterlikna en realtidsupplevelse. Det här alternativet gäller endast när du använder realTime flaggan. Minimum är 0,0. Standardvärdet är 1 000.
  • --remainTime MILLISECONDS: Hur många MILLISECONDS en bildtext ska finnas kvar på skärmen om den inte ersätts av en annan. Minimum är 0,0. Standardvärdet är 1 000.
  • --quiet: Utelämna konsolutdata, förutom fel.
  • --profanity OPTION: Giltiga värden: raw, remove, mask. Mer information finns i Begrepp för svordomsfilter .
  • --threshold NUMBER: Ange ett stabilt tröskelvärde för partiellt resultat. Standardvärdet är 3. Det här alternativet gäller endast när du använder realTime flaggan. Mer information finns i Hämta begrepp för partiella resultat .

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

I den här snabbstarten kör du en konsolapp för att skapa bildtext med tal till text.

Dricks

Prova Speech Studio och välj ett exempelvideoklipp för att se bearbetade bildtext resultat i realtid eller offline.

Förutsättningar

Konfigurera miljön

Följ de här stegen och se snabbstarten för Speech CLI för andra krav för din plattform.

  1. Kör följande .NET CLI-kommando för att installera Speech CLI:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Kör följande kommandon för att konfigurera din Speech-resursnyckel och -region. Ersätt SUBSCRIPTION-KEY med din Speech-resursnyckel och ersätt REGION med din Speech-resursregion.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Du måste också installera GStreamer för komprimerat indataljud.

Skapa bildtext från tal

Med Speech CLI kan du mata ut både SRT (SubRip Text) och WebVTT (Web Video Text Tracks) bildtext från alla typer av media som innehåller ljud.

Följ dessa steg om du vill känna igen ljud från en fil och mata ut både WebVtt (vtt) och SRT () () bildtextsrt s.

  1. Kontrollera att du har en indatafil med namnet caption.this.mp4 i sökvägen.

  2. Kör följande kommando för att mata ut bildtext från videofilen:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    SRT- och WebVTT-bildtext matas ut till konsolen enligt följande:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Användning och argument

Här följer information om de valfria argumenten från föregående kommando:

  • --file caption.this.mp4 --format any: Indataljud från filen. Standardinmatningen är mikrofonen. För komprimerade ljudfiler som MP4 installerar du GStreamer och läser Så här använder du komprimerat indataljud.
  • --output vtt file -och --output srt file -: Matar ut WebVTT- och SRT-bildtext till standardutdata. Mer information om SRT- och WebVTT-bildtext filformat finns i Utdataformat för bildtext. Mer information om argumentet finns i Utdataalternativ för --output Speech CLI.
  • @output.each.detailed: Utdata händelseresultat med text, förskjutning och varaktighet. Mer information finns i Hämta resultat för taligenkänning.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Du kan begära att Speech-tjänsten returnerar färre Recognizing händelser som är mer exakta. I det här exemplet måste Speech-tjänsten bekräfta igenkänningen av ett ord minst fem gånger innan du returnerar de partiella resultaten till dig. Mer information finns i Hämta begrepp för partiella resultat .
  • --profanity masked: Du kan ange om du vill maskera, ta bort eller visa svordomar i igenkänningsresultat. Mer information finns i Begrepp för svordomsfilter .
  • --phrases "Constoso;Jessie;Rehaan": Du kan ange en lista med fraser som ska identifieras, till exempel Contoso, Jessie och Rehaan. Mer information finns i Förbättra igenkänning med fraslista.

Rensa resurser

Du kan använda Azure-portalen eller Azure-kommandoradsgränssnittet (CLI) för att ta bort den Speech-resurs som du skapade.

Nästa steg