Tömörített bemeneti hang használata

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

A Speech SDK és a Speech CLI a GStreamer használatával támogatja a különböző típusú bemeneti hangformátumokat. A GStreamer nyers PCM-ként bontja le a hangot, mielőtt a vezetéken keresztül elküldené a Speech szolgáltatásnak.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). A WAV-n és a PCM-en kívül a következő tömörített bemeneti formátumok is támogatottak a GStreameren keresztül:

MP3
OPUS/OGG
FLAC
ALAW a WAV-tárolóban
MULAW a WAV-tárolóban
BÁRMELY MP4-tárolóhoz vagy ismeretlen médiaformátumhoz

GStreamer-konfiguráció

A Speech SDK a GStreamer használatával kezelheti a tömörített hangokat. Licencelési okokból a GStreamer bináris fájljai nincsenek lefordítva és összekapcsolva a Speech SDK-val. Telepítenie kell néhány függőséget és beépülő modult.

A GStreamer bináris fájljainak a rendszer elérési útjának kell lenniük, hogy a Speech SDK futásidőben betölthesse őket. Windows rendszeren például, ha a Speech SDK futásidőben talál libgstreamer-1.0-0.dll vagy gstreamer-1.0-0.dll (a legújabb GStreamer esetén) azt jelenti, hogy a GStreamer bináris fájljai a rendszer elérési útján találhatók.

Válasszon egy platformot a telepítési utasításokhoz.

Linux
Windows

Több függőséget és beépülő modult kell telepítenie.

Ubuntu/Debian
RHEL/CentOS

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést. További információ: CentOS End Of Life útmutató.

sudo yum install gstreamer1 \
gstreamer1-plugins-base \
gstreamer1-plugins-good \
gstreamer1-plugins-bad-free \
gstreamer1-plugins-ugly-free

Feljegyzés

RHEL/CentOS 7 és RHEL/CentOS 8 esetén az "ANY" tömörített formátum használata esetén több GStreamer beépülő modult kell telepíteni, ha a stream médiaformátum beépülő modul nem szerepel az előző telepített beépülő modulokban.

További információ: Linux telepítési utasítások , támogatott Linux-disztribúciók és célarchitektúrák.

Győződjön meg arról, hogy az azonos platform (x64 vagy x86) csomagjai telepítve vannak. Ha például az x64-csomagot telepítette a Pythonhoz, telepítenie kell az x64 GStreamer-csomagot. Az alábbi utasítások az x64-csomagokhoz tartoznak.

Hozza létre a c:\gstreamer mappát.
Töltse le a telepítőt.
Másolja a telepítőt a c:\gstreamer fájlba.
Nyissa meg a PowerShellt rendszergazdaként.

Futtassa az alábbi parancsot a PowerShellben:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adja hozzá a rendszerváltozót GST_PLUGIN_PATH a "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" változó értékével.
Adja hozzá a rendszerváltozót GSTREAMER_ROOT_X86_64 a "C:\gstreamer\1.0\msvc_x86_64" változó értékével.
Szerkessze a rendszerváltozót PATH a "C:\gstreamer\1.0\msvc_x86_64\bin" új bejegyzésként való hozzáadásához.
Indítsa újra a gépet.

A GStreamerről további információt a Windows telepítési útmutatójában talál.

Példa

Ha a Speech SDK-t tömörített hangbemenet elfogadására szeretné konfigurálni, hozzon létre PullAudioInputStream vagy PushAudioInputStream. Ezután hozzon létre egy AudioConfig példányt a streamosztályból, amely meghatározza a stream tömörítési formátumát. Kapcsolódó kódrészletek keresése a Speech SDK hangbemeneti stream API-ban.

Tegyük fel, hogy egy bemeneti streamosztály van meghívva pullStream , és OPUS/OGG-t használ. A kód a következőképpen nézhet ki:

using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

// ... omitted for brevity

var speechConfig =
    SpeechConfig.FromSubscription(
        "YourSubscriptionKey",
        "YourServiceRegion");

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
var pullStream = AudioInputStream.CreatePullStream(
    AudioStreamFormat.GetCompressedFormat(AudioStreamContainerFormat.OGG_OPUS));
var audioConfig = AudioConfig.FromStreamInput(pullStream);

using var recognizer = new SpeechRecognizer(speechConfig, audioConfig);
var result = await recognizer.RecognizeOnceAsync();

var text = result.Text;

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

A Speech SDK és a Speech CLI a GStreamer használatával támogatja a különböző típusú bemeneti hangformátumokat. A GStreamer nyers PCM-ként bontja le a hangot, mielőtt a vezetéken keresztül elküldené a Speech szolgáltatásnak.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). A WAV-n és a PCM-en kívül a következő tömörített bemeneti formátumok is támogatottak a GStreameren keresztül:

MP3
OPUS/OGG
FLAC
ALAW a WAV-tárolóban
MULAW a WAV-tárolóban
BÁRMELY MP4-tárolóhoz vagy ismeretlen médiaformátumhoz

GStreamer-konfiguráció

A Speech SDK a GStreamer használatával kezelheti a tömörített hangokat. Licencelési okokból a GStreamer bináris fájljai nincsenek lefordítva és összekapcsolva a Speech SDK-val. Telepítenie kell néhány függőséget és beépülő modult.

A GStreamer bináris fájljainak a rendszer elérési útjának kell lenniük, hogy a Speech SDK futásidőben betölthesse őket. Windows rendszeren például, ha a Speech SDK futásidőben talál libgstreamer-1.0-0.dll vagy gstreamer-1.0-0.dll (a legújabb GStreamer esetén) azt jelenti, hogy a GStreamer bináris fájljai a rendszer elérési útján találhatók.

Válasszon egy platformot a telepítési utasításokhoz.

Linux
Windows

Több függőséget és beépülő modult kell telepítenie.

Ubuntu/Debian
RHEL/CentOS

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést. További információ: CentOS End Of Life útmutató.

sudo yum install gstreamer1 \
gstreamer1-plugins-base \
gstreamer1-plugins-good \
gstreamer1-plugins-bad-free \
gstreamer1-plugins-ugly-free

Feljegyzés

RHEL/CentOS 7 és RHEL/CentOS 8 esetén az "ANY" tömörített formátum használata esetén több GStreamer beépülő modult kell telepíteni, ha a stream médiaformátum beépülő modul nem szerepel az előző telepített beépülő modulokban.

További információ: Linux telepítési utasítások , támogatott Linux-disztribúciók és célarchitektúrák.

Győződjön meg arról, hogy az azonos platform (x64 vagy x86) csomagjai telepítve vannak. Ha például az x64-csomagot telepítette a Pythonhoz, telepítenie kell az x64 GStreamer-csomagot. Az alábbi utasítások az x64-csomagokhoz tartoznak.

Hozza létre a c:\gstreamer mappát.
Töltse le a telepítőt.
Másolja a telepítőt a c:\gstreamer fájlba.
Nyissa meg a PowerShellt rendszergazdaként.

Futtassa az alábbi parancsot a PowerShellben:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adja hozzá a rendszerváltozót GST_PLUGIN_PATH a "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" változó értékével.
Adja hozzá a rendszerváltozót GSTREAMER_ROOT_X86_64 a "C:\gstreamer\1.0\msvc_x86_64" változó értékével.
Szerkessze a rendszerváltozót PATH a "C:\gstreamer\1.0\msvc_x86_64\bin" új bejegyzésként való hozzáadásához.
Indítsa újra a gépet.

A GStreamerről további információt a Windows telepítési útmutatójában talál.

Példa

Ha a Speech SDK-t tömörített hangbemenet elfogadására szeretné konfigurálni, hozzon létre PullAudioInputStream vagy PushAudioInputStream. Ezután hozzon létre egy AudioConfig példányt a streamosztályból, amely meghatározza a stream tömörítési formátumát. Kapcsolódó mintakód keresése a Speech SDK-mintákban.

Tegyük fel, hogy egy bemeneti streamosztály van meghívva pushStream , és OPUS/OGG-t használ. A kód a következőképpen nézhet ki:

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

// ... omitted for brevity

 auto config =
    SpeechConfig::FromSubscription(
        "YourSubscriptionKey",
        "YourServiceRegion"
    );

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
auto pullStream = AudioInputStream::CreatePullStream(
    AudioStreamFormat::GetCompressedFormat(AudioStreamContainerFormat::OGG_OPUS));
auto audioConfig = AudioConfig::FromStreamInput(pullStream);

auto recognizer = SpeechRecognizer::FromConfig(config, audioConfig);
auto result = recognizer->RecognizeOnceAsync().get();

auto text = result->Text;

Referenciadokumentáció csomag (Go) | További minták a GitHubon |

A Speech SDK és a Speech CLI a GStreamer használatával támogatja a különböző típusú bemeneti hangformátumokat. A GStreamer nyers PCM-ként bontja le a hangot, mielőtt a vezetéken keresztül elküldené a Speech szolgáltatásnak.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). A WAV-n és a PCM-en kívül a következő tömörített bemeneti formátumok is támogatottak a GStreameren keresztül:

MP3
OPUS/OGG
FLAC
ALAW a WAV-tárolóban
MULAW a WAV-tárolóban
BÁRMELY MP4-tárolóhoz vagy ismeretlen médiaformátumhoz

GStreamer-konfiguráció

A Speech SDK a GStreamer használatával kezelheti a tömörített hangokat. Licencelési okokból a GStreamer bináris fájljai nincsenek lefordítva és összekapcsolva a Speech SDK-val. Telepítenie kell néhány függőséget és beépülő modult.

Több függőséget és beépülő modult kell telepítenie.

Ubuntu/Debian
RHEL/CentOS

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést. További információ: CentOS End Of Life útmutató.

sudo yum install gstreamer1 \
gstreamer1-plugins-base \
gstreamer1-plugins-good \
gstreamer1-plugins-bad-free \
gstreamer1-plugins-ugly-free

Feljegyzés

RHEL/CentOS 7 és RHEL/CentOS 8 esetén az "ANY" tömörített formátum használata esetén több GStreamer beépülő modult kell telepíteni, ha a stream médiaformátum beépülő modul nem szerepel az előző telepített beépülő modulokban.

További információ: Linux telepítési utasítások , támogatott Linux-disztribúciók és célarchitektúrák.

Példa

Ha a Speech SDK-t tömörített hangbemenet elfogadására szeretné konfigurálni, hozzon létre egy PullAudioInputStream vagy PushAudioInputStream. Ezután hozzon létre egy AudioConfig példányt a streamosztályból, amely meghatározza a stream tömörítési formátumát.

Az alábbi példában tegyük fel, hogy a használati eset egy tömörített fájlhoz használható PushStream .


package recognizer

import (
  "fmt"
  "time"
    "strings"

  "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
  "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
  "github.com/Microsoft/cognitive-services-speech-sdk-go/samples/helpers"
)

func RecognizeOnceFromCompressedFile(subscription string, region string, file string) {
  var containerFormat audio.AudioStreamContainerFormat
  if strings.Contains(file, ".mulaw") {
    containerFormat = audio.MULAW
  } else if strings.Contains(file, ".alaw") {
    containerFormat = audio.ALAW
  } else if strings.Contains(file, ".mp3") {
    containerFormat = audio.MP3
  } else if strings.Contains(file, ".flac") {
    containerFormat = audio.FLAC
  } else if strings.Contains(file, ".opus") {
    containerFormat = audio.OGGOPUS
  } else {
    containerFormat = audio.ANY
  }
  format, err := audio.GetCompressedFormat(containerFormat)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer format.Close()
  stream, err := audio.CreatePushAudioInputStreamFromFormat(format)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer stream.Close()
  audioConfig, err := audio.NewAudioConfigFromStreamInput(stream)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer audioConfig.Close()
  config, err := speech.NewSpeechConfigFromSubscription(subscription, region)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer config.Close()
  speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(config, audioConfig)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer speechRecognizer.Close()
  speechRecognizer.SessionStarted(func(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Started (ID=", event.SessionID, ")")
  })
  speechRecognizer.SessionStopped(func(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Stopped (ID=", event.SessionID, ")")
  })
  helpers.PumpFileIntoStream(file, stream)
  task := speechRecognizer.RecognizeOnceAsync()
  var outcome speech.SpeechRecognitionOutcome
  select {
  case outcome = <-task:
  case <-time.After(40 * time.Second):
    fmt.Println("Timed out")
    return
  }
  defer outcome.Close()
  if outcome.Error != nil {
    fmt.Println("Got an error: ", outcome.Error)
  }
  fmt.Println("Got a recognition!")
  fmt.Println(outcome.Result.Text)
}

Referenciadokumentáció | – További minták a GitHubon

A Speech SDK és a Speech CLI a GStreamer használatával támogatja a különböző típusú bemeneti hangformátumokat. A GStreamer nyers PCM-ként bontja le a hangot, mielőtt a vezetéken keresztül elküldené a Speech szolgáltatásnak.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). A WAV-n és a PCM-en kívül a következő tömörített bemeneti formátumok is támogatottak a GStreameren keresztül:

MP3
OPUS/OGG
FLAC
ALAW a WAV-tárolóban
MULAW a WAV-tárolóban
BÁRMELY MP4-tárolóhoz vagy ismeretlen médiaformátumhoz

GStreamer-konfiguráció

A Speech SDK a GStreamer használatával kezelheti a tömörített hangokat. Licencelési okokból a GStreamer bináris fájljai nincsenek lefordítva és összekapcsolva a Speech SDK-val. Telepítenie kell néhány függőséget és beépülő modult.

A GStreamer bináris fájljainak a rendszer elérési útjának kell lenniük, hogy a Speech SDK futásidőben betölthesse őket. Windows rendszeren például, ha a Speech SDK futásidőben talál libgstreamer-1.0-0.dll vagy gstreamer-1.0-0.dll (a legújabb GStreamer esetén) azt jelenti, hogy a GStreamer bináris fájljai a rendszer elérési útján találhatók.

Válasszon egy platformot a telepítési utasításokhoz.

A tömörített hang kezelése a GStreamerrel történik. Licencelési okokból a GStreamer bináris fájljai nincsenek lefordítva és összekapcsolva a Speech SDK-val. Ehelyett az androidos előre összeállított bináris fájlokat kell használnia. Az előre összeállított kódtárak letöltéséről az Android-fejlesztés telepítése című témakörben olvashat.

Az libgstreamer_android.so objektumra szükség van. Győződjön meg arról, hogy az összes GStreamer beépülő modul (a következő Android.mk fájlból) csatolva van.libgstreamer_android.so Ha a Speech SDK-t a GStreamer 1.18.3-s verziójával használja, libc++_shared.so az androidos NDK-ból is jelen kell lennie.

GSTREAMER_PLUGINS := coreelements app audioconvert mpg123 \
    audioresample audioparsers ogg opusparse \
    opus wavparse alaw mulaw flac

Itt talál egy példát Android.mk és Application.mk egy fájlt. A megosztott objektum létrehozásához kövesse az gstreamer alábbi lépéseket:libgstreamer_android.so

# Android.mk
LOCAL_PATH := $(call my-dir)

include $(CLEAR_VARS)

LOCAL_MODULE    := dummy
LOCAL_SHARED_LIBRARIES := gstreamer_android
include $(BUILD_SHARED_LIBRARY)

ifndef GSTREAMER_ROOT_ANDROID
$(error GSTREAMER_ROOT_ANDROID is not defined!)
endif

ifndef APP_BUILD_SCRIPT
$(error APP_BUILD_SCRIPT is not defined!)
endif

ifndef TARGET_ARCH_ABI
$(error TARGET_ARCH_ABI is not defined!)
endif

ifeq ($(TARGET_ARCH_ABI),armeabi)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/arm
else ifeq ($(TARGET_ARCH_ABI),armeabi-v7a)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/armv7
else ifeq ($(TARGET_ARCH_ABI),arm64-v8a)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/arm64
else ifeq ($(TARGET_ARCH_ABI),x86)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/x86
else ifeq ($(TARGET_ARCH_ABI),x86_64)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/x86_64
else
$(error Target arch ABI not supported: $(TARGET_ARCH_ABI))
endif

GSTREAMER_NDK_BUILD_PATH  := $(GSTREAMER_ROOT)/share/gst-android/ndk-build/
include $(GSTREAMER_NDK_BUILD_PATH)/plugins.mk
GSTREAMER_PLUGINS         :=  $(GSTREAMER_PLUGINS_CORE) \ 
                              $(GSTREAMER_PLUGINS_CODECS) \ 
                              $(GSTREAMER_PLUGINS_PLAYBACK) \
                              $(GSTREAMER_PLUGINS_CODECS_GPL) \
                              $(GSTREAMER_PLUGINS_CODECS_RESTRICTED)
GSTREAMER_EXTRA_LIBS      := -liconv -lgstbase-1.0 -lGLESv2 -lEGL
include $(GSTREAMER_NDK_BUILD_PATH)/gstreamer-1.0.mk

# Application.mk
APP_STL = c++_shared
APP_PLATFORM = android-21
APP_BUILD_SCRIPT = Android.mk

A buildeléshez libgstreamer_android.so használja az alábbi parancsot az Ubuntu 18.04-en vagy 20.04-en. A következő parancssorokat teszteltük az [GStreamer Android 1.14.4-es verziójához] az Android NDK b16b használatával .

# Assuming wget and unzip are already installed on the system
mkdir buildLibGstreamer
cd buildLibGstreamer
wget https://dl.google.com/android/repository/android-ndk-r16b-linux-x86_64.zip
unzip -q -o android-ndk-r16b-linux-x86_64.zip
export PATH=$PATH:$(pwd)/android-ndk-r16b
export NDK_PROJECT_PATH=$(pwd)/android-ndk-r16b
wget https://gstreamer.freedesktop.org/download/
mkdir gstreamer_android
tar -xjf gstreamer-1.0-android-universal-1.14.4.tar.bz2 -C $(pwd)/gstreamer_android/
export GSTREAMER_ROOT_ANDROID=$(pwd)/gstreamer_android

mkdir gstreamer
# Copy the Application.mk and Android.mk from the documentation above and put it inside $(pwd)/gstreamer

# Enable only one of the following at one time to create the shared object for the targeted ABI
echo "building for armeabi-v7a. libgstreamer_android.so will be placed in $(pwd)/armeabi-v7a"
ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=armeabi-v7a NDK_LIBS_OUT=$(pwd)

#echo "building for arm64-v8a. libgstreamer_android.so will be placed in $(pwd)/arm64-v8a"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=arm64-v8a NDK_LIBS_OUT=$(pwd)

#echo "building for x86_64. libgstreamer_android.so will be placed in $(pwd)/x86_64"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=x86_64 NDK_LIBS_OUT=$(pwd)

#echo "building for x86. libgstreamer_android.so will be placed in $(pwd)/x86"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=x86 NDK_LIBS_OUT=$(pwd)

A megosztott objektum (libgstreamer_android.so) létrehozása után helyezze a megosztott objektumot az Android alkalmazásba, hogy a Speech SDK betölthesse.

Több függőséget és beépülő modult kell telepítenie.

Ubuntu/Debian
RHEL/CentOS

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést. További információ: CentOS End Of Life útmutató.

sudo yum install gstreamer1 \
gstreamer1-plugins-base \
gstreamer1-plugins-good \
gstreamer1-plugins-bad-free \
gstreamer1-plugins-ugly-free

Feljegyzés

RHEL/CentOS 7 és RHEL/CentOS 8 esetén az "ANY" tömörített formátum használata esetén több GStreamer beépülő modult kell telepíteni, ha a stream médiaformátum beépülő modul nem szerepel az előző telepített beépülő modulokban.

További információ: Linux telepítési utasítások , támogatott Linux-disztribúciók és célarchitektúrák.

Győződjön meg arról, hogy az azonos platform (x64 vagy x86) csomagjai telepítve vannak. Ha például az x64-csomagot telepítette a Pythonhoz, telepítenie kell az x64 GStreamer-csomagot. Az alábbi utasítások az x64-csomagokhoz tartoznak.

Hozza létre a c:\gstreamer mappát.
Töltse le a telepítőt.
Másolja a telepítőt a c:\gstreamer fájlba.
Nyissa meg a PowerShellt rendszergazdaként.

Futtassa az alábbi parancsot a PowerShellben:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adja hozzá a rendszerváltozót GST_PLUGIN_PATH a "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" változó értékével.
Adja hozzá a rendszerváltozót GSTREAMER_ROOT_X86_64 a "C:\gstreamer\1.0\msvc_x86_64" változó értékével.
Szerkessze a rendszerváltozót PATH a "C:\gstreamer\1.0\msvc_x86_64\bin" új bejegyzésként való hozzáadásához.
Indítsa újra a gépet.

A GStreamerről további információt a Windows telepítési útmutatójában talál.

Példa

Ha a Speech SDK-t tömörített hangbemenet elfogadására szeretné konfigurálni, hozzon létre egy PullAudioInputStream vagy PushAudioInputStream. Ezután hozzon létre egy AudioConfig példányt a streamosztályból, amely meghatározza a stream tömörítési formátumát. Kapcsolódó mintakód keresése a Speech SDK-mintákban.

Tegyük fel, hogy van egy bemeneti streamosztálya, amely mp3-at pullAudio használ. A kód a következőképpen nézhet ki:

String filePath = "whatstheweatherlike.mp3";
PullAudioInputStream pullAudio = AudioInputStream.createPullStream(new BinaryAudioStreamReader(filePath),
    AudioStreamFormat.getCompressedFormat(AudioStreamContainerFormat.MP3));
AudioConfig audioConfig = AudioConfig.fromStreamInput(pullAudio);

Referenciadokumentáció csomag (npm) | További minták a GitHub | Library forráskódján |

A JavaScripthez készült Speech SDK nem támogatja a tömörített hangot.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). Tömörített hangfájl (például mp3) bemenetéhez először WAV-fájllá kell konvertálnia az alapértelmezett bemeneti formátumban. A tömörített hang streameléséhez először az alapértelmezett bemeneti formátumra kell dekódolnia a hangpuffereket. További információ: A hangbemeneti adatfolyam használata.

Referenciadokumentáció csomag (Letöltés) | További minták a GitHubon |

Az Objective-C-hez készült Speech SDK nem támogatja a tömörített hangot.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). Tömörített hangfájl (például mp3) bemenetéhez először WAV-fájllá kell konvertálnia az alapértelmezett bemeneti formátumban. A tömörített hang streameléséhez először az alapértelmezett bemeneti formátumra kell dekódolnia a hangpuffereket. További információ: A hangbemeneti adatfolyam használata.

Referenciadokumentáció csomag (Letöltés) | További minták a GitHubon |

A Speech SDK for Swift nem támogatja a tömörített hangot.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). Tömörített hangfájl (például mp3) bemenetéhez először WAV-fájllá kell konvertálnia az alapértelmezett bemeneti formátumban. A tömörített hang streameléséhez először az alapértelmezett bemeneti formátumra kell dekódolnia a hangpuffereket. További információ: A hangbemeneti adatfolyam használata.

Referenciadokumentáció-csomag (PyPi) | További minták a GitHubon |

A Speech SDK és a Speech CLI a GStreamer használatával támogatja a különböző típusú bemeneti hangformátumokat. A GStreamer nyers PCM-ként bontja le a hangot, mielőtt a vezetéken keresztül elküldené a Speech szolgáltatásnak.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). A WAV-n és a PCM-en kívül a következő tömörített bemeneti formátumok is támogatottak a GStreameren keresztül:

MP3
OPUS/OGG
FLAC
ALAW a WAV-tárolóban
MULAW a WAV-tárolóban
BÁRMELY MP4-tárolóhoz vagy ismeretlen médiaformátumhoz

GStreamer-konfiguráció

A Speech SDK a GStreamer használatával kezelheti a tömörített hangokat. Licencelési okokból a GStreamer bináris fájljai nincsenek lefordítva és összekapcsolva a Speech SDK-val. Telepítenie kell néhány függőséget és beépülő modult.

A GStreamer bináris fájljainak a rendszer elérési útjának kell lenniük, hogy a Speech SDK futásidőben betölthesse őket. Windows rendszeren például, ha a Speech SDK futásidőben talál libgstreamer-1.0-0.dll vagy gstreamer-1.0-0.dll (a legújabb GStreamer esetén) azt jelenti, hogy a GStreamer bináris fájljai a rendszer elérési útján találhatók.

Válasszon egy platformot a telepítési utasításokhoz.

Linux
Windows

Több függőséget és beépülő modult kell telepítenie.

Ubuntu/Debian
RHEL/CentOS

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést. További információ: CentOS End Of Life útmutató.

sudo yum install gstreamer1 \
gstreamer1-plugins-base \
gstreamer1-plugins-good \
gstreamer1-plugins-bad-free \
gstreamer1-plugins-ugly-free

Feljegyzés

RHEL/CentOS 7 és RHEL/CentOS 8 esetén az "ANY" tömörített formátum használata esetén több GStreamer beépülő modult kell telepíteni, ha a stream médiaformátum beépülő modul nem szerepel az előző telepített beépülő modulokban.

További információ: Linux telepítési utasítások , támogatott Linux-disztribúciók és célarchitektúrák.

Győződjön meg arról, hogy az azonos platform (x64 vagy x86) csomagjai telepítve vannak. Ha például az x64-csomagot telepítette a Pythonhoz, telepítenie kell az x64 GStreamer-csomagot. Az alábbi utasítások az x64-csomagokhoz tartoznak.

Hozza létre a c:\gstreamer mappát.
Töltse le a telepítőt.
Másolja a telepítőt a c:\gstreamer fájlba.
Nyissa meg a PowerShellt rendszergazdaként.

Futtassa az alábbi parancsot a PowerShellben:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adja hozzá a rendszerváltozót GST_PLUGIN_PATH a "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" változó értékével.
Adja hozzá a rendszerváltozót GSTREAMER_ROOT_X86_64 a "C:\gstreamer\1.0\msvc_x86_64" változó értékével.
Szerkessze a rendszerváltozót PATH a "C:\gstreamer\1.0\msvc_x86_64\bin" új bejegyzésként való hozzáadásához.
Indítsa újra a gépet.

A GStreamerről további információt a Windows telepítési útmutatójában talál.

Példa

Ha a Speech SDK-t tömörített hangbemenet elfogadására szeretné konfigurálni, hozzon létre PullAudioInputStream vagy PushAudioInputStream. Ezután hozzon létre egy AudioConfig példányt a streamosztályból, amely meghatározza a stream tömörítési formátumát.

Tegyük fel, hogy a használati eset egy MP3 fájlhoz használhatóPullStream. A kód a következőképpen nézhet ki:


import azure.cognitiveservices.speech as speechsdk

class BinaryFileReaderCallback(speechsdk.audio.PullAudioInputStreamCallback):
    def __init__(self, filename: str):
        super().__init__()
        self._file_h = open(filename, "rb")

    def read(self, buffer: memoryview) -> int:
        print('trying to read {} frames'.format(buffer.nbytes))
        try:
            size = buffer.nbytes
            frames = self._file_h.read(size)

            buffer[:len(frames)] = frames
            print('read {} frames'.format(len(frames)))

            return len(frames)
        except Exception as ex:
            print('Exception in `read`: {}'.format(ex))
            raise

    def close(self) -> None:
        print('closing file')
        try:
            self._file_h.close()
        except Exception as ex:
            print('Exception in `close`: {}'.format(ex))
            raise

def compressed_stream_helper(compressed_format,
        mp3_file_path,
        default_speech_auth):
    callback = BinaryFileReaderCallback(mp3_file_path)
    stream = speechsdk.audio.PullAudioInputStream(stream_format=compressed_format, pull_stream_callback=callback)

    speech_config = speechsdk.SpeechConfig(**default_speech_auth)
    audio_config = speechsdk.audio.AudioConfig(stream=stream)

    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    done = False

    def stop_cb(evt):
        """callback that signals to stop continuous recognition upon receiving an event `evt`"""
        print('CLOSING on {}'.format(evt))
        nonlocal done
        done = True

    # Connect callbacks to the events fired by the speech recognizer
    speech_recognizer.recognizing.connect(lambda evt: print('RECOGNIZING: {}'.format(evt)))
    speech_recognizer.recognized.connect(lambda evt: print('RECOGNIZED: {}'.format(evt)))
    speech_recognizer.session_started.connect(lambda evt: print('SESSION STARTED: {}'.format(evt)))
    speech_recognizer.session_stopped.connect(lambda evt: print('SESSION STOPPED {}'.format(evt)))
    speech_recognizer.canceled.connect(lambda evt: print('CANCELED {}'.format(evt)))
    # stop continuous recognition on either session stopped or canceled events
    speech_recognizer.session_stopped.connect(stop_cb)
    speech_recognizer.canceled.connect(stop_cb)

    # Start continuous speech recognition
    speech_recognizer.start_continuous_recognition()
    while not done:
        time.sleep(.5)

    speech_recognizer.stop_continuous_recognition()

def pull_audio_input_stream_compressed_mp3(mp3_file_path: str,
        default_speech_auth):
    # Create a compressed format
    compressed_format = speechsdk.audio.AudioStreamFormat(compressed_stream_format=speechsdk.AudioStreamContainerFormat.MP3)
    compressed_stream_helper(compressed_format, mp3_file_path, default_speech_auth)

Speech to text REST API reference | Speech to text REST API for short audio reference | Additional Samples on GitHub

A REST API-t használhatja a tömörített hanganyagokhoz, de itt még nem tartalmaztunk útmutatót. Az első lépésekhez és a fogalmak megismeréséhez válasszon egy másik programozási nyelvet.

A Speech SDK és a Speech CLI a GStreamer használatával támogatja a különböző típusú bemeneti hangformátumokat. A GStreamer nyers PCM-ként bontja le a hangot, mielőtt a vezetéken keresztül elküldené a Speech szolgáltatásnak.

Az alapértelmezett hangstreamelési formátum a WAV (16 kHz vagy 8 kHz, 16 bites és mono PCM). A WAV-n és a PCM-en kívül a következő tömörített bemeneti formátumok is támogatottak a GStreameren keresztül:

MP3
OPUS/OGG
FLAC
ALAW a WAV-tárolóban
MULAW a WAV-tárolóban
BÁRMELY MP4-tárolóhoz vagy ismeretlen médiaformátumhoz

GStreamer-konfiguráció

A Speech CLI a GStreamer használatával kezelheti a tömörített hangokat. Licencelési okokból a GStreamer bináris fájljai nincsenek lefordítva és összekapcsolva a Speech CLI-vel. Telepítenie kell néhány függőséget és beépülő modult.

A GStreamer bináris fájljainak a rendszer elérési útjának kell lenniük, hogy a Speech CLI futásidőben betölthesse őket. Windows rendszeren például, ha a Speech CLI megkeresi libgstreamer-1.0-0.dll vagy gstreamer-1.0-0.dll (a legújabb GStreamer esetében) futásidőben, az azt jelenti, hogy a GStreamer bináris fájljai a rendszer elérési útján találhatók.

Válasszon egy platformot a telepítési utasításokhoz.

Linux
Windows

Több függőséget és beépülő modult kell telepítenie.

Ubuntu/Debian
RHEL/CentOS

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést. További információ: CentOS End Of Life útmutató.

sudo yum install gstreamer1 \
gstreamer1-plugins-base \
gstreamer1-plugins-good \
gstreamer1-plugins-bad-free \
gstreamer1-plugins-ugly-free

Feljegyzés

RHEL/CentOS 7 és RHEL/CentOS 8 esetén az "ANY" tömörített formátum használata esetén több GStreamer beépülő modult kell telepíteni, ha a stream médiaformátum beépülő modul nem szerepel az előző telepített beépülő modulokban.

További információ: Linux telepítési utasítások , támogatott Linux-disztribúciók és célarchitektúrák.

Győződjön meg arról, hogy az azonos platform (x64 vagy x86) csomagjai telepítve vannak. Ha például az x64-csomagot telepítette a Pythonhoz, telepítenie kell az x64 GStreamer-csomagot. Az alábbi utasítások az x64-csomagokhoz tartoznak.

Hozza létre a c:\gstreamer mappát.
Töltse le a telepítőt.
Másolja a telepítőt a c:\gstreamer fájlba.
Nyissa meg a PowerShellt rendszergazdaként.

Futtassa az alábbi parancsot a PowerShellben:

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

Adja hozzá a rendszerváltozót GST_PLUGIN_PATH a "C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0" változó értékével.
Adja hozzá a rendszerváltozót GSTREAMER_ROOT_X86_64 a "C:\gstreamer\1.0\msvc_x86_64" változó értékével.
Szerkessze a rendszerváltozót PATH a "C:\gstreamer\1.0\msvc_x86_64\bin" új bejegyzésként való hozzáadásához.
Indítsa újra a gépet.

A GStreamerről további információt a Windows telepítési útmutatójában talál.

Példa

A --format beállítás megadja a felismert hangfájl tárolóformátumát. Mp4-fájl esetén állítsa a formátumot any az alábbi parancsban látható módon:

Terminál
PowerShell

spx recognize --file YourAudioFile.mp4 --format any

spx --% recognize --file YourAudioFile.mp4 --format any

A támogatott hangformátumok listájának lekéréséhez futtassa a következő parancsot:

Terminál
PowerShell

spx help recognize format

spx help recognize format

GStreamer-konfiguráció

Példa

GStreamer-konfiguráció

Példa

GStreamer-konfiguráció

Példa

GStreamer-konfiguráció

Példa

GStreamer-konfiguráció

Példa

GStreamer-konfiguráció

Példa

Következő lépések

További források