Zamiana mowy na tekst — często zadawane pytania

Ten artykuł zawiera odpowiedzi na często zadawane pytania dotyczące usługi zamiany mowy na tekst. Jeśli nie możesz znaleźć tutaj odpowiedzi na swoje pytania, zapoznaj się z innymi opcjami pomocy technicznej.

Ogólne

Jaka jest różnica między modelem bazowym a niestandardowym modelem zamiany mowy na tekst?

Model zamiany mowy na tekst wg planu bazowego jest trenowany przy użyciu danych należących do firmy Microsoft i jest już wdrożony w chmurze. Możesz utworzyć i użyć modelu niestandardowego, aby lepiej dopasować środowisko o określonym szumie otoczenia lub języku. Podłogi fabryki, samochody lub hałaśliwe ulice wymagają dostosowanego modelu akustycznego. Tematy, takie jak biologia, fizyka, radiologia, nazwy produktów i niestandardowe akronimy, wymagają dostosowanego modelu językowego. Jeśli chcesz wytrenować model niestandardowy, zacznij od powiązanego tekstu, aby poprawić rozpoznawanie terminów i fraz specjalnych.

Gdzie zacząć, jeśli chcę użyć modelu podstawowego?

Najpierw uzyskaj klucz zasobu usługi Mowa i region w witrynie Azure Portal. Jeśli chcesz wykonywać wywołania REST do wstępnie wdrożonego modelu podstawowego, zapoznaj się z dokumentacją interfejsów API REST. Jeśli chcesz użyć obiektów WebSocket, pobierz zestaw SDK usługi Mowa.

Czy zawsze muszę utworzyć niestandardowy model mowy?

L.p. Jeśli aplikacja używa ogólnego, codziennego języka, nie musisz dostosowywać modelu. Jeśli aplikacja jest używana w środowisku, w którym występuje mały lub nie ma szumu w tle, nie musisz dostosowywać modelu.

W portalu można wdrażać modele bazowe i dostosowane, a następnie uruchamiać testy dokładności względem nich. Za pomocą tej funkcji można zmierzyć dokładność modelu podstawowego w porównaniu z modelem niestandardowym.

Jak mogę wiedzieć, kiedy przetwarzanie mojego zestawu danych lub modelu zostało ukończone?

Obecnie jedynym sposobem poznania jest wyświetlenie stanu modelu lub zestawu danych w tabeli. Po zakończeniu przetwarzania stan to Powodzenie.

Czy mogę utworzyć więcej niż jeden model?

Nie ma limitu liczby modeli, które można mieć w kolekcji.

Zdałem sobie sprawę, że popełniłem błąd. Jak mogę anulować importowanie danych lub tworzenie modelu, które jest w toku?

Obecnie nie można wycofać procesu adaptacji akustycznej ani językowej. Zaimportowane dane i modele można usunąć, gdy są w stanie terminalu.

Otrzymuję kilka wyników dla każdej frazy ze szczegółowym formatem danych wyjściowych. Którego z nich należy użyć?

Zawsze weź pierwszy wynik, nawet jeśli inny wynik ("N-Best") może mieć wyższą wartość ufności. Usługa rozpoznawania mowy uważa, że pierwszy wynik jest najlepszy. Wynik może być również pustym ciągiem, jeśli nie rozpoznano mowy.

Inne wyniki są prawdopodobnie gorsze i mogą nie mieć zastosowania pełnej liczby liter i interpunkcji. Te wyniki są najbardziej przydatne w specjalnych scenariuszach, takich jak nadanie użytkownikom opcji wybierania poprawek z listy lub obsługi niepoprawnie rozpoznanych poleceń.

Dlaczego istnieje wiele modeli podstawowych?

Możesz wybrać spośród więcej niż jednego podstawowego modelu w usłudze Mowa. Każda nazwa modelu zawiera datę dodania. Po rozpoczęciu trenowania modelu niestandardowego użyj najnowszego modelu, aby uzyskać najlepszą dokładność. Starsze modele podstawowe są nadal dostępne przez jakiś czas po udostępnieniu nowego modelu. Możesz nadal korzystać z modelu, z którym pracowaliśmy, dopóki nie zostanie wycofany (zobacz Cykl życia modelu i punktu końcowego). Nadal zalecamy przejście do najnowszego modelu podstawowego w celu uzyskania lepszej dokładności.

Czy mogę zaktualizować istniejący model (stos modelu)?

Nie można zaktualizować istniejącego modelu. Jako rozwiązanie połącz stary zestaw danych z nowym zestawem danych i odczytem.

Stary zestaw danych i nowy zestaw danych muszą być łączone w jednym pliku .zip (dla danych akustycznych) lub w pliku .txt (dla danych językowych). Po zakończeniu adaptacji ponownie wdróż nowy, zaktualizowany model w celu uzyskania nowego punktu końcowego.

Kiedy jest dostępna nowa wersja modelu podstawowego, czy moje wdrożenie jest automatycznie aktualizowane?

Wdrożenia nieaktualizowane automatycznie.

Jeśli model został dostosowany i wdrożony, istniejące wdrożenie pozostanie w takiej postaci. Możesz zlikwidować wdrożony model, odczytać go przy użyciu nowszej wersji modelu podstawowego i wdrożyć go ponownie, aby uzyskać lepszą dokładność.

Zarówno modele podstawowe, jak i modele niestandardowe są wycofywały się po pewnym czasie (zobacz Cykl życia modelu i punktu końcowego).

Czy mogę pobrać model i uruchomić go lokalnie?

Model niestandardowy można uruchomić lokalnie w kontenerze platformy Docker.

Czy mogę skopiować lub przenieść moje zestawy danych, modele i wdrożenia do innego regionu lub subskrypcji?

Interfejs API REST Models_Copy umożliwia skopiowanie modelu niestandardowego do innego regionu lub subskrypcji. Nie można skopiować zestawów danych i wdrożeń. Zestaw danych można zaimportować ponownie w innej subskrypcji i utworzyć tam punkty końcowe przy użyciu kopii modelu.

Czy moje żądania są rejestrowane?

Domyślnie żądania nie są rejestrowane (ani audio, ani transkrypcja). W razie potrzeby możesz wybrać opcję Zawartość dziennika z tego punktu końcowego podczas tworzenia niestandardowego punktu końcowego. Możesz również włączyć rejestrowanie audio w zestawie SDK usługi Mowa dla poszczególnych żądań bez konieczności tworzenia niestandardowego punktu końcowego. W obu przypadkach wyniki audio i rozpoznawania żądań będą przechowywane w bezpiecznym magazynie. Subskrypcje korzystające z magazynu należącego do firmy Microsoft są dostępne przez 30 dni.

Zarejestrowane pliki można wyeksportować na stronie wdrożenia w programie Speech Studio, jeśli używasz niestandardowego punktu końcowego z włączoną zawartością dziennika z tego punktu końcowego . Jeśli rejestrowanie audio jest włączone za pośrednictwem zestawu SDK, wywołaj interfejs API, aby uzyskać dostęp do plików. Możesz również użyć interfejsu API, aby usunąć dzienniki w dowolnym momencie.

Czy moje żądania są ograniczane?

Aby uzyskać informacje, zobacz Limity przydziału i limity usługi mowa.

Jak są naliczane opłaty za dźwięk dwukanałowy?

Jeśli przesyłasz każdy kanał oddzielnie w swoim pliku, opłata jest naliczana za czas trwania dźwięku każdego pliku. W przypadku przesyłania pojedynczego pliku z kanałami multipleksowanych razem opłaty są naliczane za czas trwania pojedynczego pliku. Aby uzyskać więcej informacji na temat cen, zobacz stronę cennika usług Azure AI.

Ważne

Jeśli masz dodatkowe obawy dotyczące prywatności, które uniemożliwiają korzystanie z niestandardowej usługi mowa, skontaktuj się z jednym z kanałów pomocy technicznej.

Zwiększanie współbieżności

Aby uzyskać informacje, zobacz Limity przydziału i limity usługi mowa.

Importowanie danych

Jaki jest limit rozmiaru zestawu danych i dlaczego jest to limit?

Limit jest spowodowany ograniczeniem rozmiaru plików do przekazywania HTTP. Aby uzyskać rzeczywisty limit, zobacz Limity przydziałów i limity usługi mowa. Możesz podzielić dane na wiele zestawów danych i wybrać wszystkie, aby wytrenować model.

Czy mogę spakować (kompresować) pliki tekstowe, aby móc przekazać większy plik tekstowy?

L.p. Obecnie dozwolone są tylko nieskompresowane pliki tekstowe.

Raport danych mówi, że wypowiedzi nie powiodły się. Na czym polega problem?

Nie można przekazać 100 procent wypowiedzi w pliku, nie jest problemem. Jeśli większość wypowiedzi w zestawie danych akustycznych lub językowych (na przykład ponad 95 procent) zostanie pomyślnie zaimportowana, zestaw danych może być używany. Jednak nadal zalecamy, aby spróbować zrozumieć, dlaczego wypowiedzi nie powiodły się, a następnie rozwiązać problem. Najczęstsze problemy, takie jak błędy formatowania, są łatwe do rozwiązania.

Tworzenie modelu akustycznego

Ile danych akustycznych potrzebuję?

Zalecamy rozpoczęcie od 30 minut do 1 godziny danych akustycznych.

Jakie dane należy zebrać?

Zbierz dane, które są tak blisko scenariusza aplikacji, jak i przypadków użycia, jak to możliwe. Zbieranie danych powinno być zgodne z docelową aplikacją i użytkownikami pod względem urządzeń lub urządzeń, środowisk i typów głośników. Ogólnie rzecz biorąc, należy zbierać dane z jak najszerszego zakresu osób mówiących.

Jak zbierać dane akustyczne?

Możesz utworzyć autonomiczną aplikację do zbierania danych lub użyć gotowego oprogramowania do nagrywania dźwięku. Możesz również utworzyć wersję aplikacji, która rejestruje dane audio, a następnie używa danych.

Czy muszę samodzielnie transkrybować dane adaptacyjne?

Tak. Możesz go transkrybować samodzielnie lub użyć profesjonalnej usługi transkrypcji. Niektórzy użytkownicy wolą profesjonalnych transkrypcji, a inni używają crowdsourcingu lub transkrypcji samych danych.

Jak długo trwa trenowanie modelu niestandardowego przy użyciu danych audio?

Trenowanie modelu przy użyciu danych audio może być długotrwałym procesem. W zależności od ilości danych utworzenie modelu niestandardowego może potrwać kilka dni. Jeśli nie można go ukończyć w ciągu jednego tygodnia, usługa może przerwać operację trenowania i zgłosić model jako niepowodzenie.

Ogólnie rzecz biorąc, usługa rozpoznawania mowy przetwarza około 10 godzin danych audio dziennie w regionach, w których dedykowany sprzęt. Może przetwarzać tylko około 1 godziny danych audio dziennie w innych regionach. Trenowanie przy użyciu tekstu jest szybsze i zwykle kończy się w ciągu kilku minut.

Użyj jednego z regionów, w których dedykowany sprzęt jest dostępny do trenowania. Usługa mowa używa do 20 godzin dźwięku do trenowania w tych regionach. W innych regionach usługa rozpoznawania mowy używa do 8 godzin.

Testowanie dokładności

Co to jest szybkość błędów słów (WER) i jak jest obliczana?

WER to metryka oceny rozpoznawania mowy. Usługa WER jest obliczana jako łączna liczba błędów (wstawiania, usuwania i podstawiania) podzielona przez łączną liczbę wyrazów w transkrypcji odwołania. Aby uzyskać więcej informacji, zobacz Test model ilościowo.

Jak mogę ustalić, czy wyniki testu dokładności są dobre?

Wyniki pokazują porównanie modelu podstawowego i dostosowanego modelu. Aby dokonać dostosowania, należy dążyć do pokonania modelu podstawowego.

Jak mogę określić WER modelu podstawowego, aby sprawdzić, czy został on ulepszony?

Wyniki testu offline pokazują dokładność linii bazowej modelu niestandardowego i poprawę w stosunku do planu bazowego.

Tworzenie modelu językowego

Ile danych tekstowych muszę przekazać?

Zależy to od tego, jak różni się słownictwo i frazy używane w aplikacji od początkowych modeli językowych. Dla wszystkich nowych słów warto podać jak najwięcej przykładów użycia tych słów. W przypadku typowych fraz używanych w aplikacji, w tym fraz w danych językowych, podanie wielu przykładów jest przydatne, ponieważ nakazuje systemowi nasłuchiwanie tych terminów. Zazwyczaj w zestawie danych językowych występuje co najmniej 100 i zwykle kilkaset lub więcej wypowiedzi. Ponadto jeśli niektóre typy zapytań będą bardziej powszechne niż inne, możesz wstawić wiele kopii typowych zapytań w zestawie danych.

Czy mogę po prostu przekazać listę wyrazów?

Przekazanie listy słów dodaje je do słownictwa, ale nie uczy systemu, w jaki sposób słowa są zwykle używane. Podając pełne lub częściowe wypowiedzi (zdania lub frazy rzeczy, które użytkownicy mogą powiedzieć), model językowy może nauczyć się nowych słów i sposobu ich użycia. Niestandardowy model językowy jest dobry nie tylko do dodawania nowych wyrazów do systemu, ale także do dostosowywania prawdopodobieństwa znanych słów dla aplikacji. Zapewnienie pełnych wypowiedzi pomaga systemowi lepiej uczyć się.