Question 1

Jaka jest różnica między modelem bazowym a niestandardowym modelem zamiany mowy na tekst?

Accepted Answer

Model zamiany mowy na tekst wg planu bazowego jest trenowany przy użyciu danych należących do firmy Microsoft i jest już wdrożony w chmurze. Możesz utworzyć i użyć modelu niestandardowego, aby lepiej dopasować środowisko o określonym szumie otoczenia lub języku. Podłogi fabryki, samochody lub hałaśliwe ulice wymagają dostosowanego modelu akustycznego. Tematy, takie jak biologia, fizyka, radiologia, nazwy produktów i niestandardowe akronimy, wymagają dostosowanego modelu językowego. Jeśli chcesz wytrenować model niestandardowy, zacznij od powiązanego tekstu, aby poprawić rozpoznawanie terminów i fraz specjalnych.

Question 2

Gdzie zacząć, jeśli chcę użyć modelu podstawowego?

Accepted Answer

Najpierw uzyskaj klucz zasobu usługi Mowa i region w witrynie Azure Portal. Jeśli chcesz wykonywać wywołania REST do wstępnie wdrożonego modelu podstawowego, zapoznaj się z dokumentacją interfejsów API REST. Jeśli chcesz użyć obiektów WebSocket, pobierz zestaw SDK usługi Mowa.

Question 3

Czy zawsze muszę utworzyć niestandardowy model mowy?

Accepted Answer

L.p. Jeśli aplikacja używa ogólnego, codziennego języka, nie musisz dostosowywać modelu. Jeśli aplikacja jest używana w środowisku, w którym występuje mały lub nie ma szumu w tle, nie musisz dostosowywać modelu.

W portalu można wdrażać modele bazowe i dostosowane, a następnie uruchamiać testy dokładności względem nich. Za pomocą tej funkcji można zmierzyć dokładność modelu podstawowego w porównaniu z modelem niestandardowym.

Question 4

Jak mogę wiedzieć, kiedy przetwarzanie mojego zestawu danych lub modelu zostało ukończone?

Accepted Answer

Obecnie jedynym sposobem poznania jest wyświetlenie stanu modelu lub zestawu danych w tabeli. Po zakończeniu przetwarzania stan to Powodzenie.

Question 5

Czy mogę utworzyć więcej niż jeden model?

Accepted Answer

Nie ma limitu liczby modeli, które można mieć w kolekcji.

Question 6

Zdałem sobie sprawę, że popełniłem błąd. Jak mogę anulować importowanie danych lub tworzenie modelu, które jest w toku?

Accepted Answer

Obecnie nie można wycofać procesu adaptacji akustycznej ani językowej. Zaimportowane dane i modele można usunąć, gdy są w stanie terminalu.

Question 7

Otrzymuję kilka wyników dla każdej frazy ze szczegółowym formatem danych wyjściowych. Którego z nich należy użyć?

Accepted Answer

Zawsze weź pierwszy wynik, nawet jeśli inny wynik ("N-Best") może mieć wyższą wartość ufności. Usługa rozpoznawania mowy uważa, że pierwszy wynik jest najlepszy. Wynik może być również pustym ciągiem, jeśli nie rozpoznano mowy.

Inne wyniki są prawdopodobnie gorsze i mogą nie mieć zastosowania pełnej liczby liter i interpunkcji. Te wyniki są najbardziej przydatne w specjalnych scenariuszach, takich jak nadanie użytkownikom opcji wybierania poprawek z listy lub obsługi niepoprawnie rozpoznanych poleceń.

Question 8

Dlaczego istnieje wiele modeli podstawowych?

Accepted Answer

Możesz wybrać spośród więcej niż jednego podstawowego modelu w usłudze Mowa. Każda nazwa modelu zawiera datę dodania. Po rozpoczęciu trenowania modelu niestandardowego użyj najnowszego modelu, aby uzyskać najlepszą dokładność. Starsze modele podstawowe są nadal dostępne przez jakiś czas po udostępnieniu nowego modelu. Możesz nadal korzystać z modelu, z którym pracowaliśmy, dopóki nie zostanie wycofany (zobacz Cykl życia modelu i punktu końcowego). Nadal zalecamy przejście do najnowszego modelu podstawowego w celu uzyskania lepszej dokładności.

Question 9

Czy mogę zaktualizować istniejący model (stos modelu)?

Accepted Answer

Nie można zaktualizować istniejącego modelu. Jako rozwiązanie połącz stary zestaw danych z nowym zestawem danych i odczytem.

Stary zestaw danych i nowy zestaw danych muszą być łączone w jednym pliku .zip (dla danych akustycznych) lub w pliku .txt (dla danych językowych). Po zakończeniu adaptacji ponownie wdróż nowy, zaktualizowany model w celu uzyskania nowego punktu końcowego.

Question 10

Kiedy jest dostępna nowa wersja modelu podstawowego, czy moje wdrożenie jest automatycznie aktualizowane?

Accepted Answer

Wdrożenia nie są aktualizowane automatycznie.

Jeśli model został dostosowany i wdrożony, istniejące wdrożenie pozostanie w takiej postaci. Możesz zlikwidować wdrożony model, odczytać go przy użyciu nowszej wersji modelu podstawowego i wdrożyć go ponownie, aby uzyskać lepszą dokładność.

Zarówno modele podstawowe, jak i modele niestandardowe są wycofywały się po pewnym czasie (zobacz Cykl życia modelu i punktu końcowego).

Question 11

Czy mogę pobrać model i uruchomić go lokalnie?

Accepted Answer

Model niestandardowy można uruchomić lokalnie w kontenerze platformy Docker.

Question 12

Czy mogę skopiować lub przenieść moje zestawy danych, modele i wdrożenia do innego regionu lub subskrypcji?

Accepted Answer

Interfejs API REST Models_Copy umożliwia skopiowanie modelu niestandardowego do innego regionu lub subskrypcji. Nie można skopiować zestawów danych i wdrożeń. Zestaw danych można zaimportować ponownie w innej subskrypcji i utworzyć tam punkty końcowe przy użyciu kopii modelu.

Question 13

Czy moje żądania są rejestrowane?

Accepted Answer

Domyślnie żądania nie są rejestrowane (ani audio, ani transkrypcja). W razie potrzeby możesz wybrać opcję Zawartość dziennika z tego punktu końcowego podczas tworzenia niestandardowego punktu końcowego. Możesz również włączyć rejestrowanie audio w zestawie SDK usługi Mowa dla poszczególnych żądań bez konieczności tworzenia niestandardowego punktu końcowego. W obu przypadkach wyniki audio i rozpoznawania żądań będą przechowywane w bezpiecznym magazynie. Subskrypcje korzystające z magazynu należącego do firmy Microsoft są dostępne przez 30 dni.

Zarejestrowane pliki można wyeksportować na stronie wdrożenia w programie Speech Studio, jeśli używasz niestandardowego punktu końcowego z włączoną zawartością dziennika z tego punktu końcowego . Jeśli rejestrowanie audio jest włączone za pośrednictwem zestawu SDK, wywołaj interfejs API, aby uzyskać dostęp do plików. Możesz również użyć interfejsu API, aby usunąć dzienniki w dowolnym momencie.

Question 14

Czy moje żądania są ograniczane?

Accepted Answer

Aby uzyskać informacje, zobacz Limity przydziału i limity usługi mowa.

Question 15

Jak są naliczane opłaty za dźwięk dwukanałowy?

Accepted Answer

Jeśli przesyłasz każdy kanał oddzielnie w swoim pliku, opłata jest naliczana za czas trwania dźwięku każdego pliku. W przypadku przesyłania pojedynczego pliku z kanałami multipleksowanych razem opłaty są naliczane za czas trwania pojedynczego pliku. Aby uzyskać więcej informacji na temat cen, zobacz stronę cennika usług Azure AI.

Ważne

Jeśli masz dodatkowe obawy dotyczące prywatności, które uniemożliwiają korzystanie z niestandardowej usługi mowa, skontaktuj się z jednym z kanałów pomocy technicznej.

Zwiększanie współbieżności

Aby uzyskać informacje, zobacz Limity przydziału i limity usługi mowa.

Question 16

Jaki jest limit rozmiaru zestawu danych i dlaczego jest to limit?

Accepted Answer

Limit jest spowodowany ograniczeniem rozmiaru plików do przekazywania HTTP. Aby uzyskać rzeczywisty limit, zobacz Limity przydziałów i limity usługi mowa. Możesz podzielić dane na wiele zestawów danych i wybrać wszystkie, aby wytrenować model.

Question 17

Czy mogę spakować (kompresować) pliki tekstowe, aby móc przekazać większy plik tekstowy?

Accepted Answer

L.p. Obecnie dozwolone są tylko nieskompresowane pliki tekstowe.

Question 18

Raport danych mówi, że wypowiedzi nie powiodły się. Na czym polega problem?

Accepted Answer

Nie można przekazać 100 procent wypowiedzi w pliku, nie jest problemem. Jeśli większość wypowiedzi w zestawie danych akustycznych lub językowych (na przykład ponad 95 procent) zostanie pomyślnie zaimportowana, zestaw danych może być używany. Jednak nadal zalecamy, aby spróbować zrozumieć, dlaczego wypowiedzi nie powiodły się, a następnie rozwiązać problem. Najczęstsze problemy, takie jak błędy formatowania, są łatwe do rozwiązania.

Question 19

Ile danych akustycznych potrzebuję?

Accepted Answer

Zalecamy rozpoczęcie od 30 minut do 1 godziny danych akustycznych.

Question 20

Jakie dane należy zebrać?

Accepted Answer

Zbierz dane, które są tak blisko scenariusza aplikacji, jak i przypadków użycia, jak to możliwe. Zbieranie danych powinno być zgodne z docelową aplikacją i użytkownikami pod względem urządzeń lub urządzeń, środowisk i typów głośników. Ogólnie rzecz biorąc, należy zbierać dane z jak najszerszego zakresu osób mówiących.

Question 21

Jak zbierać dane akustyczne?

Accepted Answer

Możesz utworzyć autonomiczną aplikację do zbierania danych lub użyć gotowego oprogramowania do nagrywania dźwięku. Możesz również utworzyć wersję aplikacji, która rejestruje dane audio, a następnie używa danych.

Question 22

Czy muszę samodzielnie transkrybować dane adaptacyjne?

Accepted Answer

Tak. Możesz go transkrybować samodzielnie lub użyć profesjonalnej usługi transkrypcji. Niektórzy użytkownicy wolą profesjonalnych transkrypcji, a inni używają crowdsourcingu lub transkrypcji samych danych.

Question 23

Jak długo trwa trenowanie modelu niestandardowego przy użyciu danych audio?

Accepted Answer

Trenowanie modelu przy użyciu danych audio może być długotrwałym procesem. W zależności od ilości danych utworzenie modelu niestandardowego może potrwać kilka dni. Jeśli nie można go ukończyć w ciągu jednego tygodnia, usługa może przerwać operację trenowania i zgłosić model jako niepowodzenie.

Ogólnie rzecz biorąc, usługa rozpoznawania mowy przetwarza około 10 godzin danych audio dziennie w regionach, w których dedykowany sprzęt. Może przetwarzać tylko około 1 godziny danych audio dziennie w innych regionach. Trenowanie przy użyciu tekstu jest szybsze i zwykle kończy się w ciągu kilku minut.

Użyj jednego z regionów, w których dedykowany sprzęt jest dostępny do trenowania. Usługa mowa używa do 20 godzin dźwięku do trenowania w tych regionach. W innych regionach usługa rozpoznawania mowy używa do 8 godzin.

Question 24

Co to jest szybkość błędów słów (WER) i jak jest obliczana?

Accepted Answer

WER to metryka oceny rozpoznawania mowy. Usługa WER jest obliczana jako łączna liczba błędów (wstawiania, usuwania i podstawiania) podzielona przez łączną liczbę wyrazów w transkrypcji odwołania. Aby uzyskać więcej informacji, zobacz Test model ilościowo.

Question 25

Jak mogę ustalić, czy wyniki testu dokładności są dobre?

Accepted Answer

Wyniki pokazują porównanie modelu podstawowego i dostosowanego modelu. Aby dokonać dostosowania, należy dążyć do pokonania modelu podstawowego.

Question 26

Jak mogę określić WER modelu podstawowego, aby sprawdzić, czy został on ulepszony?

Accepted Answer

Wyniki testu offline pokazują dokładność linii bazowej modelu niestandardowego i poprawę w stosunku do planu bazowego.

Question 27

Ile danych tekstowych muszę przekazać?

Accepted Answer

Zależy to od tego, jak różni się słownictwo i frazy używane w aplikacji od początkowych modeli językowych. Dla wszystkich nowych słów warto podać jak najwięcej przykładów użycia tych słów. W przypadku typowych fraz używanych w aplikacji, w tym fraz w danych językowych, podanie wielu przykładów jest przydatne, ponieważ nakazuje systemowi nasłuchiwanie tych terminów. Zazwyczaj w zestawie danych językowych występuje co najmniej 100 i zwykle kilkaset lub więcej wypowiedzi. Ponadto jeśli niektóre typy zapytań będą bardziej powszechne niż inne, możesz wstawić wiele kopii typowych zapytań w zestawie danych.

Question 28

Czy mogę po prostu przekazać listę wyrazów?

Accepted Answer

Przekazanie listy słów dodaje je do słownictwa, ale nie uczy systemu, w jaki sposób słowa są zwykle używane. Podając pełne lub częściowe wypowiedzi (zdania lub frazy rzeczy, które użytkownicy mogą powiedzieć), model językowy może nauczyć się nowych słów i sposobu ich użycia. Niestandardowy model językowy jest dobry nie tylko do dodawania nowych wyrazów do systemu, ale także do dostosowywania prawdopodobieństwa znanych słów dla aplikacji. Zapewnienie pełnych wypowiedzi pomaga systemowi lepiej uczyć się.

Share via

Zamiana mowy na tekst — często zadawane pytania

Ogólne