Bu SSS'de sorularınıza yanıt bulamazsanız diğer destek seçeneklerine göz atın.
Genel
Temel model ile özel model arasındaki fark Konuşmayı Metne Dönüştürme nedir?
Temel model, Microsoft'a ait veriler kullanılarak eğitilmiş ve bulutta dağıtılmıştır. Bir modeli, belirli bir ortam gürültüsüne veya dile sahip belirli bir ortama daha iyi uyacak şekilde uyarlamak için özel bir model kullanabilirsiniz. Fabrika katları, arabalar veya gürültülü sokaklar için uyarlanmış akustik model gerekir. Genetik, fizik, radyoloji, ürün adları ve özel kısaltmalar gibi konular için uyarlanmış bir dil modeli gerekir. Özel bir model eğitersiniz, özel terimlerin ve tümceciklerin tanınmasını geliştirmek için ilgili metinlerle başlamalısiniz.
Temel model kullanmak istediğimde nereden başlayacağım?
İlk olarak bir abonelik anahtarı alın. Önceden dağıtılan temel modellere REST çağrıları yapmak için bkz. REST API'leri. WebSockets'i kullanmak için SDK'yı indirin.
Her zaman özel konuşma modeli derlemem gerekiyor mu?
Hayır. Uygulamanız genel, günlük dil kullanıyorsa modeli özelleştirmeniz gerek değildir. Uygulamanız çok az arka plan gürültüsü olan veya hiç gürültüye neden olan bir ortamda kullanılıyorsa modeli özelleştirmeniz gerek yoktur.
Portalda taban çizgisi ve özelleştirilmiş modelleri dağıtarak doğruluk testleri çalıştırabilirsiniz. Bir temel modelin ve özel modelin doğruluğunu ölçmek için bu özelliği kullanabilirsiniz.
Veri kümem veya modelim için işlemenin ne zaman tamam olduğunu nasıl bilebilirsiniz?
Şu anda tablodaki modelin veya veri kümesi durumunu bilmek tek yoldur. İşlem tamamlandığında, durum Başarılı olur.
Birden fazla model oluşturabilir miyim?
Koleksiyonda sahip olduğunuz model sayısıyla ilgili bir sınır yoktur.
Bir hata yaptığımı fark ettim. Nasıl yaparım? veri içeri aktarma işlemimi veya devam eden model oluşturma işlemimi iptal etmek mi?
Şu anda akustik veya dil uyarlama sürecini geri alasiniz. Terminal durumuna geldiğinde, içe aktarılan verileri ve modelleri silebilirsiniz.
Ayrıntılı çıkış biçimine sahip her tümcecik için birkaç sonuç elde istiyorum. Hangisini kullan gerekir?
Başka bir sonuç ("N-Best") daha yüksek bir güven değerine sahip olsa bile her zaman ilk sonucu alın. Konuşma tanıma hizmeti ilk sonucu en iyi sonuç olarak kabul ediyor. Hiçbir konuşma tanınmamışsa boş bir dize de olabilir.
Diğer sonuçlar muhtemelen daha kötüdür ve tam büyük harf ve noktalama işareti uygulanmaz. Bu sonuçlar, kullanıcılara bir listeden düzeltme seçme veya yanlış tanınan komutları işleme seçeneği verme gibi özel senaryolarda kullanışlıdır.
Neden farklı temel modeller var?
Konuşma tanıma hizmetine birden fazla temel modelden birini seçebilirsiniz. Her model adı, ekli olduğu tarihi içerir. Özel bir modeli eğitin, en iyi doğruluğu elde etmek için en son modeli kullanın. Yeni bir model kullanılabilir olduğunda eski temel modeller bir süre daha kullanılabilir. Kullanımdan kaldırana kadar üzerinde çalıştığın modeli kullanmaya devam edebilir (bkz. Model ve uç nokta yaşam döngüsü). Daha iyi doğruluk için yine de en son temel modele geçmenizi öneririz.
Mevcut modelimi (model yığını) güncelleştir miyim?
Mevcut modeli güncelleştiresiniz. Çözüm olarak, eski veri kümelerini yeni veri kümesi ve okuma ile birleştirin.
Eski veri kümesi ve yeni veri kümesi tek bir .zip dosyasında (akustik veriler için) veya bir .txt dosyasında (dil verileri için) birleştirildi. Uyarlama tamamlandığında, yeni bir uç nokta elde etmek için yeni, güncelleştirilmiş modelin yeniden dağıtılması gerekir
Temel modelin yeni bir sürümü kullanılabilir olduğunda, dağıtımım otomatik olarak güncelleştirilir mi?
Dağıtımlar otomatik olarak güncelleştirilMEZ.
Bir modeli uyarladı ve dağıttınızsa, bu dağıtım olduğu gibi kalır. Dağıtılan modelin kullanımından kaldırılabilir, temel modelin daha yeni sürümünü kullanarak okuma ve daha iyi doğruluk için yeniden dağıtılabilir.
Hem temel modeller hem de özel modeller bir süre sonra kullanımdan kaldır (bkz. Model ve uç nokta yaşam döngüsü).
Modelimi indirip yerel olarak çalıştırabiliyor musunuz?
Özel modeli docker kapsayıcısı içinde yerel olarak çalıştırabilirsiniz.
Veri kümelerimi, modellerimi ve dağıtımlarımı başka bir bölgeye veya aboneliğe kopyalayıp taşımam gerekir mi?
Özel bir modeli REST API bölgeye veya aboneliğe kopyalamak için bu özel modeli kullanabilirsiniz. Veri kümeleri veya dağıtımlar kopyalanamaz. Veri kümelerini başka bir abonelikte yeniden içeri aktarabilirsiniz ve model kopyalarını kullanarak orada uç noktalar oluşturabilirsiniz.
İsteklerim günlüğe kaydedildi mi?
Varsayılan olarak istekler günlüğe kaydedilmez (ses veya transkripsiyon da). Gerekirse, özel bir uç nokta sanız bu uç nokta seçeneğinden İçeriği günlüğe aç seçeneğini kullanabilirsiniz. Özel uç nokta oluşturmadan Konuşma SDK'sında istek başına ses günlüğünü de etkinleştirebilirsiniz. Her iki durumda da isteklerin ses ve tanıma sonuçları güvenli depolamada depolanır. Microsoft'a ait depolama alanı kullanan abonelikler 30 gün boyunca kullanılabilir.
Bu uç noktadan günlük içeriği etkinleştirilmiş bir özel Speech Studio kullanıyorsanız, günlüğe kaydedilen dosyaları dağıtım sayfasında dışarı aktarabilirsiniz. SDK aracılığıyla ses günlüğü etkinleştirildiyse, dosyalara erişmek için API'yi arayın.
İsteklerim kısıtlandı mı?
Çift kanallı ses için nasıl ücret ödemem gerekir?
Her kanalı ayrı ayrı (her kanal kendi dosyasında) gönderdiğinizde, her bir dosyanın süresi için ücretlendirilirsiniz. Her kanalın birden çok kez ekli olduğu tek bir dosya gönderdiğinizde, tek dosya süresi boyunca ücret tahsil edilecektir. Fiyatlandırma hakkında ayrıntılı bilgi için lütfen Azure Bilişsel Hizmetler sayfasına bakın.
Önemli
Özel Konuşma hizmetini kullanmanızı yasaklayan başka gizlilik endişeleriniz varsa destek kanallarından biri ile iletişime geçin.
Eşzamanlılığı artırma
Verileri içeri aktarma
Bir veri kümesi boyutuyla ilgili sınır nedir ve bu neden sınırdır?
Bu sınır, HTTP karşıya yüklemesi için bir dosyanın boyutuna yönelik kısıtlamadan dolayıdır. Gerçek sınır için bkz. Konuşma Hizmetleri Kotaları ve Sınırları. Verilerinizi birden çok veri kümesine bölebilirsiniz ve bunların hepsini seçerek modeli eğitebilirsiniz.
Daha büyük bir metin dosyasını karşıya yüklemek için metin dosyalarımı sıkıştırır musunuz?
Hayır. Şu anda yalnızca sıkıştırılmamış metin dosyalarına izin verilir.
Veri raporu başarısız konuşmalar olduğunu söylüyor. Sorun nedir?
Bir dosyada ifadelerin yüzde 100'lerinin karşıya yüklenene kadar yüklenene bir sorun değildir. Akustik veya dil veri kümesinde (örneğin, yüzde 95'in üzerinde) konuşmaların büyük çoğunluğu başarıyla içe aktarıldısa, veri kümesi kullanılabilir. Ancak, konuşmaların neden başarısız olduğunu anlamaya çalışmanız ve sorunları çözmenizi öneririz. Biçimlendirme hataları gibi en yaygın sorunlar kolayca çözülebilir.
Akustik model oluşturma
Ne kadar akustik veriye ihtiyacım var?
30 dakika ile bir saatlik akustik verilerden başlamanız önerilir.
Hangi verileri toplamam gerekir?
Uygulama senaryosuna ve kullanım durumuna mümkün olan en yakın verileri toplayın. Veri toplama, cihaz veya cihaz, ortam ve konuşmacı türleri açısından hedef uygulama ve kullanıcılarla eşleşmeli. Genel olarak, mümkün olduğunca geniş bir yelpazedeki konuşmacılardan veri toplamalısiniz.
Akustik verileri nasıl toplamam gerekir?
Tek başına veri toplama uygulaması oluşturabilir veya özel ses kayıt yazılımını kullanabilirsiniz. Ayrıca, uygulamanızın ses verilerini günlüğe kaydettiği ve ardından verileri kullandığı bir sürümünü de oluşturabilirsiniz.
Verileri kendi kendinize uyarlama
Evet. Kendiniz düzenleyebilir veya profesyonel bir döküm hizmeti kullanabilirsiniz. Bazı kullanıcılar profesyonel onayları tercih eder ve diğerleri bu kişilerin kendi kendilerini kullanmasını ister.
Ses verileriyle özel bir modeli eğmek için ne kadar sürer?
Ses verileriyle bir modeli eğitmek uzun bir işlem olabilir. Veri miktarına bağlı olarak, özel bir model oluşturmak birkaç gün sürebilir. Bir hafta içinde bitirilemez servis, eğitim işlemini durdurabilir ve modeli başarısız olarak rapor edebilir.
Eğitim için adanmış donanımın kullanılabildiği bölgelerden birini kullanın. Konuşma hizmeti, bu bölgelerde eğitim için en fazla 20 saatlik ses kullanacaktır. Diğer bölgelerde, yalnızca 8 saate kadar sürer.
Genel olarak, hizmet adanmış donanıma sahip bölgelerde günde yaklaşık 10 saat ses verisi işler. Bu, diğer bölgelerde günde yalnızca 1 saat ses verisi işleyebilir. REST APIkullanarak, tamamen eğitilen modeli başka bir bölgeye kopyalayabilirsiniz. Yalnızca metin ile eğitim çok daha hızlıdır ve genellikle dakikalar içinde tamamlanır.
Bazı temel modeller ses verileriyle özelleştirilemez. Bu hizmet için, bakım için yalnızca eğitim ve ses verilerini yok Sayın metnini kullanır. Daha sonra eğitim daha hızlı tamamlanır ve sonuçlar yalnızca metin ile eğitimle aynı olacaktır. Ses verileriyle eğitimi destekleyen temel modellerin listesi için bkz. dil desteği .
Doğruluk testi
Word hata oranı nedir (WER) ve nasıl hesaplanır?
WER, konuşma tanıma için değerlendirme ölçümdür. WER, ekleme, silme ve değiştirmeler içeren toplam hata sayısı olarak sayılır, bu da başvuru dökümünde toplam sözcük sayısına bölünür. Daha fazla bilgi için bkz. doğruluğu değerlendirme özel konuşma tanıma.
Doğruluk testinin sonuçlarının iyi olup olmadığını Nasıl yaparım? mi?
Sonuçlar, taban çizgisi modeliyle özelleştirdiğiniz model arasında bir karşılaştırma gösterir. Özelleştirmeyi bir süre için temel modeli oluşturmak üzere hedefleyebilirsiniz.
Bir geliştirme olup olmadığını görmek için bir temel modelin WER 'i Nasıl yaparım?.
Çevrimdışı test sonuçları özel modelin temel doğruluğunu ve taban çizgisinin iyileştirmesini gösterir.
Dil modeli oluşturma
Karşıya yüklemek için ne kadar metin verisi gerekiyor?
Uygulamanızda kullanılan sözlük ve tümceciklerin başlangıç dili modellerinden farklı olmasına bağlıdır. Tüm yeni kelimeler, bu sözcüklerin kullanımının mümkün olduğu sayıda örnek sağlamak yararlı olur. Uygulamanızda kullanılan yaygın ifadeler için, dil verilerinde ifadeler de dahil olmak üzere, sisteme bu koşulları da dinleyebildiğini söylediğinden de yararlı olur. Dil veri kümesinde en az 100 ve genellikle birkaç yüz ya da daha fazla utlik olması yaygındır. Ayrıca, bazı sorgu türlerinin diğerlerinden daha yaygın olması bekleniyorsa, ortak sorguların birden çok kopyasını veri kümesine ekleyebilirsiniz.
Yalnızca bir sözcük listesini karşıya yükleyebilir miyim?
Sözcüklerin listesini karşıya yüklemek, sözcükleri sözlüğüne ekler, ancak sözcüklerin tipik olarak nasıl kullanıldığını sisteme öğretmez. Tam veya kısmi bir şekilde (kullanıcıların söyledikleri nesnelerin cümleler veya tümceleri), dil modelinin yeni kelimeleri ve nasıl kullanıldığını öğrenebilirsiniz. Özel dil modeli yalnızca sisteme yeni sözcükler eklemek için değil, aynı zamanda uygulamanız için bilinen sözcüklerin olasılığını ayarlamak için de uygundur. Tam dıklarýn sağlanması sistemin daha iyi öğrenilmesine yardımcı olur.
kiracı modeli (Microsoft 365 verilerle Özel Konuşma Tanıma)
Kiracı modeline hangi bilgiler dahildir ve nasıl oluşturulur?
Kiracı modeli, kuruluşunuzdaki herkes tarafından görülemeyen ortak grup e-postaları ve belgeleri kullanılarak oluşturulmuştur.
Kiracı modeli hangi konuşma deneyimlerini geliştirildi?
Kiracı modeli etkinleştirildiğinde, oluşturulup yayımlandığında, konuşma hizmeti kullanılarak oluşturulan tüm kurumsal uygulamalarda tanımayı geliştirmek için kullanılır; Bu Ayrıca, kuruluşa üyelik belirten bir Kullanıcı Azure AD belirteci de iletir.
dikte ve PowerPoint açıklamalı alt yazı gibi Microsoft 365 yerleşik konuşma deneyimleri, konuşma hizmeti uygulamalarınız için bir kiracı modeli oluşturduğunuzda değiştirilmez.