Özel konuşma nedir?

Makale
01/22/2024

Özel konuşma ile uygulamalarınız ve ürünleriniz için konuşma tanımanın doğruluğunu değerlendirebilir ve geliştirebilirsiniz. Özel konuşma modeli, gerçek zamanlı konuşmayı metne dönüştürme, konuşma çevirisi ve toplu transkripsiyon için kullanılabilir.

Konuşma tanıma, Microsoft'un sahip olduğu verilerle eğitilen ve yaygın olarak kullanılan konuşulan dili yansıtan bir temel model olarak Evrensel Dil Modeli'ni kullanır. Temel model, çeşitli ortak etki alanlarını temsil eden diyalektler ve fonetiklerle önceden eğitilir. Bir konuşma tanıma isteği yaptığınızda, desteklenen her dil için en son temel model varsayılan olarak kullanılır. Temel model çoğu konuşma tanıma senaryosunda iyi çalışır.

Özel bir model, modeli eğitmek için metin verileri sağlayarak uygulamaya özgü etki alanına özgü sözlüğün tanınmasını geliştirmek için temel modeli geliştirmek için kullanılabilir. Başvuru transkripsiyonları ile ses verileri sağlayarak uygulamanın belirli ses koşullarına göre tanımayı geliştirmek için de kullanılabilir.

Ayrıca, veriler bir desene uygun olduğunda, özel söylenişleri belirtmek ve özel ters metin normalleştirmesi, özel yeniden yazma ve özel küfür filtreleme ile görüntü metni biçimlendirmesini özelleştirmek için yapılandırılmış metin içeren bir model eğitebilirsiniz.

Nasıl çalışır?

Özel konuşma ile kendi verilerinizi karşıya yükleyebilir, özel bir modeli test edebilir ve eğitebilir, modeller arasındaki doğruluğu karşılaştırabilir ve modeli özel uç noktaya dağıtabilirsiniz.

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

Önceki diyagramda gösterilen adım dizisi hakkında daha fazla bilgi aşağıdadır:

Proje oluşturun ve bir model seçin. Azure portalında oluşturduğunuz konuşma kaynağını kullanın. Ses verileriyle özel bir model eğitiyorsanız, ses verilerini eğitecek ayrılmış donanıma sahip bir Konuşma kaynak bölgesi seçin. Daha fazla bilgi için bkz. bölgeler tablosundaki dipnotlar.
Test verilerini karşıya yükleyin. Uygulamalarınız, araçlarınız ve ürünleriniz için konuşmayı metne dönüştürme teklifini değerlendirmek için test verilerini karşıya yükleyin.
Test tanıma kalitesi. Speech Studio'yu kullanarak karşıya yüklenen sesi oynatın ve test verilerinizin konuşma tanıma kalitesini inceleyin.
Modeli nicel olarak test edin. Konuşmayı metin modeline dönüştürme işleminin doğruluğunu değerlendirin ve geliştirin. Konuşma hizmeti, daha fazla eğitim gerekip gerekmediğini belirlemek için kullanabileceğiniz nicel bir sözcük hata oranı (WER) sağlar.
Modeli eğitin. İlgili ses verileriyle birlikte yazılı transkriptler ve ilgili metinler sağlayın. Modeli eğitimden önce ve sonra test etme isteğe bağlıdır ancak önerilir.

Not

Özel konuşma modeli kullanımı ve uç nokta barındırma için ödemeniz gerekir. Temel model 1 Ekim 2023 ve sonrasında oluşturulduysa özel konuşma modeli eğitimi için de ücretlendirilirsiniz. Temel model Ekim 2023'e kadar oluşturulduysa eğitim için ücret alınmaz. Daha fazla bilgi için konuşmadan metne 3.2 geçiş kılavuzunun Azure AI Konuşma fiyatlandırması ve Uyarlama ücreti bölümüne bakın.
Model dağıtma. Test sonuçlarından memnun olduktan sonra modeli özel bir uç noktaya dağıtın. Toplu transkripsiyon dışında, özel konuşma modeli kullanmak için özel bir uç nokta dağıtmanız gerekir.

İpucu

Batch transkripsiyon API'siyle özel konuşma kullanmak için barındırılan dağıtım uç noktası gerekmez. Özel konuşma modeli yalnızca toplu transkripsiyon için kullanılıyorsa kaynakları tasarruf edebilirsiniz. Daha fazla bilgi için bkz . Konuşma hizmeti fiyatlandırması.

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Özel konuşma nedir?

Nasıl çalışır?

Sorumlu AI

Sonraki adımlar

Ek kaynaklar