Fısıltı modeli nedir?

Makale
04/07/2024

Whisper modeli, OpenAI'den ses dosyalarının dökümünü almak için kullanabileceğiniz bir metin modelidir. Model, büyük bir İngilizce ses ve metin veri kümesi üzerinde eğitilir. Model, İngilizce konuşma içeren ses dosyalarının çevirisi için iyileştirilmiştir. Model, diğer dillerde konuşma içeren ses dosyalarının dökümünü almak için de kullanılabilir. Modelin çıktısı İngilizce metindir.

Fısıltı modelleri Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla kullanılabilir. Özellikler bu teklifler için farklılık gösterir. Azure AI Konuşma'da Fısıltı, kullanabileceğiniz çeşitli metin modellerinden yalnızca biridir.

Şu soruları sorabilirsiniz:

Fısıltı Modeli senaryom için iyi bir seçim mi yoksa Azure AI Konuşma modeli daha mı iyi? İki model türü arasındaki API karşılaştırmaları nelerdir?
Fısıltı Modeli'ni kullanmak istiyorsam Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla mı kullanmalıyım? Birini veya diğerini kullanmama yol gösteren senaryolar nelerdir?

Fısıltı modeli veya Azure AI Konuşma modelleri

Fısıltı modeli veya Azure AI Konuşma modelleri senaryolarınıza bağlı olarak uygundur. Azure AI Konuşma'yı kullanmaya karar verirseniz Fısıltı modeli de dahil olmak üzere çeşitli modeller arasından seçim yapabilirsiniz. Aşağıdaki tablo, nereden başlayacağınızla ilgili önerilerle seçenekleri karşılaştırır.

Senaryo	Fısıltı modeli	Azure AI Konuşma modelleri
Ses ve video için gerçek zamanlı transkripsiyonlar, başlık ve alt yazılar.	Kullanılamaz	Önerilir
Önceden kaydedilmiş ses ve video için transkripsiyonlar, başlık ve alt yazılar.	Azure OpenAI aracılığıyla Fısıltı modeli, tek tek ses dosyalarının hızlı işlenmesi için önerilir. Büyük dosyaların toplu işlenmesi için Azure AI Konuşma yoluyla Whisper modeli önerilir. Daha fazla bilgi için bkz . Azure AI Konuşma veya Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli?	Büyük dosyaların toplu işlenmesi, gündağılama ve sözcük düzeyi zaman damgaları için önerilir.
Arama özeti, yaklaşım, önemli konular ve özel içgörüler gibi telefon araması kayıtlarının ve analizlerinin dökümü.	Kullanılabilir	Önerilir
Çağrı merkezi aracılarına müşteri soruları konusunda yardımcı olmak için gerçek zamanlı transkripsiyon ve analiz.	Kullanılamaz	Önerilir
Toplantı özeti, toplantı bölümleri ve eylem öğesi ayıklama gibi toplantı kayıtlarının ve analizlerinin dökümü.	Kullanılabilir	Önerilir
Ses diktesi aracılığıyla gerçek zamanlı metin girişi ve belge oluşturma.	Kullanılamaz	Önerilir
İletişim merkezi ses aracısı: Arama merkezleri için arama yönlendirme ve etkileşimli sesli yanıt.	Kullanılabilir	Önerilir
Sesli yardımcı: Set üstü kutu, mobil uygulama, araç içi ve diğer senaryolar için uygulamaya özgü sesli yardımcı.	Kullanılabilir	Önerilir
Söyleniş değerlendirmesi: Konuşmacının sesinin söylenişini değerlendirin.	Kullanılamaz	Önerilir
Canlı sesi bir dilden diğerine çevirin.	Kullanılamaz	Konuşma çevirisi API'si aracılığıyla önerilir
Önceden kaydedilmiş sesi diğer dillerden İngilizceye çevirin.	Önerilir	Konuşma çevirisi API'sini kullanarak kullanılabilir
Önceden kaydedilmiş sesi İngilizce dışındaki dillere çevirin.	Kullanılamaz	Konuşma çevirisi API'si aracılığıyla önerilir

Azure AI Konuşma veya Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli mi?

Fısıltı modelini kullanmaya karar verirseniz iki seçeneğiniz vardır. Fısıltı Modeli'ni Azure OpenAI veya Azure AI Konuşma aracılığıyla kullanmayı seçebilirsiniz. Her iki durumda da, dökümü alınan metnin okunabilirliği aynıdır. Karışık dil ses girişi yapabilirsiniz ve çıkış İngilizcedir.

Azure OpenAI Hizmeti aracılığıyla Fısıltı Modeli aşağıdakiler için en iyi yöntem olabilir:

Ses dosyalarını teker teker hızla dönüştürme
Sesi diğer dillerden İngilizceye çevirme
Çıkışa kılavuzluk etmek için modele bir istem sağlayın
Desteklenen dosya biçimleri: mp3, mp4, mpweg, mpga, m4a, wav ve webm

Azure AI Konuşma yoluyla Fısıltı Modeli aşağıdakiler için en iyi yöntem olabilir:

25 MB'tan büyük dosyaları (1 GB'a kadar) dönüştürme. Azure OpenAI Whisper modeli için dosya boyutu sınırı 25 MB'tır.
Büyük grup ses dosyalarının transkribesini oluşturma
Konuşmaya katılan farklı konuşmacıları ayırt etmek için dillere ayırma. Konuşma tanıma hizmeti, dökümü alınmış konuşmanın belirli bir bölümünde konuşan konuşmacı hakkında bilgi sağlar. Azure OpenAI aracılığıyla Fısıltı modeli, ayrıştırma işlemini desteklemez.
Sözcük düzeyi zaman damgaları
Desteklenen dosya biçimleri: mp3, wav ve ogg
Senaryonuzun doğruluğunu geliştirmek için Fısıltı temel modelini özelleştirme (çok yakında)

Bölgesel destek de dikkat edilmesi gereken bir diğer konudur.

Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli şu bölgelerde kullanılabilir: EastUS 2, Hindistan Güney, Orta Kuzey, Norveç Doğu, Orta İsveç ve Batı Avrupa.
Azure AI Konuşma aracılığıyla Fısıltı modeli şu bölgelerde kullanılabilir: Doğu Avustralya, Doğu ABD, Orta Kuzey ABD, Orta Güney ABD, Güneydoğu Asya, Güney Birleşik Krallık ve Batı Avrupa.

Share via

Fısıltı modeli nedir?

Fısıltı modeli veya Azure AI Konuşma modelleri

Azure AI Konuşma veya Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli mi?

Sonraki adımlar

Ek kaynaklar