Anahtar sözcük tanıma nedir?

Anahtar sözcük tanıma, bir ses akışı içindeki bir sözcüğü veya kısa tümceciği algılar. Bu teknik anahtar sözcük tespiti olarak da adlandırılır.

Anahtar sözcük tanımanın en yaygın kullanım örneği, sanal yardımcıların sesle etkinleştirilmesidir. Örneğin, "Hey Cortana", Cortana yardımcısı için anahtar sözcüktür. Anahtar sözcüğün tanınması üzerine senaryoya özgü bir eylem gerçekleştirilir. Sanal yardımcı senaryoları için yaygın bir sonuç eylemi, anahtar sözcüğü izleyen sesin konuşma tanıma işlemidir.

Genel olarak, sanal yardımcılar her zaman dinler. Anahtar sözcük tanıma, kullanıcı için bir gizlilik sınırı görevi görür. Anahtar sözcük gereksinimi, ilgisiz kullanıcı sesinin yerel cihazı buluta geçmesini engelleyen bir kapı işlevi görür.

Doğruluk, gecikme süresi ve hesaplama karmaşıklığını dengelemek için anahtar sözcük tanıma, çok aşamalı bir sistem olarak uygulanır. İlk aşamanın ötesindeki tüm aşamalar için ses yalnızca önceki aşamanın ilgilendiğiniz anahtar sözcüğü tanıması durumunda işlenir.

Geçerli sistem, uç ve buluta yayılan birden çok aşamayla tasarlanmıştır:

Diagram that shows multiple stages of keyword recognition across the edge and cloud.

Anahtar sözcük tanımanın doğruluğu aşağıdaki ölçümlerle ölçülür:

  • Doğru kabul oranı: Sistemin bir kullanıcı tarafından konuşulan anahtar sözcüğü tanıma yeteneğini ölçer. Doğru kabul oranı, gerçek pozitif oran olarak da bilinir.
  • Yanlış kabul oranı: Sistemin, bir kullanıcı tarafından konuşulan anahtar sözcük olmayan sesi filtreleyebilmesini ölçer. Yanlış kabul oranı, hatalı pozitif oran olarak da bilinir.

Amaç, yanlış kabul oranını en aza indirirken doğru kabul oranını en üst düzeye çıkarmaktır. Geçerli sistem, kısa bir sessizlik miktarından önce gelen bir anahtar sözcüğü veya tümceciği algılamak için tasarlanmıştır. Tümcenin veya konuşmanın ortasındaki bir anahtar sözcüğü algılama desteklenmez.

Cihaz içi modeller için özel anahtar sözcük

Speech Studio'daki Özel Anahtar Sözcük portalıyla, herhangi bir sözcüğü veya kısa tümceciği belirterek uçta yürütülen anahtar sözcük tanıma modelleri oluşturabilirsiniz. Doğru telaffuzları seçerek anahtar sözcük modelinizi daha da kişiselleştirebilirsiniz.

Fiyatlandırma

Hem Temel hem de Gelişmiş modeller dahil olmak üzere model oluşturmak için özel anahtar sözcük kullanmanın bir maliyeti yoktur. Konuşmayı metne dönüştürme gibi diğer Konuşma tanıma hizmeti özellikleriyle kullanıldığında Konuşma SDK'sı ile cihaz üzerinde model çalıştırmanın da bir maliyeti yoktur.

Model türleri

Herhangi bir anahtar sözcük için iki tür cihaz içi model oluşturmak üzere özel anahtar sözcük kullanabilirsiniz.

Model türü Açıklama
Temel Tanıtım veya hızlı prototip oluşturma amaçları için en uygun olanıdır. Modeller ortak bir temel modelle oluşturulur ve hazır olması 15 dakika kadar sürebilir. Modeller en uygun doğruluk özelliklerine sahip olmayabilir.
Gelişmiş Ürün tümleştirmesi için en uygun yöntemdir. Modeller, doğruluk özelliklerini geliştirmek için simülasyon eğitim verileri kullanılarak ortak bir temel modelin uyarlanmasıyla oluşturulur. Modellerin hazır olması 48 saate kadar sürebilir.

Not

Gelişmiş model türünü destekleyen bölgelerin listesini anahtar sözcük tanıma bölgesi destek belgelerinde görüntüleyebilirsiniz.

Hiçbir model türü eğitim verilerini karşıya yüklemenizi gerektirmez. Özel anahtar sözcük, veri oluşturma ve model eğitimini tam olarak işler.

Telaffuz

Yeni bir model oluşturduğunuzda, özel anahtar sözcük sağlanan anahtar sözcüğün olası söylenişlerini otomatik olarak oluşturur. Her telaffuzu dinleyebilir ve kullanıcıların anahtar sözcüğü söylemesini beklediğiniz şekli yakından temsil eden tüm varyasyonları seçebilirsiniz. Diğer tüm söylenişler seçilmemelidir.

En iyi doğruluk özelliklerini elde etmek için seçtiğiniz söylenişleri dikkate almak önemlidir. Örneğin, ihtiyacınız olandan daha fazla söyleniş seçerseniz yanlış kabul oranları daha yüksek olabilir. Tüm beklenen varyasyonların ele alınmadığı çok az telaffuz seçerseniz, doğru kabul oranlarını düşürebilirsiniz.

Test modelleri

Özel anahtar sözcük cihaz içi modeller oluşturduktan sonra modeller doğrudan portalda test edilebilir. Doğrudan tarayıcınızda konuşmak ve anahtar sözcük tanıma sonuçları almak için portalı kullanabilirsiniz.

Anahtar sözcük doğrulama

Anahtar sözcük doğrulaması, Azure'da çalışan güçlü modellerle cihaz içi modellerden gelen false kabullerinin etkisini azaltan bir bulut hizmetidir. Anahtar sözcük doğrulamanın anahtar sözcüğünüzle çalışması için ayarlama veya eğitim gerekmez. Artımlı model güncelleştirmeleri, doğruluğu ve gecikme süresini geliştirmek için hizmete sürekli olarak dağıtılır ve istemci uygulamaları için saydamdır.

Fiyatlandırma

Anahtar sözcük doğrulaması her zaman konuşmayı metne dönüştürme ile birlikte kullanılır. Konuşmayı metne dönüştürme maliyetinin ötesinde anahtar sözcük doğrulamasını kullanmanın bir maliyeti yoktur.

Anahtar sözcük doğrulama ve metne konuşma

Anahtar sözcük doğrulaması kullanıldığında, her zaman konuşmayı metne dönüştürme ile birlikte kullanılır. Her iki hizmet de paralel çalışır, yani ses her iki hizmete de aynı anda işleme için gönderilir.

Diagram that shows parallel processing of keyword verification and speech to text.

Anahtar sözcük doğrulama ve konuşmayı metne paralel olarak çalıştırmak aşağıdaki avantajları sağlar:

  • Konuşmayı metne dönüştürme sonuçlarında başka gecikme süresi yoktur: Paralel yürütme, anahtar sözcük doğrulamasının gecikme süresi eklemediğini gösterir. İstemci metin sonuçlarına konuşmayı en kısa sürede alır. Anahtar sözcük doğrulaması, anahtar sözcüğün seste mevcut olmadığını belirlerse, konuşmayı metne dönüştürme işlemi sonlandırılır. Bu eylem, gereksiz konuşmayı metin işlemeye karşı korur. Ağ ve bulut modeli işleme, kullanıcı tarafından algılanan ses etkinleştirme gecikme süresini artırır. Daha fazla bilgi için bkz. Öneriler ve yönergeler.
  • Konuşmayı metne dönüştürme sonuçlarına zorunlu anahtar sözcük ön eki: Konuşmayı metne dönüştürme işlemi, istemciye gönderilen sonuçların anahtar sözcüğüne ön ek olmasını sağlar. Bu davranış, anahtar sözcüğü izleyen konuşma için konuşmayı metne dönüştürme sonuçlarında doğruluğun artırılmasını sağlar.
  • Konuşmayı metne dönüştürme zaman aşımı artışı: Ses başında anahtar sözcüğün beklenen varlığı nedeniyle, konuşmayı metne dönüştürme özelliği, konuşmanın sonunu belirlemeden ve metin işlemeyi sonlandırmadan önce anahtar sözcüğün ardından beş saniyeye kadar daha uzun bir duraklama sağlar. Bu davranış, kullanıcı deneyiminin aşamalı komutlar (anahtar sözcük duraklatma komutu) ve zincirlenmiş komutlar (<<anahtar sözcük<>komutu>) için doğru şekilde işlenmesini<>> sağlar.><

Anahtar sözcük doğrulama yanıtları ve gecikme süresiyle ilgili dikkat edilmesi gerekenler

Hizmete yönelik her istek için anahtar sözcük doğrulaması iki yanıtdan birini döndürür: kabul edildi veya reddedildi. İşleme gecikme süresi, anahtar sözcüğün uzunluğuna ve anahtar sözcüğü içermesi beklenen ses kesiminin uzunluğuna bağlı olarak değişir. İşleme gecikmesi, istemci ile Konuşma hizmetleri arasındaki ağ maliyetini içermez.

Anahtar sözcük doğrulama yanıtı Açıklama
Kabul edildi Anahtar sözcüğün isteğin bir parçası olarak sağlanan ses akışında mevcut olduğuna inanılan hizmeti gösterir.
Reddedildi Hizmetin anahtar sözcüğün isteğin bir parçası olarak sağlanan ses akışında mevcut olmadığına inandığını gösterir.

Hizmet kabul edilen durumlardan daha fazla ses işlediğinden reddedilen servis talepleri genellikle daha yüksek gecikme süreleri sağlar. Varsayılan olarak anahtar sözcük doğrulama, anahtar sözcüğü aramak için en fazla iki saniyelik ses işler. Anahtar sözcük iki saniye içinde bulunamazsa hizmet zaman aşımına uğrar ve istemciye reddedilmiş bir yanıt sinyalleri gönderir.

Özel anahtar sözcükten cihaz içi modellerle anahtar sözcük doğrulamayı kullanma

Konuşma SDK'sı, anahtar sözcük doğrulaması ve konuşmayı metne dönüştürme ile özel anahtar sözcük kullanılarak oluşturulan cihaz içi modellerin sorunsuz bir şekilde kullanılmasını sağlar. Şu işlemleri saydam bir şekilde işler:

  • Cihaz içi modelin sonucuna göre anahtar sözcük doğrulamaya ve konuşma tanımaya ses ekleme.
  • Anahtar sözcüğü anahtar sözcük doğrulamasına iletme.
  • Uçtan uca senaryoyu yönetmek için buluta daha fazla meta veri iletme.

Herhangi bir yapılandırma parametresini açıkça belirtmeniz gerekmez. Tüm gerekli bilgiler, özel anahtar sözcük tarafından oluşturulan cihaz içi modelden otomatik olarak ayıklanır.

Burada bağlantılı örnek ve öğreticiler Konuşma SDK'sının nasıl kullanılacağını gösterir:

Konuşma SDK'sı tümleştirmesi ve senaryoları

Konuşma SDK'sı, özel anahtar sözcük ve anahtar sözcük doğrulaması ile oluşturulan kişiselleştirilmiş cihaz içi anahtar sözcük tanıma modellerinin kolay kullanılmasını sağlar. Ürün gereksinimlerinizin karşılandığından emin olmak için SDK aşağıdaki iki senaryoyu destekler:

Senaryo Açıklama Örnekler
Konuşmayı metne dönüştüren uçtan uca anahtar sözcük tanıma Özel anahtar sözcükten anahtar sözcük doğrulama ve konuşmayı metne dönüştürme özelliğine sahip özelleştirilmiş bir cihaz içi anahtar sözcük modeli kullanan ürünler için en uygun yöntemdir. Bu senaryo en yaygın senaryodur.
Çevrimdışı anahtar sözcük tanıma Özel anahtar sözcükten özelleştirilmiş bir cihaz içi anahtar sözcük modeli kullanan ağ bağlantısı olmayan ürünler için en uygun yöntemdir.

Sonraki adımlar