Özel Konuşma için verileri hazırlama

Microsoft konuşma tanımanın doğruluğunu test etmek veya özel modellerinizi eğittirken ses ve metin verilerine ihtiyacınız vardır. Bu sayfada, özel konuşma modeli için gereken veri türlerini kapsıyoruz.

Veri çeşitliliği

Özel bir modeli test etmek ve eğitmek için kullanılan metin ve ses, farklı konuşmacılardan örnekler ve modelinizin tanıması gereken senaryolar içermesi gerekir. Özel model testi ve eğitimi için veri toplanıyorken bu faktörleri göz önünde önünden değerlendirin:

  • Metin ve konuşma ses verilerinizin, kullanıcılarının modeliniz ile etkileşim kurduğunda yapacakları sözel deyimleri kapsayacak şekilde örtük hale gelecektir. Örneğin, sıcaklığı artıran ve düşüren bir model, insanların bu tür değişiklikler yapmak için talepte olabileceği deyimler üzerinde eğitime ihtiyaç gösterir.
  • Verilerinizin, modelinizin tanıması gereken tüm konuşma varyanslarını içermesi gerekir. Aksanlar, diyalektler, dil karışımı, yaş, cinsiyet, ses perdesi, stres düzeyi ve günün saati gibi birçok faktör konuşmada değişiklik gösterebilir.
  • Modelinizin kullanılacak olduğu farklı ortamlardan (iç mekan, dış mekan, yol gürültüsü) örnekler dahil etmek gerekir.
  • Üretim sisteminin kullanabileceği donanım cihazları kullanılarak ses toplanmış olması gerekir. Modelinizin farklı kaliteye sahip kayıt cihazlarında kaydedilen konuşmayı tanımlaması gerekirse, modelinizi eğitmek için size sağ edilen ses verileri de bu çeşitli senaryoları temsil edebilir.
  • Daha sonra modelinize daha fazla veri ekleyebilir, ancak veri kümesinde projenizin ihtiyaçlarını farklı ve temsil eden bir değere sahip olmak için özen gösterirsiniz.
  • Özel model tanıma ihtiyaçlarınıza dahil etmek tanıma kalitesini genel olarak zarara neden olabilir, bu nedenle modelinizin yazısını eklemesi gerekmayacak verileri dahil etme.

Senaryoların bir alt kümesinde eğitilen bir model yalnızca bu senaryolarda iyi performans gösterir. Özel modelinizin tanıması gereken senaryoların tam kapsamını temsil eden verileri dikkatle seçin.

İpucu

Modelinizin karşılaşacak dili ve akustik özellikleriyle eşan küçük örnek veri kümeleriyle çalışmaya başlama. Örneğin, küçük ama temsili bir ses örneğini aynı donanıma ve modelinizin üretim senaryolarında buluna akustik ortama kaydetmeniz gerekir. Temsili verilerin küçük veri kümeleri, eğitim için çok daha büyük veri kümeleri toplamaya yatırım yapmadan önce sorunları ortaya çıkarabilirsiniz.

Hızlı bir şekilde kullanmaya başlamayı göz önünde bulundurarak örnek verileri kullanmayı göz önünde bulundurabilirsiniz. Örnek Özel GitHub verileri için bu depoya bakın

Veri türleri

Bu tabloda kabul edilen veri türleri, her bir veri türünün ne zaman kullanılması gerektiği ve önerilen miktar listeleyecektir. Model oluşturmak için her veri türü gerekli değildir. Veri gereksinimleri, test mi yoksa model eğitmanıza bağlı olarak değişir.

Veri türü Test için kullanılır Önerilen miktar Eğitim için kullanılır Önerilen miktar
Yalnızca ses Yes
Görsel inceleme için kullanılır
5'den fazla ses dosyası No Yok
Ses + İnsan etiketli transkriptler Yes
Doğruluğu değerlendirmek için kullanılır
0,5-5 saat ses Yes 1-20 saatlik ses
Düz metin No Yok Yes 1-200 MB ilgili metin
Yapılandırılmış metin (Genel Önizleme) No Yok Yes En fazla 4000 öğe ve 50.000 eğitim cümlesi ile en fazla 10 sınıf
Telaffuzu No Yok Yes 1 KB - 1 MB söyleniş metni

Dosyalar, türe göre bir veri kümesine göre grup olmalı ve dosya olarak .zip yüklenmeli. Her veri kümesi yalnızca tek bir veri türü içerebilir.

İpucu

Yeni bir modeli eğitip düz metin verileri veya yapılandırılmış metin verileriyle çalışmaya başlayabilirsiniz. Bu veriler, özel terimlerin ve tümceciklerin tanınmasını geliştirecek. Metinle eğitim, sesle eğitimden çok daha hızlıdır (günler yerine dakikalar sürer).

Not

Tüm temel modeller ses ile eğitimi desteklemez. Temel model bunu desteklemezse, Konuşma hizmeti yalnızca transkriptlerden metni kullanır ve sesi yoksayar. Ses verileriyle eğitimi destekleyen temel modellerin listesi için bkz. Dil desteği. Temel model ses verileriyle eğitimi desteklese bile, hizmet yalnızca ses bölümünü kullanabilir. Yine de tüm transkriptleri kullanır.

Eğitim için kullanılan temel modeli değiştirmiyorsanız ve eğitim veri kümesinde sese sahip olduğunuz durumlarda, her zaman yeni seçilen temel modelin ses verileriyle eğitimi destekleyip desteklemey olmadığını kontrol edin. Daha önce kullanılan temel model ses verileriyle eğitimi desteklemezse ve eğitim veri kümesi ses içeriyorsa, yeni temel modelle eğitim süresi önemli ölçüde artar ve birkaç saat ile birkaç gün ve daha fazlası kolayca gidebilir. Bu durum özellikle Konuşma hizmeti aboneliğiniz eğitim için ayrılmış donanıma sahip bir bölgede yer almaıyorsa doğrudur.

Yukarıdaki paragrafta açıklanan bir sorunla karşı karşıya olursanız, veri kümesinde ses miktarını azaltarak veya tamamen kaldırarak ve yalnızca metni bırakarak eğitim süresini hızla azaltabilirsiniz. Konuşma hizmeti aboneliğiniz eğitim için ayrılmış donanıma sahip bir bölgede yer almamışsa, ikinci seçenek kesinlikle önerilir.

Eğitim için ayrılmış donanıma sahip bölgelerde Konuşma hizmeti eğitim için 20 saate kadar ses kullanır. Diğer bölgelerde yalnızca 8 saate kadar ses kullanır.

Not

Yapılandırılmış metinle eğitim yalnızca şu yerel seçimler için de desteklene: en-US, en-UK, en-IN, de-DE, fr-FR, fr-CA, es-ES, es-MX ve bu yerel seçimler için en son temel modeli kullanacağız.

Yapılandırılmış metinle eğitimi desteklemeen yereller için hizmet, düz metin verileriyle eğitimin bir parçası olarak hiçbir sınıfa başvurulmayacak eğitim cümlelerini alır.

Verileri karşıya yükleme

Verilerinizi karşıya yüklemek için Speech Studio. Proje oluşturduk sonra Konuşma veri kümeleri sekmesine gidin ve sihirbazı başlatmak Upload veri kümesi oluştur'a tıklayın. Veri kümeniz için bir konuşma veri türü seçin ve verilerinizi karşıya yükleyin.

Not

Veri kümesi dosya boyutu 128 MB'ı aşarsa, bunu yalnızca Azure Blob veya paylaşılan konum seçeneğini kullanarak karşıya yükleyebilirsiniz. ayrıca v3.0'da konuşmadan metne REST API kullanarak izin verilen boyutta bir veri kümesi yükleyebilirsiniz. Ayrıntılar için sonraki bölüme bakın.

İlk olarak, veri kümesi eğitim veya test için kullanılacak olup olmadığını belirtmeniz gerekir. Eğitim veya Test için karşıya yüklen kullanılabilir birçok veri türü vardır. Karşıya yüklediğiniz her veri kümesi karşıya yüklenmeden önce doğru şekilde biçimlendirilmiş olmalı ve seçtiğiniz veri türü gereksinimlerini karşılamalıdır. Gereksinimler aşağıdaki bölümlerde listelenmiştir.

Veri kümeniz karşıya yüklendikten sonra birkaç seçeneğiniz vardır:

  • Özel bir modeli eğitmek için Özel modelleri eğit sekmesine gidin.
  • Yalnızca ses verileriyle kaliteyi görsel olarak incelemek veya ses + insan etiketli transkripsiyon verileriyle doğruluğu değerlendirmek için Test modelleri sekmesine gidin.

Upload konuşmayı metne REST API v3.0 kullanarak verileri kullanma

Özel modelleriniz ile ilgili tüm işlemleri otomatikleştirmek REST API v3.0'da Konuşmayı Metne Metine Doğru kullanabilirsiniz. Özellikle, bir veri kümesi karşıya yüklemek için bunu kullanabilirsiniz. Bu, veri kümesi dosyanız 128 MB'ı aştıklarında özellikle yararlıdır, çünkü büyük olan dosyalar, yerel dosya seçeneği kullanılarak Speech Studio. (Azure Blob veya paylaşılan konum seçeneğini Speech Studio önceki bölümde açıklandığı gibi aynı amaçla kullanabilirsiniz.)

Veri kümesi oluşturmak ve karşıya yüklemek için Veri Kümesi Oluştur isteğini kullanın.

REST API kümeleri ve veri Speech Studio oluşturma

İstek gövdesinde özel bir parametre belirtilmedi sürece REST API v3.0 ile oluşturulan bir veri kümesi, Speech Studio projelerinin hiçbir bağlantısına bağlanmaz (aşağıya bakın). Bir Speech Studio projesiyle bağlantı, herhangi bir model özelleştirme işlemi için gerekli değildir( bu işlemler, REST API.

Speech Studio'de oturum asanız, kullanıcı arabirimi bağlantılı olmayan herhangi bir nesne (herhangi bir proje başvurusu olmadan REST API aracılığıyla yüklenen veri kümeleri gibi) bulunca size bildirim verir ve bu nesneleri mevcut bir projeye bağlamayı teklif eder.

Yeni veri kümesini karşıya yükleme sırasında Speech Studio mevcut bir projeye bağlamak için Veri Kümesi Oluştur'a basın ve istek gövdesini aşağıdaki biçime göre doldurun:

{
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
  "displayName": "My speech dataset name",
  "description": "My speech dataset description",
  "project": {
    "self": "https://westeurope.api.cognitive.microsoft.com/speechtotext/v3.0/projects/c1c643ae-7da5-4e38-9853-e56e840efcb2"
  }
}

Öğe Project gereken project url'si, Projeleri Al isteğiyle elde edilebilir.

Eğitim/test için ses + insan etiketli transkript verileri

Ses ve insan etiketli transkript verileri hem eğitim hem de test amacıyla kullanılabilir. Küçük aksanlar, konuşma stilleri, arka plan gürültüleri gibi akustik özellikleri geliştirmek veya ses dosyalarınızı işlerken Microsoft'un konuşmayı metne doğru doğruluğunu ölçmek için karşılaştırma için insan etiketli transkripsiyonlar (sözcük-sözcük) sağlamış olursunuz. İnsan etiketli transkripsiyon genellikle zaman alsa da, doğruluğu değerlendirmek ve modeli kullanım örnekleriniz için eğitmek gerekir. Tanıma geliştirmelerinin yalnızca sağlanan veriler kadar iyi olacağını unutmayın. Bu nedenle, yalnızca yüksek kaliteli transkriptlerin karşıya yük olması önemlidir.

Ses dosyaları kaydın başında ve sonunda sessizliğe sahip olabilir. Mümkünse, her örnek dosyaya konuşmadan önce ve sonra en az yarım saniye sessizlik dahil edersiniz. Düşük kayıt hacmine veya kesintiye neden olan arka plan gürültüsüne sahip ses yardımcı olmaz, ancak özel modelinize zarar vermez. Ses örneklerini toplamadan önce her zaman mikrofonlarınızı ve sinyal işleme donanımlarınızı yükseltmeyi göz önünde bulundurabilirsiniz.

Özellik Değer
Dosya biçimi RIFF (WAV)
Örnekleme hızı 8.000Hz veya 16.000 Sona
Kanallar 1 (mono)
Ses başına en fazla uzunluk 2 saat (test) / 60 sn (eğitim)
Örnek biçimi PCM, 16 bit
Arşiv biçimi .zip
Maksimum zip boyutu 2 GB

Varsayılan ses akış biçimi WAV 'dir (16 kHz veya 8 kHz, 16 bit ve mono PCM). WAV/PCM dışında, aşağıda listelenen sıkıştırılmış giriş biçimleri de GStreamer kullanılarak desteklenir.

  • ÇA
  • OPUS/OGG
  • FLAC
  • WAV w kapsayıcısında
  • WAV kapsayıcısında MULAW
  • ANY (medya biçiminin bilinen senaryosu Için)

Not

Eğitim ve test verilerini karşıya yüklerken, .zip boyutu 2 GB'ın üzerinde olamaz. Yalnızca tek bir veri kümesinden test etmek için uygun dosya boyutuna sahip olduğundan emin olun. Ayrıca, her eğitim dosyası 60 saniyeden fazla olamaz, aksi takdirde hata verir.

Sözcük silme veya değiştirme gibi sorunları ele etmek için tanımayı geliştirmek için önemli miktarda veri gerekir. Genellikle, 1 ile 20 saatlik ses için sözcük-sözcük transkripsiyonları sağlamak önerilir. Ancak, 30 dakika kadar kısa bir süre bile tanıma sonuçlarının iyileştirilmesine yardımcı olabilir. Tüm WAV dosyalarının transkripsiyonları tek bir düz metin dosyasına yerleştirilmelidir. Transkripsiyon dosyasının her satırında ses dosyalarından birinin adı ve transkripsiyon bulunmalıdır. Dosya adı ve transkripsiyon sekme (\t) ile ayrılmalıdır.

Örnek:

speech01.wav    speech recognition is awesome
speech02.wav    the quick brown fox jumped all over the place
speech03.wav    the lazy dog was not amused

Önemli

Transkripsiyon UTF-8 bayt sırası işareti (BOM) ile kodlanmış olmalıdır.

Transkripsiyon metinleri sistem tarafından işlenebilmesi için normalleştirilir. Ancak, verileri veri kaynağına yüklemeden önce yapılması gereken bazı önemli normalleştirmeler Speech Studio. Transkripsiyonlarınızı hazırlarken kullanmak üzere uygun dil için bkz. İnsan etiketli transkripsiyon oluşturma

Ses dosyalarınızı ve karşılık gelen transkripsiyonlarınızı topdikten sonra, .zip dosyasına yüklemeden önce bunları tek bir Speech Studio. Aşağıda üç ses dosyası ve insan etiketli transkripsiyon dosyası ile örnek bir veri kümesi verilmiştir:

Konuşma Portalında ses seçme

Konuşma hizmeti abonelikleriniz için önerilen bölgelerin listesi için bkz. Azure hesabı ayarlama. Bu bölgelerden birinin Konuşma aboneliklerini ayarlaması, modeli eğitmek için gereken zamanı azaltır. Bu bölgelerde eğitim, diğer bölgelerde günde yalnızca 1 saat ses işlemeye kıyasla günde yaklaşık 10 saat ses işlemektedir. Model eğitimi bir hafta içinde tamamlanamadı ise model başarısız olarak işaretlenir.

Tüm temel modeller ses verileriyle eğitimi desteklemez. Temel model bunu desteklemezse hizmet sesi yoksayacak ve transkripsiyonların metniyle eğitecek. Bu durumda eğitim, ilgili metinle eğitimle aynı olur. Ses verileriyle eğitimi destekleyen temel modellerin listesi için bkz. Dil desteği.

Eğitim için düz metin verileri

Ürün adlarını veya sektöre özgü jargonu tanıtırken doğruluğu artırmak için etki alanıyla ilgili cümleleri kullanabilirsiniz. Cümleleri tek bir metin dosyasına girin. Doğruluğu artırmak için beklenen konuşmalara daha yakın olan metin verilerini kullanın.

Düz metinli eğitim genellikle birkaç dakika içinde tamamlanır.

Cümleleri kullanarak özel bir model oluşturmak için örnek konuşmaların listesini sağlamanız gerekir. Konuşmaların eksiksiz veya dilbilgisi açıdan doğru olması değil, üretimde beklediğiniz konuşma girişini doğru şekilde yansıtması gerekir. Belirli terimlerin ağırlığının artmasına yardımcı olmak için bu terimleri içeren birkaç cümle ekleyin.

Genel rehberlik olarak, eğitim metni üretimde beklenen gerçek metne mümkün olduğunca yakın olduğunda model uyarlaması en etkilidir. Geliştirmek istediğiniz etki alanına özgü jargon ve tümcecikler eğitim metnine ek olmalıdır. Mümkün olduğunda, ayrı bir satırda tek bir cümle veya anahtar sözcük denetlenmaya çalışabilirsiniz. Önem verdiğiniz anahtar sözcükler ve tümcecikleri (örneğin ürün adları) birkaç kez kopyalayabilirsiniz. Ama çok fazla kopyalamayın; genel tanıma oranını etkileyebilir.

Bu tabloyu kullanarak ilgili veri dosyanızın ifadeler için doğru biçimlendirildiğinden emin olun:

Özellik Değer
Metin kodlaması UTF-8 BOM
Satır başına konuşma sayısı 1
En büyük dosya boyutu 200 MB

Ayrıca aşağıdaki kısıtlamaları dikkate almak istersiniz:

  • Karakterleri, sözcükleri veya sözcük gruplarını üçten fazla kez tekrarlamaktan kaçının. Örneğin: "aaaa", "evet evet evet evet" veya "işte bu işte bu işte bu işte bu". Konuşma hizmeti çok fazla tekrar bulunan satırları bırakabilir.
  • Özel karakterleri veya U+00A1 karakterinin üzerindeki UTF-8 karakterlerini kullanmayın.
  • URI'ler reddedilir.
  • Bazı dillerde (Japonca veya Korece gibi), büyük miktarlardaki metin verilerini içeri aktarma işlemi çok uzun veya zaman alır. Karşıya yüklenen verileri her biri 20.000 satıra kadar olan metin dosyalarına bölmeyi göz önünde bulundurabilirsiniz.

Eğitim için yapılandırılmış metin verileri (Genel Önizleme)

Beklenen konuşmalar genellikle belirli bir deseni takip eder. Yaygın desenlerden biri, konuşmaların yalnızca listeden sözcüklere veya tümceciklere göre farklılık gösterir. Buna örnek olarak olası ürünlerin listesi olan "Hakkında bir sorum product var" product olabilir. Veya "Make that object color ," object (geometrik şekillerin listesi) ve color bir renk listesidir. Eğitim verilerini oluşturma işlemini basitleştirmek ve Özel Dil Modeli'nin içinde daha iyi modellemeyi etkinleştirmek için markdown biçiminde yapılandırılmış bir metin kullanarak öğe listelerini tanımlayabilir ve ardından eğitim ifadeleri içinde bunlara başvurabilirsiniz. Ayrıca markdown biçimi, sözcük söylenişlerini belirtmeyi de destekler. Markdown dosyasının bir uzantısı .md olması gerekir. Markdown'ın söz dizimi, özellikle liste varlıkları Language Understanding örnek konuşmalar olmak üzere Language Understanding modellerinde yer alan söz dizimi ile aynıdır. Tam markdown söz dizimi hakkında daha fazla bilgi için bkz. Language Understanding markdown.

Markdown biçimi örneği şu şekildedir:

// This is a comment

// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these
@ list food =
- pizza
- burger
- ice cream
- soda

@ list pet =
- cat
- dog

@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football

// This is a list of phonetic pronunciations. 
// This adjusts the pronunciation of every instance of these word in both a list or example training sentences 
@ speech:phoneticlexicon
- cat/k ae t
- cat/f i l ai n

// Here are example training sentences. They are grouped into two sections to help organize the example training sentences.
// You can refer to one of the lists we declared above by using {@listname} and you can refer to multiple lists in the same training sentence
// A training sentence does not have to refer to a list.
# SomeTrainingSentence
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}

# SomeMoreSentence
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet} 

Düz metin gibi, yapılandırılmış metinle eğitim de genellikle birkaç dakika sürer. Ayrıca örnek cümleler ve listeleriniz, üretimde beklediğiniz konuşma girişi türünü yansıtacak. Söyleniş girdileri için Universal Telefon Set (EvrenselTelefon bakın.

Aşağıdaki tabloda markdown biçimi için sınırlar ve diğer özellikler verilmiştir:

Özellik Değer
Metin kodlaması UTF-8 BOM
En büyük dosya boyutu 200 MB
En fazla örnek cümle sayısı 50,000
En fazla liste sınıfı sayısı 10
Liste sınıfındaki en fazla öğe sayısı 4.000
En fazla konuşma sayısı:phoneticlexicon girdisi 15000
Sözcük başına en fazla söyleniş sayısı 2

Eğitim için söyleniş verileri

Kullanıcılarının karşılaşacak veya kullanabileceği standart söylenişler olmayan yaygın terimler varsa, tanımayı geliştirmek için özel bir söyleniş dosyası sebilirsiniz. Özel söyleniş destekleyen dillerin listesi için Konuşmayı metne göre konuşma tablosunda özelleştirmeler sütunundaki Söyleniş'e bakın.

Önemli

Ortak sözcüklerin söylenişlerini değiştirmek için özel söyleniş dosyaları kullanılması önerilmez.

Not

Bu tür bir söyleniş dosyasını yapılandırılmış metin eğitim verileriyle birleştirebilirsiniz. Yapılandırılmış metin verileri için yapılandırılmış metin markdown biçimindeki telefon numarası özelliğini kullanın.

Tek bir metin dosyasında söylenişler sağlar. Buna konuşulan konuşma örnekleri ve her biri için özel bir söyleniş dahildir:

Tanınan/görüntülenen form Konuşma formu
3CPO three c p o
CNTK c n t k
IEEE i triple e

Konuşma biçimi, hecelenmiş olan telefon dizisidir. Harf, sözcük, hece veya üçünün birleşimini de olabilir.

Söylenişler için ilgili veri dosyanın doğru biçimlendirilmiş olduğundan emin olmak için aşağıdaki tabloyu kullanın. Söyleniş dosyaları küçüktür ve yalnızca birkaç kilobayt boyutunda olması gerekir.

Özellik Değer
Metin kodlaması UTF-8 BOM (ANSI İngilizce için de de desteklemektedir)
Satır başına söyleniş sayısı 1
En büyük dosya boyutu 1 MB (ücretsiz katman için 1 KB)

Test için ses verileri

Ses verileri, Microsoft'un temel konuşmayı metne doğru model veya özel bir modelin doğruluğunu test etmek için en uygun olandır. Ses verileri, belirli bir modelin performansı açısından konuşmanın doğruluğunu incelemek için kullanılır. Modelin doğruluğunu ölçmek için ses + insan etiketli transkriptler kullanın.

Özel Konuşma şu özelliklere sahip ses dosyaları gerektirir:

Özellik Değer
Dosya biçimi RIFF (WAV)
Örnekleme hızı 8.000Hz veya 16.000 Sona
Kanallar 1 (mono)
Ses başına en fazla uzunluk 2 saat
Örnek biçimi PCM, 16 bit
Arşiv biçimi .zip
En büyük arşiv boyutu 2 GB

Varsayılan ses akış biçimi WAV 'dir (16 kHz veya 8 kHz, 16 bit ve mono PCM). WAV/PCM dışında, aşağıda listelenen sıkıştırılmış giriş biçimleri de GStreamer kullanılarak desteklenir.

  • ÇA
  • OPUS/OGG
  • FLAC
  • WAV w kapsayıcısında
  • WAV kapsayıcısında MULAW
  • ANY (medya biçiminin bilinen senaryosu Için)

Not

Eğitim ve test verilerini karşıya yüklerken, .zip boyutu 2 GB'ın üzerinde olamaz. Eğitim için daha fazla veriye ihtiyaç .zip dosyalarına bölün ve bunları ayrı olarak karşıya yükleyin. Daha sonra, birden çok veri kümesinden eğitebilirsiniz. Ancak, yalnızca tek bir veri kümesinden test etmek için kullanabilirsiniz.

Ses özelliklerini doğrulamak veya mevcut sesi uygun biçimlere dönüştürmek için SoX kullanın. Bazı örnek SoX komutları aşağıda verilmiştir:

Etkinlik SoX komutu
Ses dosyası biçimini denetleyin. sox --i <filename>
Ses dosyasını tek kanala dönüştürün, 16 bit, 16 kHz. sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav

Sonraki adımlar