Uygulamanız için veri toplama

Önemli

LUIS 1 Ekim 2025'te kullanımdan kaldırılacak ve 1 Nisan 2023'den itibaren yeni LUIS kaynakları oluşturamayacaksınız. Devam eden ürün desteği ve çok dilli özelliklerden yararlanmak için LUIS uygulamalarınızıkonuşma dili anlama özelliğine geçirmenizi öneririz.

Language Understanding (LUIS) uygulaması, uygulama geliştirmenin bir parçası olarak verilere ihtiyaç duyar.

LUIS'de kullanılan veriler

LUIS, luis uygulamanızı amaçlar için sınıflandırma ve varlıkları ayıklama amacıyla eğitmek ve test etmek için metinleri veri olarak kullanır. Özellikle aşağıda belirtilen çeşitliliğe ve dağılıma sahip eğitim ve test için ayrı veri kümeleri oluşturmak için yeterli veri kümenize sahip olacak kadar büyük bir veri kümesine ihtiyacınız vardır. Bu kümelerin her birindeki veriler çakışmamalıdır.

Konuşmalar gibi eğitim verileri seçimi

Aşağıdaki ölçütlere göre eğitim kümeniz için konuşmaları seçin:

  • Gerçek veriler en iyisidir:

    • İstemci uygulamasından gerçek veriler: İstemci uygulamanızdan gerçek veriler olan konuşmaları seçin. Müşteri sorgularını içeren bir web formu gönderirse ve bir bot oluşturuyorsanız, web formu verilerini kullanarak işe başlayabilirsiniz.
    • Kalabalık kaynaklı veriler: Mevcut verileriniz yoksa, konuşmaların kitle kaynağını belirlemeyi göz önünde bulundurun. Uygulamanızın göreceği gerçek verilerin en iyi tahminini elde etmek için senaryonuz için gerçek kullanıcı popülasyonunuzdan gelen konuşmaları kitle kaynağı olarak oluşturmayı deneyin. Kalabalık kaynaklı insan konuşmaları, bilgisayar tarafından oluşturulan konuşmalardan daha iyidir. Belirli desenler üzerinde oluşturulan yapay konuşmalardan oluşan bir veri kümesi oluşturduğunuzda, konuşmaları oluşturan kişilerde göreceğiniz doğal varyasyonun büyük bir kısmı eksik olur ve üretimde iyi genelleştirilemez.
  • Veri çeşitliliği:

    • Bölge çeşitliliği: Her amacın verilerinin tümce (sözcük seçimi) ve dil bilgisi de dahil olmak üzere mümkün olduğunca çeşitli olduğundan emin olun. İk ilkeleri hakkında tatil günleri hakkında bir amaç öğretiyorsanız, hizmet vermekte olduğunuz tüm bölgeler için kullanılan terimleri temsil eden konuşmalara sahip olduğunuzdan emin olun. Örneğin, Avrupa'da insanlar hakkında taking a holiday soru sorabilir ve ABD'de insanlar hakkında taking vacation dayssoru sorabilir.
    • Dil çeşitliliği: İkinci bir dilde iletişim kurabilen çeşitli yerel dillere sahip kullanıcılarınız varsa, anadili olmayanları temsil eden konuşmalara sahip olduğunuzdan emin olun.
    • Giriş çeşitliliği: Veri giriş yolunuzu göz önünde bulundurun. Bir kişiden, departmandan veya giriş cihazından (mikrofon) veri topluyorsanız, büyük olasılıkla uygulamanızın tüm giriş yolları hakkında bilgi edinmeleri için önemli olan çeşitliliği kaçırmış olabilirsiniz.
    • Noktalama işaretleri çeşitliliği: kişilerin metin uygulamalarında farklı noktalama düzeyleri kullandığını ve noktalama işaretlerinin nasıl kullanıldığına ilişkin çeşitliliğe sahip olduğunuzdan emin olun. Konuşmadan gelen verileri kullanıyorsanız, herhangi bir noktalama işareti yoktur, bu nedenle verileriniz de olmamalıdır.
  • Veri dağıtımı: Amaçlara yayılan verilerin istemci uygulamanızın aldığı verilerin aynı yayılmasını temsil ettiğinden emin olun. LUIS uygulamanız izin zamanlaması (%50) isteği olan konuşmaları sınıflandıracaksa ancak kalan izin günlerini (%20) sorgulama, yaprakları onaylama (%20) ve bazı kapsam dışı sohbetleri ve sohbeti (%10) onaylama hakkındaki konuşmaları da görüyorsa, veri kümenizde her konuşma türünün örnek yüzdeleri olmalıdır.

  • Tüm veri formlarını kullan: LUIS uygulamanız birden çok biçimde veri alacaksa, bu formları eğitim konuşmalarınıza eklediğinizden emin olun. Örneğin, istemci uygulamanız hem konuşma hem de yazılan metin girişi alıyorsa, hem metinde oluşturulan konuşmalara hem de yazılan konuşmalara konuşmanız gerekir. Kişilerin nasıl konuştuklarından farklı çeşitlemeler ve konuşma tanıma ve yazım hatalarında farklı hatalar göreceksiniz. Bu varyasyonun tümü eğitim verilerinizde gösterilmelidir.

  • Olumlu ve olumsuz örnekler: Bir LUIS uygulamasına öğretmek için amacın ne olduğunu (pozitif) ve ne olmadığını (negatif) öğrenmesi gerekir. LUIS'de konuşmalar yalnızca tek bir amaç için pozitif olabilir. Bir amaca konuşma eklendiğinde, LUIS otomatik olarak aynı örnek konuşmayı diğer tüm amaçlar için olumsuz bir örnek haline getirir.

  • Uygulama kapsamı dışındaki veriler: Uygulamanız tanımlı amaçlarınızın dışında kalan konuşmalar görecekse bunları sağladığınızdan emin olun. Belirli bir tanımlı amada atanmamış örnekler Hiçbiri amacıyla etiketlenir. Tanımlı amaçların kapsamı dışında olan konuşmaları düzgün bir şekilde tahmin etmek için None amacına yönelik gerçekçi örneklerin olması önemlidir.

    Örneğin, izin zamanına odaklanan bir İk botu oluşturuyorsanız ve üç amacınız varsa:

    • izni zamanlama veya düzenleme
    • izin günlerini sorgulama
    • izni onaylama/onaylama

    Bu amaçların her ikisini de kapsayan konuşmalara sahip olduğunuzdan, aynı zamanda uygulamanın şu şekilde hizmet vermesi gereken kapsamın dışındaki olası konuşmaları kapsayan konuşmalara sahip olduğunuzdan emin olmak istiyorsunuz:

    • What are my medical benefits?
    • Who is my HR rep?
    • tell me a joke
  • Nadir örnekler: Uygulamanızın nadir örnekleri ve yaygın örnekleri olması gerekir. Uygulamanız hiç nadir örnekler görmediyse, bunları üretim ortamında tanımlayamaz. Gerçek veriler kullanıyorsanız LUIS uygulamanızın üretimde nasıl çalışacağını daha doğru tahmin edebilirsiniz.

Miktar yerine kalite

Daha fazla veri eklemeden önce mevcut verilerinizin kalitesini göz önünde bulundurun. LUIS ile Makine Öğretimi'ne sahipsiniz. Etiketlerinizin ve tanımladığınız makine öğrenmesi özelliklerinin birleşimi, LUIS uygulamanızın kullandığı özelliktir. En iyi tahmini yapmak için yalnızca etiket miktarına güvenmez. Örneklerin çeşitliliği ve LUIS uygulamanızın üretimde göreceklerini temsil etmeleri en önemli bölümdür.

Verileri önceden işleme

Aşağıdaki ön işleme adımları daha iyi bir LUIS uygulaması oluşturmaya yardımcı olacaktır:

  • Yinelenenleri kaldırma: Yinelenen konuşmalar zarar vermez, ancak bunlar da yararlı olmaz, bu nedenle bunları kaldırmak etiketleme zamanından tasarruf etmenizi sağlar.
  • Aynı istemci-uygulama ön işlemini uygula: LUIS tahmin uç noktasını çağıran istemci uygulamanız, metni LUIS'e göndermeden önce çalışma zamanında veri işlemeyi uyguluyorsa, LUIS uygulamasını aynı şekilde işlenen veriler üzerinde eğitmelisiniz.
  • İstemci uygulamasının kullanmadığı yeni temizleme işlemlerini uygulamayın: İstemci uygulamanız dil bilgisi veya noktalama gibi herhangi bir temizleme olmadan konuşma tarafından oluşturulan metni doğrudan kabul ederse, ifadelerinizin eksik noktalama işaretleri ve hesaba katacağınız diğer yanlış anlaşılmalar da dahil olmak üzere aynı şeyi yansıtması gerekir.
  • Verileri temizleme: Bozuk konuşma tanıma, yanlışlıkla tuş basıları veya yanlış yazılmış/yanlış yazılmış metinden alabileceğiniz hatalı biçimlendirilmiş girişlerden kurtulmayın. Uygulamanız bunlara benzer girişler görecekse bunlar üzerinde eğitilmesi ve test edilmesi önemlidir. Uygulamanızın bunu anlamasını beklemiyorsanız yanlış biçimlendirilmiş bir giriş amacı ekleyin. LUIS uygulamanızın çalışma zamanında doğru yanıtı tahmin etmelerine yardımcı olmak için bu verileri etiketle. İstemci uygulamanız gibi Please try againanlaşılır olmayan ifadelere uygun bir yanıt seçebilir.

Verileri etiketleme

  • Metni doğruymış gibi etiketle: Örnek konuşmalarda etiketlenmiş bir varlığın tüm biçimleri bulunmalıdır. Bu, yanlış yazılmış, yanlış yazılmış ve yanlış çevrilmiş metinleri içerir.

LUIS uygulaması üretimde olduktan sonra veri gözden geçirme

Bir uygulamayı üretim ortamına dağıttıktan sonra gerçek konuşma trafiğini izlemek için uç nokta konuşmalarını gözden geçirin. Bu sayede eğitim konuşmalarınızı gerçek verilerle güncelleştirerek uygulamanızı geliştirebilirsiniz. Kitle kaynaklı veya gerçek olmayan senaryo verileriyle oluşturulan tüm uygulamalar, gerçek kullanımına göre geliştirilmelidir.

Toplu test için veri seçimini test etme

Eğitim konuşmaları için yukarıda listelenen tüm ilkeler , test kümeniz için kullanmanız gereken konuşmalar için geçerlidir. Amaçlar ve varlıklar arasındaki dağıtımın gerçek dağılımı mümkün olduğunca yakın yansıtmasını sağlayın.

Eğitim kümenizdeki konuşmaları test kümenizde yeniden kullanma. Bu, sonuçlarınızı yanlış sapmaya neden olur ve LUIS uygulamanızın üretimde nasıl performans göstereceğini doğru şekilde göstermez.

Uygulamanızın ilk sürümü yayımlandıktan sonra, test kümenizin üretim dağıtımınızı yansıtdığından ve zaman içinde gerçekçi performansı izleyebildiğinizden emin olmak için test kümenizi gerçek trafikten konuşmalarla güncelleştirmeniz gerekir.

Sonraki adımlar

LUIS'in tahminden önce verilerinizi nasıl değiştirdiğini öğrenin