Öneren Split kullanarak verileri bölme

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

bu makalede, Machine Learning Studio 'nun (klasik) bölünmüş veri modülünde öneren split seçeneğinin nasıl kullanılacağı açıklanır. Bu seçenek, bir öneri modeliyle kullanmak üzere eğitime ve test veri kümelerine hazırlanmanız gerektiğinde faydalıdır. Bu modellerin yalnızca belirli bir biçim gerektirmesine değil, derecelendirmeleri, kullanıcıları ve öğeleri özel araçlar olmadan dengeli bir şekilde bölmek çok zor olabilir.

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Öneren Split seçeneği, üzerinde çalıştığınız öneri modelinin türünü isteyerek bu işlemi kolaylaştırır: Örneğin, öğeleri önermek, bir derecelendirme önerme veya ilgili kullanıcıları buldunuz? Daha sonra, veri kümesini belirttiğiniz ölçütlere göre böler, örneğin soğuk kullanıcıları veya soğuk öğeleri işleme.

Veri kümelerini böldüğünüz zaman modül, biri eğitim için ve diğeri test ya da model değerlendirmesi için tasarlanan iki veri kümesi döndürür. Giriş veri kümesi, örnek başına ek veri (derecelendirmeler gibi) içeriyorsa, çıktıda saklanır.

Machine Learning denemeleri için veri bölümleme hakkında genel bilgi için bkz.

Verileri bölme modülündeki diğer seçenekler, verileri bölmek için farklı yollar destekler:

Öneri modeli tarafından kullanılan bir veri kümesini bölme

Öneren Split seçeneği, öneri sistemlerini eğitmek için kullanılan veriler için özel olarak sağlanır.

Bu seçeneği kullanmadan önce, verilerinizin uyumlu bir biçimde olduğundan emin olun. Öneren bölümlendiricisi, DataSet 'in yalnızca Kullanıcı-öğe çiftleri veya Kullanıcı-öğe derecelendirme Üçlü yönlerini içerdiğini varsayımıyla işe yarar. Ayrıntılar için bu makaledeki giriş verileri gereksinimleri bölümüne bakın.

  1. Veri ayırma modülünü denemenize ekleyin ve ayırmak istediğiniz veri kümesine giriş olarak bağlayın.

  2. Ayırma moduiçin öneren Split' ı seçin.

  3. Değerlerin nasıl bölüneceğini denetlemek için aşağıdaki seçenekleri ayarlayın. 0 ile 1 arasında bir sayı olarak temsil edilen bir yüzde belirtin.

    • Yalnızca eğitim için Kullanıcı kesri: yalnızca eğitim verileri kümesine atanması gereken kullanıcıların kesirlerini belirtin. Bu, satırların hiçbir şekilde modeli test etmek için kullanılmayacağını gösterir.

    • Eğitim için test Kullanıcı derecelendirmelerinin kesri: topladığınız Kullanıcı derecelendirmelerinin bazı kısımlarının eğitim için kullanılabileceğini belirtin.

    • Soğuk kullanıcıların kesri: soğuk kullanıcılar, sistem tarafından daha önce karşılaşılmayan kullanıcılardır. Genellikle, sistem bu kullanıcılar hakkında bilgi olmadığından, eğitim için değerlidir, ancak tahminler daha az doğru olabilir.

    • Soğuk öğelerin kesri: soğuk öğeler, sistemin daha önce karşılaştığı öğelerdir. Sistemde bu öğelerle ilgili hiçbir bilgi bulunmadığından, bu öğeler eğitim için değerlidir, ancak tahminleri daha az doğru olabilir.

    • Yoksayılan kullanıcıların kesri: Bu seçenek, öneren 'in bazı kullanıcıları yok saymasına izin verir ve bu da modeli bir veri alt kümesinde eğitmenizi sağlar. Bu, performans nedenleriyle yararlı olabilir. Yok sayılacak Kullanıcı yüzdesini belirtirsiniz.

    • Yoksayılan öğelerin kesri: öneren Splitter bazı öğeleri yoksayabilir ve bir veri alt kümesinde modeli eğitebilir. Bu, performans nedenleriyle yararlı olabilir. Yok sayılacak öğelerin yüzdesini belirtirsiniz.

  4. Bazen üretilen soğuk öğeleri kaldır: Bu seçenek genellikle sıfır olarak ayarlanır ve test kümesindeki tüm varlıkların eğitim kümesine eklendiğinden emin olur.

    Bir öğe yalnızca test kümesi tarafından kapsanacak ve açıkça soğuk olarak seçilmeyen "bazen soğuk" olarak kabul edilir. Bu tür öğeler, öneren verilerinin nasıl bölüneceği bölümünde açıklanan algoritmada (4) ve (6) adımları tarafından üretilebilir.

  5. Öneren Için rastgele çekirdek: verileri her seferinde aynı şekilde ayırmak istiyorsanız bir çekirdek değeri belirtin. Aksi takdirde, varsayılan olarak, giriş verileri, çekirdek olarak bir sistem saati değeri kullanılarak rastgele bölünür.

  6. Denemeyi çalıştırın.

Örnekler

Bir öneri modelini eğitim veya test etmek için kullanılan bir derecelendirme ve özellik kümesini bölme örnekleri için Azure yapay zeka Galerisi: film önerisi ' nde bu örnek deneyime yönelik izlenecek yolu incelemenizi öneririz.

Teknik notlar

Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.

Giriş verileri için gereksinimler

Öneren bölümlendiricisi, DataSet 'in yalnızca Kullanıcı-öğe çiftleri veya Kullanıcı-öğe derecelendirme Üçlü yönlerini içerdiğini varsayımıyla işe yarar. Bu nedenle, bölünmüş veri modülü, özellik türü verilerle karışıklık oluşmasını önlemek için üçten fazla sütunu olan veri kümelerinde çalışmaz.

Veri kümeniz çok fazla sütun içeriyorsa şu hatayı alabilirsiniz:

Hata 0022: giriş veri kümesindeki Seçili sütunların sayısı x değerine eşit değil

Geçici bir çözüm olarak, bazı sütunları kaldırmak için veri kümesinde sütunları seç ' i kullanabilirsiniz. Sütunları Ekle modülünü kullanarak her zaman sütunları daha sonra tekrar ekleyebilirsiniz.

Alternatif olarak, veri kümeniz modelde kullanmak istediğiniz birçok özelliğe sahipse, farklı bir seçenek kullanarak veri kümesini bölün ve Matchbox öneren eğitimiyerine modeli eğitme kullanarak modeli eğitme.

Desteklenen veri biçimleri hakkında ayrıntılı bilgi için bkz. tren Matchbox öneren.

Kullanım ipuçları

  • Veri kümesi en az iki satır içermiyorsa bir hata oluşur.

  • Yüzde olarak bir sayı belirtirseniz veya "%" karakterini içeren bir dize kullanırsanız, değer yüzde olarak yorumlanır.

    Tüm yüzde değerleri 0 ve 100 değerlerinin dahil edilmesi için (0, 100) aralığında olmalıdır.

  • Bir kayan noktalı sayı olan bir sayı veya yüzde değerini belirtirseniz ve yüzde simgesini (%) kullanmıyorsanız, sayı orantılı bir değer olarak yorumlanır.

Uygulama ayrıntıları

Aşağıdaki algoritma, bir öneri modeliyle kullanılmak üzere verileri eğitim ve test kümelerine bölmek için kullanılır:

  1. Yoksayılan öğelerin istenen kesri tüm ilişkili gözlemlerle kaldırılmıştır.

  2. Soğuk öğelerin istenen kesri, tüm ilişkili gözlemlerle test kümesine taşınır.

  3. İlk iki adımdan sonra kalan yoksayılan kullanıcıların istenen kesri, ilişkili tüm gözlemlerle kaldırıldıktan sonra.

  4. İlk iki adımdan sonra kalan soğuk kullanıcıların istenen kesri, tüm ilişkili gözlemlerle test kümesine taşındıktan sonra.

  5. Yalnızca ilk iki adımdan sonra kalan eğitim kullanıcıları, tüm ilişkili gözlemlerle eğitim kümesine taşındıktan sonra, yalnızca eğitimin Kullanıcı tarafından istenen kesri.

  6. Önceki adımlardan sonra kalan her bir kullanıcı için eğitim için test Kullanıcı derecelendirmelerinin istenen kesri eğitim kümesine taşınır ve geri kalan test kümesine taşınır.

    En az bir gözlem her zaman her bir kullanıcı için eğitim kümesine taşınır.

  7. İstenirse, zaman zaman üretilen soğuk öğelerle ilişkili örnekler test kümesinden kaldırılabilir.

    Bir öğe yalnızca test kümesi tarafından kapsanacak ve açıkça soğuk olarak seçilmeyen "bazen soğuk" olarak kabul edilir. Bu tür öğeler, (4) ve (6) adımları tarafından üretilebilir.

    Bu seçeneğin beklenen kullanımı, istenen sayıda soğuk Kullanıcı ve öğe sayısının sıfıra ayarlandır. Bu, test kümesindeki tüm varlıkların eğitim kümesine dahil edilmesini sağlar.

Ayrıca bkz.

Veri bölümünü bölmeve bölme