Verileri Bölme

Bir veri kümesinin satırlarını iki ayrı küme halinde bölümler

Kategori: veri dönüştürme/örnekleme ve bölme

Not

Uygulama hedefi: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgilidir. Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısına eklenmiştir. Bu makalede iki sürümü karşılaştırandaha fazla bilgi edinin.

Modüle genel bakış

Bu konuda, bir veri kümesini iki ayrı küme içine bölmek için Azure Machine Learning Studio (klasik) ' de bölünmüş veri modülünün nasıl kullanılacağı açıklanmaktadır.

Bu modül özellikle, verileri eğitim ve test kümelerine ayırmanız gerektiğinde faydalıdır. Verilerin ne şekilde bölüneceğini de özelleştirebilirsiniz. Bazı seçenekler verilerin rastgele olarak kullanımını destekler; bazıları belirli bir veri türü veya model türü için uyarlanmıştır.

Bölünmüş verileri yapılandırma

İpucu

Bölme modunu seçmeden önce, ihtiyacınız olan bölme türünü belirlemek için tüm seçenekleri okuyun. Bölme modunu değiştirirseniz diğer tüm seçenekler sıfırlanabilir.

  1. Studio 'daki denemenize veri bölme modülünü ekleyin. Bu modülü, veri dönüştürme altında, örnek ve bölünmüş kategoride bulabilirsiniz.

  2. Ayırma modu: sahip olduğunuz veri türüne ve onu bölmek istediğiniz bir değere bağlı olarak aşağıdaki modlardan birini seçin. Her bölme modunun farklı seçenekleri vardır. Ayrıntılı yönergeler ve örnekler için aşağıdaki konulara tıklayın.

    • Satırları Böl: yalnızca verileri iki parçaya bölmek istiyorsanız bu seçeneği kullanın. Her bir bölünmeye yerleştirilecek verilerin yüzdesini belirtebilirsiniz, ancak varsayılan olarak, veriler bölünmüş 50-50 ' dir.

      Ayrıca, her grupta satır seçimini rastgele rasgele hale getirebilirsiniz ve bunları Strata örnekleme kullanabilirsiniz. Bağlı örnekleme sırasında, değerlerinin iki sonuç veri kümesi arasında eşit olarak olmasını istediğiniz tek bir veri sütunu seçmelisiniz.

    • Öneren Split: verileri bir öneren sisteminde kullanılmak üzere hazırlıyorsanız her zaman bu seçeneği belirleyin. Kullanıcı öğesi çiftleri veya derecelendirmeler gibi önemli değerlerin gruplar arasında eşit olarak bölündüğü için veri kümelerini eğitim ve test gruplarına bölmenize yardımcı olur.

    • Normal Ifade bölme: bir değer için tek bir sütunu test ederek veri kümenizi bölmek istediğinizde bu seçeneği belirleyin.

      Örneğin, yaklaşımı analiz ediyorsanız, bir metin alanında belirli bir ürün adının varlığını denetleyebilir ve sonra veri kümesini hedef ürün adı ve olmadan satırlara bölebilirsiniz.

    • Göreli Ifade bölme: bir sayı sütununa koşul uygulamak istediğinizde bu seçeneği kullanın. Sayı bir tarih/saat alanı, Yaş veya dolar miktarları içeren bir sütun veya hatta bir yüzde olabilir. Örneğin, öğelerin maliyetine göre veri kümesini bölmek, kişileri yaş aralıklarına göre gruplamak veya bir Takvim tarihine göre verileri ayırmak isteyebilirsiniz.

Gereksinimler

  • Bölünmüş veriler tek seferde en fazla iki veri kümesi kümesi oluşturabilir ve bu kümelerin dışlamalı olması gerekir.

    Bu nedenle, birden çok koşul ve çıkışla karmaşık bir bölme varsa, birden çok bölünmüş veri modülünü birlikte zincirleyebilirsiniz.

    Alternatif olarak, bir CASE ifadesini ve SQL dönüştürme modülünü Uygula ' yı kullanabilirsiniz.

  • Bu modül verileri silmez veya veri kümesinden kaldırmaz; yalnızca modülün ilk ve ikinci çıkışları arasında belirtilen şekilde verileri böler.

  • Bir öneren sistemi için verileri bölmek bazı ek gereksinimler gerektirir. Genel olarak, veri kümesi yalnızca Kullanıcı-öğe çiftleri veya Kullanıcı-öğe derecelendirme Üçlü türlerini içerebilir. Bu nedenle, bölünmüş veri modülü, özellik türü verilerle karışıklık oluşmasını önlemek için üçten fazla sütunu olan veri kümelerinde çalışmaz. Veri kümeniz çok fazla sütun içeriyorsa şu hatayı alabilirsiniz:

    Hata 0022: giriş veri kümesindeki Seçili sütunların sayısı x değerine eşit değil

    Geçici bir çözüm olarak, bazı sütunları kaldırmak için veri kümesindeki sütunları seç ' i kullanabilir ve sonra sütunları ekle' yi kullanarak sütunları daha sonra ekleyebilirsiniz. Alternatif olarak, veri kümeniz modelde kullanmak istediğiniz birçok özelliğe sahipse, farklı bir seçenek kullanarak veri kümesini bölün ve Matchbox öneren eğitimiyerine modeli eğitme kullanarak modeli eğitme.

Örnekler

Bölünmüş veri modülünün nasıl kullanıldığına ilişkin örnekler için Azure yapay zeka Galerisibakın:

  • Ikili sınıflandırma Için çapraz doğrulama: yetişkin veri kümesi: daha küçük bir rastgele örneklenmiş veri kümesi oluşturmak için %20 örnekleme hızı uygulanır. (Orijinal görselleştirmenizdeki veri kümesinde 30.000 satır daha vardı; eğitim veri kümesinde 6500 ' in çevresinde bulunur). Veri kümesi eksik değerler için temizlenir ve daha sonra eğitim ve çapraz doğrulama için beş farklı modele geçirilir.

Teknik notlar

Bölünmüş verilerintüm kullanımları için aşağıdaki gereksinimler geçerlidir:

  • Giriş veri kümesi en az iki satır içermeli ya da bir hata ortaya çıktı.
  • İstenen sayıda satır belirtmek için seçeneğini kullanırsanız, belirtilen sayı pozitif bir tamsayı olmalıdır ve sayının veri kümesindeki toplam satır sayısından küçük olması gerekir.
  • Yüzde olarak bir sayı belirtirseniz veya "%" karakterini içeren bir dize kullanırsanız, değer yüzde olarak yorumlanır. Tüm yüzde değerleri 0 ve 100 değerlerinin dahil edilmesi için (0, 100) aralığında olmalıdır.
  • Bir kayan noktalı sayı olan bir sayı veya yüzde değerini belirtirseniz ve yüzde simgesini (%) kullanmıyorsanız, sayı orantılı bir değer olarak yorumlanır.
  • Dikey bölme için seçeneğini kullanırsanız, çıkış veri kümeleri bir konuşmasıyla Strata sütunu seçilerek alt gruplara göre daha da ayrılabilir.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri tablosu Bölünecek veri kümesi

Modül parametreleri

Ad Tür Aralık İsteğe Bağlı Description Varsayılan
Bölme modu Bölünmüş mod Satırları Böl, öneren Split, normal Ifade veya göreli Ifade Gerekli Satırları Böl Veri kümesini bölmek için yöntemi seçin

Çıkışlar

Ad Tür Description
Sonuçlar DataSet1 Veri tablosu Seçili satırları içeren veri kümesi
Sonuçlar Dataset2 Veri tablosu Diğer tüm satırları içeren veri kümesi

Ayrıca bkz.

Örnek ve bölünmüş
Bölüm ve örnek
A-Z modül listesi