Yinelenen Satırları Kaldır bileşeni

Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.

Bir veri kümesinden olası yinelenenleri kaldırmak için bu bileşeni kullanın.

Örneğin, verilerinizin aşağıdaki gibi göründüğünü ve hastalar için birden çok kaydı temsil eder olduğunu varsayalım.

PatientID Baş harfler Cinsiyet Yaş Kabul
1 F.M. M 53 Oca
2 F.A.M. M 53 Oca
3 F.A.M. M 24 Oca
3 F.M. M 24 Şub
4 F.M. M 23 Şub
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

Açıkçası, bu örnekte yinelenen veriler olabilecek birden çok sütun vardır. Bunların gerçekten yinelenen olup olmadığı, verilerle ilgili bilginize bağlıdır.

  • Örneğin, birçok hastanın aynı ada sahip olduğunu biliyor olabilirsiniz. Herhangi bir ad sütunu kullanarak yinelenenleri ortadan kaldırmazsınız, yalnızca Kimlik sütununu kullanabilirsiniz. Bu şekilde, hastaların aynı ada sahip olup olmadığına bakılmaksızın yalnızca yinelenen kimlik değerlerine sahip satırlar filtrelenir.

  • Alternatif olarak, kimlik alanında yinelenenlere izin verebilir ve ad, soyadı, yaş ve cinsiyet gibi benzersiz kayıtları bulmak için başka bir dosya bileşimi kullanabilirsiniz.

Bir satırın yinelenip yinelenmediğine ilişkin ölçütleri ayarlamak için, anahtar olarak kullanılacak tek bir sütun veya sütun kümesi belirtirsiniz. İki satır, yalnızca tüm anahtar sütunlarındaki değerler eşit olduğunda yinelenen olarak kabul edilir. Herhangi bir satırda anahtarlar için eksik değer varsa, bunlar yinelenen satırlar olarak kabul edilmez. Örneğin, Cinsiyet ve Yaş yukarıdaki tabloda Anahtarlar olarak ayarlanırsa, 6. ve 7. satırlar Yaş içinde eksik değere sahip olduklarında yinelenen satırlar değildir.

Bileşeni çalıştırdığınızda bir aday veri kümesi oluşturur ve belirttiğiniz sütun kümesinde yinelemesi olmayan bir satır kümesi döndürür.

Önemli

Kaynak veri kümesi değiştirilmez; bu bileşen, belirttiğiniz ölçütlere göre yinelenenleri dışlamak için filtrelenmiş yeni bir veri kümesi oluşturur.

Yinelenen Satırları Kaldır'ı kullanma

  1. Bileşeni işlem hattınıza ekleyin. Yinelenen Satırları Kaldır bileşenini Veri Dönüştürme, Düzenleme altında bulabilirsiniz.

  2. Yinelenen satırları denetlemek istediğiniz veri kümesini bağlayın.

  3. Özellikler bölmesindeki Anahtar sütun seçimi filtre ifadesi'nin altında Sütun seçiciyi başlat'a tıklayarak yinelenenleri tanımlamada kullanılacak sütunları seçin.

    Bu bağlamda Anahtar , benzersiz bir tanımlayıcı anlamına gelmez. Sütun Seçici'yi kullanarak seçtiğiniz tüm sütunlar anahtar sütunlar olarak atanır. Seçilmemiş tüm sütunlar anahtar olmayan sütunlar olarak kabul edilir. Anahtar olarak seçtiğiniz sütunların birleşimi, kayıtların benzersizliğini belirler. (Bunu birden çok eşitlik birleşimi kullanan bir SQL deyimi olarak düşünün.)

    Örnekler:

    • "Kimliklerin benzersiz olduğundan emin olmak istiyorum": Yalnızca Kimlik sütununu seçin.
    • "Ad, soyadı ve kimlik birleşiminin benzersiz olduğundan emin olmak istiyorum": Üç sütunun tümünü seçin.
  4. Yinelenenler bulunduğunda döndürülecek satırı belirtmek için İlk yinelenen satırı koru onay kutusunu kullanın:

    • Seçilirse, ilk satır döndürülür ve diğerleri atılır.
    • Bu seçeneğin işaretini kaldırırsanız, son yinelenen satır sonuçlarda tutulur ve diğerleri atılır.
  5. İşlem hattını gönderin.

  6. Sonuçları gözden geçirmek için bileşene sağ tıklayın ve Görselleştir'i seçin.

İpucu

Sonuçları anlamak zorsa veya bazı sütunları dikkate almak istemiyorsanız, Veri Kümesindeki Sütunları Seç bileşenini kullanarak sütunları kaldırabilirsiniz.

Sonraki adımlar

Azure Machine Learning'in kullanabileceği bileşenler kümesine bakın.