Yinelenen Satırları Kaldırma

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Yinelenen satırları veri kümesinden kaldırır

Kategori: veri dönüştürme/işleme

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Modüle genel bakış

bu makalede, bir veri kümesinden potansiyel yinelemeleri kaldırmak için Machine Learning Studio 'da (klasik) yinelenen satırları kaldır modülünün nasıl kullanılacağı açıklanır.

Örneğin, verilerinizin aşağıdaki gibi göründüğünü varsayın ve hastalar için birden çok kaydı temsil eder.

Hatıd Baş harfler Cinsiyet Yaş Kabul edilen
1 F.M. M 53 Oca
2 F.A.M. M 53 Oca
3 F.A.M. M 24 Oca
3 F.M. M 24 Şub
4 F.M. M 23 Şub
F.M. M 23
5 F.A.M. M 53

Açık olarak, bu örnekte muhtemelen yinelenen verileri olan birden çok sütun vardır. Gerçekte yinelenen olup olmadıkları, verilerin bilgisine bağlıdır.

  • Örneğin, birçok hastaların aynı ada sahip olduğunu bilirsiniz. Herhangi bir ad sütununu kullanarak Yinelenenleri ortadan kaldırmadınız ve yalnızca ID sütunu. Bu şekilde, hastaların aynı ada sahip olup olmamasına bakılmaksızın yalnızca yinelenen KIMLIK değerleri olan satırlar filtrelenmelidir.

  • Alternatif olarak, KIMLIK alanında yinelemelere izin vermeye karar verebilir ve ad, soyadı, yaş ve cinsiyeti gibi benzersiz kayıtları bulmak için başka bir dosya grubu birleşimini kullanabilirsiniz.

Bir satırın yinelenen olup olmadığına ilişkin ölçütleri ayarlamak için, tek bir sütun veya anahtarolarak kullanılacak bir sütun kümesi belirtirsiniz. İki satır yalnızca Tüm anahtar sütunlarındaki değerler eşitse yinelenen olarak değerlendirilir.

Modülünü çalıştırdığınızda, bir aday veri kümesi oluşturur ve belirttiğiniz sütunlar kümesi içinde tekrarsız bir satır kümesi döndürür.

Önemli

Kaynak veri kümesi değiştirilmez; Bu modül, belirttiğiniz ölçütlere göre yinelemeleri hariç tutmak üzere filtrelenmiş yeni bir veri kümesi oluşturur.

Yinelenen satırları kaldır 'ı kullanma

  1. Modülü denemenize ekleyin. Veri dönüştürme, düzenlemealtında yinelenen satırları kaldır modülünü bulabilirsiniz.

  2. yinelenen satırları denetlemek istediğiniz veri kümesini Bağlan.

  3. Özellikler bölmesinde, anahtar sütunu seçim filtresi ifadesialtında, yinelemeleri tanımlamak için kullanılacak sütunları seçmek üzere sütun seçiciyi Başlat' a tıklayın.

    Bu bağlamda, anahtar benzersiz bir tanımlayıcı anlamına gelmez. Sütun seçiciyi kullanarak seçtiğiniz tüm sütunlar, anahtar sütunlarıolarak belirtilir. Seçili olmayan tüm sütunlar, anahtar olmayan sütunlar olarak kabul edilir. Anahtar olarak seçtiğiniz sütunların birleşimi kayıtların benzersizlik düzeyini belirler. (birden çok eşitlik birleştirme kullanan SQL bir ifade olarak düşünün.)

    Örnekler:

    • "Kimliklerin benzersiz olduğundan emin olmak istiyorum": yalnızca KIMLIK sütununu seçin.
    • "Ad, son ad ve KIMLIK birleşiminin benzersiz olduğundan emin olmak istiyorum": tüm üç sütunu seçin.
  4. Yinelemeler bulunduğunda hangi satırın dönecağını belirtmek için ilk yinelenen satırı koru onay kutusunu kullanın:

    • Seçilirse, ilk satır döndürülür ve diğerleri atılır.
    • Bu seçeneğin işaretini kaldırırsanız, son yinelenen satır sonuçlarda tutulur ve diğerleri atılır.

    Yanlış değerlerin nasıl işlendiği hakkında bilgi edinmek için Teknik notlar bölümüne bakın.

  5. Denemeyi çalıştırın veya modüle tıklayıp Seçileni Çalıştır' ı seçin.

  6. Sonuçları gözden geçirmek için modüle sağ tıklayın, sonuçlar veri kümesi' ni seçin ve Görselleştir' e tıklayın.

İpucu

Sonuçların anlaşılması zor olursa veya bazı sütunların dikkate alınması gerekiyorsa, veri kümesindeki sütunları seçme modülündeki sütunları kullanarak sütunu kaldırabilirsiniz.

Örnekler

Bu modülün nasıl kullanıldığına ilişkin örnekleri görmek için Azure yapay zeka Galerisibakın:

  • Breakst kanseri algılama: Özellik sütunları eklendikten sonra eğitim ve test veri kümelerini birleştirmek için yinelenen satırları kaldırma kullanılır.

  • Film önerisi: film başına yalnızca bir Kullanıcı derecelendirmesi olduğundan emin olmak için yinelenen satırları kaldır ' a kullanır.

  • Twitter yaklaşım Analizi: her film için yalnızca bir sıralı derecelendirme değeri olduğundan emin olmak için yinelenen satırları kaldır yalnızca kimliğe ve popülerlik sütunlarına uygulanır. Diğer bir deyişle, bir film hem 1 hem de 3 olamaz, böylece kullanıcılar filmi farklı derecelendirse bile tek bir değer kullanılır.

Teknik notlar

Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.

Uygulama ayrıntıları

Modül, giriş veri kümesinin tüm satırları üzerinden döngüye girerek işe yarar. Bir aday çıkış veri kümesinde, anahtar sütun değerlerinin benzersiz birleşiminin ilk kez göründüğü tüm satırları toplar.

Sütun dizisi türü satır filtreleme sonuçlarından bağımsız olarak korunur. Geçersiz değerleri filtreleerek diziyi belirli bir veri türüne zoramazsınız; sütun dizisi türü, sütundaki tüm değerleri temel alan bir değerdir. Bu kısıtlama, eksik değerleri filtrelerken de geçerlidir.

Veri değerlerini karşılaştırmak için kullanılan algoritma karma zorlamalı algoritmadır.

Eksik değerler

Giriş veri kümesinde anahtar olmayan sütunlarda ve anahtar sütunlarında eksik değerler olabilir. Bu kurallar eksik değerler için geçerlidir:

  • Eksik bir değer, anahtar sütunlarında geçerli bir değer olarak kabul edilir. Eksik değerler her iki anahtarda da mevcut olabilir.

  • Seyrek bir veri kümesinde, eksik değer yalnızca seyrek bir değerin varsayılan gösterimine eşitse eşit olarak kabul edilir.

  • Anahtar sütunlarında, eksik bir değer diğer eksik değerlere eşit olarak kabul edilir, ancak eksik olmayan değerlere eşit değildir.

Beklenen giriş

Ad Tür Description
Veri kümesi Veri Tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Anahtar sütunu seçimi filtre ifadesi herhangi biri ColumnSelection Yinelenenleri ararken kullanmak istediğiniz anahtar sütunları seçin.
İlk yinelenen satırı koruma herhangi biri Boole true Bir dizi yinelemenin ilk satırın tut ve diğerlerini atıp atmayacaklarını belirt. False ise, karşılaşılan son yinelenen satır tutulur.

Çıktı

Ad Tür Description
Sonuç veri kümesi Veri Tablosu Filtrelenmiş veri kümesi

Özel durumlar

Özel durum Description
Hata 0003 Giriş veri kümelerinden biri veya daha fazlası null veya boşsa özel durum oluşur.
Hata 0020 Modüle geçirilen bazı veri kümelerinin sütun sayısı çok küçükse özel durum oluşur.
Hata 0017 Belirtilen bir veya daha fazla sütun geçerli modül tarafından desteklenmeyen bir türe sahipse özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Manipülasyon
A-Z Modül Listesi