Yinelenen Satırları Kaldırma
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- makine öğrenimi projelerini ML Studio (klasik) konumundan Azure Machine Learning taşımaya yönelik bilgilerebakın.
- Azure Machine Learninghakkında daha fazla bilgi edinin.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Yinelenen satırları veri kümesinden kaldırır
Kategori: veri dönüştürme/işleme
Not
uygulama hedefi: yalnızca Machine Learning Studio (klasik)
benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.
Modüle genel bakış
bu makalede, bir veri kümesinden potansiyel yinelemeleri kaldırmak için Machine Learning Studio 'da (klasik) yinelenen satırları kaldır modülünün nasıl kullanılacağı açıklanır.
Örneğin, verilerinizin aşağıdaki gibi göründüğünü varsayın ve hastalar için birden çok kaydı temsil eder.
Hatıd | Baş harfler | Cinsiyet | Yaş | Kabul edilen |
---|---|---|---|---|
1 | F.M. | M | 53 | Oca |
2 | F.A.M. | M | 53 | Oca |
3 | F.A.M. | M | 24 | Oca |
3 | F.M. | M | 24 | Şub |
4 | F.M. | M | 23 | Şub |
F.M. | M | 23 | ||
5 | F.A.M. | M | 53 |
Açık olarak, bu örnekte muhtemelen yinelenen verileri olan birden çok sütun vardır. Gerçekte yinelenen olup olmadıkları, verilerin bilgisine bağlıdır.
Örneğin, birçok hastaların aynı ada sahip olduğunu bilirsiniz. Herhangi bir ad sütununu kullanarak Yinelenenleri ortadan kaldırmadınız ve yalnızca ID sütunu. Bu şekilde, hastaların aynı ada sahip olup olmamasına bakılmaksızın yalnızca yinelenen KIMLIK değerleri olan satırlar filtrelenmelidir.
Alternatif olarak, KIMLIK alanında yinelemelere izin vermeye karar verebilir ve ad, soyadı, yaş ve cinsiyeti gibi benzersiz kayıtları bulmak için başka bir dosya grubu birleşimini kullanabilirsiniz.
Bir satırın yinelenen olup olmadığına ilişkin ölçütleri ayarlamak için, tek bir sütun veya anahtarolarak kullanılacak bir sütun kümesi belirtirsiniz. İki satır yalnızca Tüm anahtar sütunlarındaki değerler eşitse yinelenen olarak değerlendirilir.
Modülünü çalıştırdığınızda, bir aday veri kümesi oluşturur ve belirttiğiniz sütunlar kümesi içinde tekrarsız bir satır kümesi döndürür.
Önemli
Kaynak veri kümesi değiştirilmez; Bu modül, belirttiğiniz ölçütlere göre yinelemeleri hariç tutmak üzere filtrelenmiş yeni bir veri kümesi oluşturur.
Yinelenen satırları kaldır 'ı kullanma
Modülü denemenize ekleyin. Veri dönüştürme, düzenlemealtında yinelenen satırları kaldır modülünü bulabilirsiniz.
yinelenen satırları denetlemek istediğiniz veri kümesini Bağlan.
Özellikler bölmesinde, anahtar sütunu seçim filtresi ifadesialtında, yinelemeleri tanımlamak için kullanılacak sütunları seçmek üzere sütun seçiciyi Başlat' a tıklayın.
Bu bağlamda, anahtar benzersiz bir tanımlayıcı anlamına gelmez. Sütun seçiciyi kullanarak seçtiğiniz tüm sütunlar, anahtar sütunlarıolarak belirtilir. Seçili olmayan tüm sütunlar, anahtar olmayan sütunlar olarak kabul edilir. Anahtar olarak seçtiğiniz sütunların birleşimi kayıtların benzersizlik düzeyini belirler. (birden çok eşitlik birleştirme kullanan SQL bir ifade olarak düşünün.)
Örnekler:
- "Kimliklerin benzersiz olduğundan emin olmak istiyorum": yalnızca KIMLIK sütununu seçin.
- "Ad, son ad ve KIMLIK birleşiminin benzersiz olduğundan emin olmak istiyorum": tüm üç sütunu seçin.
Yinelemeler bulunduğunda hangi satırın dönecağını belirtmek için ilk yinelenen satırı koru onay kutusunu kullanın:
- Seçilirse, ilk satır döndürülür ve diğerleri atılır.
- Bu seçeneğin işaretini kaldırırsanız, son yinelenen satır sonuçlarda tutulur ve diğerleri atılır.
Yanlış değerlerin nasıl işlendiği hakkında bilgi edinmek için Teknik notlar bölümüne bakın.
Denemeyi çalıştırın veya modüle tıklayıp Seçileni Çalıştır' ı seçin.
Sonuçları gözden geçirmek için modüle sağ tıklayın, sonuçlar veri kümesi' ni seçin ve Görselleştir' e tıklayın.
İpucu
Sonuçların anlaşılması zor olursa veya bazı sütunların dikkate alınması gerekiyorsa, veri kümesindeki sütunları seçme modülündeki sütunları kullanarak sütunu kaldırabilirsiniz.
Örnekler
Bu modülün nasıl kullanıldığına ilişkin örnekleri görmek için Azure yapay zeka Galerisibakın:
Breakst kanseri algılama: Özellik sütunları eklendikten sonra eğitim ve test veri kümelerini birleştirmek için yinelenen satırları kaldırma kullanılır.
Film önerisi: film başına yalnızca bir Kullanıcı derecelendirmesi olduğundan emin olmak için yinelenen satırları kaldır ' a kullanır.
Twitter yaklaşım Analizi: her film için yalnızca bir sıralı derecelendirme değeri olduğundan emin olmak için yinelenen satırları kaldır yalnızca kimliğe ve popülerlik sütunlarına uygulanır. Diğer bir deyişle, bir film hem 1 hem de 3 olamaz, böylece kullanıcılar filmi farklı derecelendirse bile tek bir değer kullanılır.
Teknik notlar
Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.
Uygulama ayrıntıları
Modül, giriş veri kümesinin tüm satırları üzerinden döngüye girerek işe yarar. Bir aday çıkış veri kümesinde, anahtar sütun değerlerinin benzersiz birleşiminin ilk kez göründüğü tüm satırları toplar.
Sütun dizisi türü satır filtreleme sonuçlarından bağımsız olarak korunur. Geçersiz değerleri filtreleerek diziyi belirli bir veri türüne zoramazsınız; sütun dizisi türü, sütundaki tüm değerleri temel alan bir değerdir. Bu kısıtlama, eksik değerleri filtrelerken de geçerlidir.
Veri değerlerini karşılaştırmak için kullanılan algoritma karma zorlamalı algoritmadır.
Eksik değerler
Giriş veri kümesinde anahtar olmayan sütunlarda ve anahtar sütunlarında eksik değerler olabilir. Bu kurallar eksik değerler için geçerlidir:
Eksik bir değer, anahtar sütunlarında geçerli bir değer olarak kabul edilir. Eksik değerler her iki anahtarda da mevcut olabilir.
Seyrek bir veri kümesinde, eksik değer yalnızca seyrek bir değerin varsayılan gösterimine eşitse eşit olarak kabul edilir.
Anahtar sütunlarında, eksik bir değer diğer eksik değerlere eşit olarak kabul edilir, ancak eksik olmayan değerlere eşit değildir.
Beklenen giriş
Ad | Tür | Description |
---|---|---|
Veri kümesi | Veri Tablosu | Giriş veri kümesi |
Modül parametreleri
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
Anahtar sütunu seçimi filtre ifadesi | herhangi biri | ColumnSelection | Yinelenenleri ararken kullanmak istediğiniz anahtar sütunları seçin. | |
İlk yinelenen satırı koruma | herhangi biri | Boole | true | Bir dizi yinelemenin ilk satırın tut ve diğerlerini atıp atmayacaklarını belirt. False ise, karşılaşılan son yinelenen satır tutulur. |
Çıktı
Ad | Tür | Description |
---|---|---|
Sonuç veri kümesi | Veri Tablosu | Filtrelenmiş veri kümesi |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0003 | Giriş veri kümelerinden biri veya daha fazlası null veya boşsa özel durum oluşur. |
Hata 0020 | Modüle geçirilen bazı veri kümelerinin sütun sayısı çok küçükse özel durum oluşur. |
Hata 0017 | Belirtilen bir veya daha fazla sütun geçerli modül tarafından desteklenmeyen bir türe sahipse özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.
API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.