Meta Verileri Düzenleme

Bir veri kümesindeki sütunlarla ilişkili meta verileri düzenler

Kategori: veri dönüştürme/işleme

Not

Için geçerlidir: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgili. Benzer sürükle ve bırak modülleri bir tasarımcıya Azure Machine Learning eklendi. İki sürümü karşılaştıran bu makalede daha fazla bilgi bulabilirsiniz.

Modüle genel bakış

Bu makalede, bir veri kümesindeki sütunlarla ilişkili meta verileri değiştirmek için Azure Machine Learning Studio (klasik) ' de meta veri düzenleme modülünün nasıl kullanılacağı açıklanır. Veri kümesindeki değerler ve veri türleri gerçekten değiştirilmez; aşağı akış bileşenlerine sütunu nasıl kullanacağınızı belirten Azure Machine Learning içindeki meta veriler burada değişir.

Tipik meta veri değişiklikleri şunları içerebilir:

  • Boole veya sayısal sütunları kategorik değerler olarak davranma

  • Hangi sütunun sınıf etiketini içerdiğini veya sınıflandırmak ya da tahmin etmek istediğiniz değerleri gösterir

  • Sütunları özellik olarak işaretleme

  • Tarih/saat değerlerini sayısal bir değere değiştirme veya tam tersi

  • Sütunları yeniden adlandırma

Genellikle bir aşağı akış modülünün gereksinimlerini karşılamak için bir sütunun tanımını değiştirmeniz gereken her seferinde verileri Düzenle ' yi kullanın. Örneğin, bazı modüller yalnızca belirli veri türleriyle çalışabilir veya ya da gibi sütunlarda bayrakları gerektirebilir IsFeature IsCategorical .

Gerekli işlemi gerçekleştirdikten sonra, meta verileri özgün durumuna sıfırlayabilirsiniz.

Düzenleme meta verilerini yapılandırma

  1. Azure Machine Learning Studio (klasik) ' de, denemenize meta veri düzenleme modülünü ekleyin ve güncelleştirmek istediğiniz veri kümesini bağlayın. Bunu, veri dönüştürme bölümünde, işleme kategorisinde bulabilirsiniz.

  2. Sütun seçiciyi Başlat ' a tıklayın ve ile çalışmak için sütun veya sütun kümesi seçin. Sütunları ad veya dizine göre ayrı ayrı seçebilir veya türe göre bir sütun grubu seçebilirsiniz.

    İpucu

    Sütun dizinlerini kullanırken yardıma mı ihtiyacınız var? Teknik Notlar bölümüne bakın.

  3. Seçili sütunlara farklı bir veri türü atamaya ihtiyacınız varsa Veri türü seçeneğini belirleyin. Belirli işlemler için veri türünü değiştirmek gerekli olabilir. Örneğin, kaynak veri kümenizin metin olarak ele alan sayıları varsa matematik işlemlerini kullanmadan önce bunları sayısal bir veri türüne dönüştürmeniz gerekir.

    • Desteklenen veri türleri , String , , , ve Integer Floating point Boolean DateTime 'tir. TimeSpan

    • Birden çok sütun seçilirse, meta veri değişikliklerini tüm seçili sütunlara uygulamelisiniz. Örneğin, 2-3 sayısal sütun seçtiğinizi diyelim. Bunların hepsini bir dize veri türü olarak değiştirebilir ve tek işlemde yeniden adlandırabilirsiniz. Ancak, bir sütunu dize veri türüne, başka bir sütunu ise float'dan tamsayıya değiştiremezsiniz.

    • Yeni bir veri türü belirtmezseniz sütun meta verileri değişmez.

    • Veri türü değişiklikleri yalnızca veri kümesiyle ilişkili meta verileri ve aşağı akış işlemlerinde verilerin nasıl işleyeceğini etkiler. Sütunda farklı bir işlem (yuvarlama gibi) gerçekleştirmedikçe gerçek sütun değerleri değiştirilmez. Sütun veri türünü sıfırlamak için Meta Verileri Düzenle'yi kullanarak istediğiniz zaman özgün veri türünü kurtarabilirsiniz.

    Not

    Herhangi bir sayı türünü DateTime türüyle değiştirirsanız DateTime Format alanını boş bırakın. Şu anda hedef veri biçimini belirtmek mümkün değildir.

Azure Machine Learning desteklenen .NET DateTime nesnelerinden biri ile uyumlu ise tarihleri sayıya veya sayılardan tarihe dönüştürebilirsiniz. Daha fazla bilgi için Teknik Notlar bölümüne bakın.

  1. Seçili sütunlarda yer alan değerlerin kategori olarak kabul edilmelidir belirtmek için Kategorik seçeneğini belirleyin.

    Örneğin, 0, 1 ve 2 sayılarını içeren bir sütununuz olabilir, ancak sayıların gerçekten "Smoker", "duman olmayan" ve "Bilinmeyen" anlamına geldiğini bilirsiniz. Bu durumda, sütuna kategorik olarak bayrak koyarak, değerlerin yalnızca grup verileri için sayısal hesaplamalarda kullanılmadığından emin olabilirsiniz.

  2. Azure Machine Learning bir modeldeki verileri kullanma biçimini değiştirmek istiyorsanız Fields seçeneğini kullanın.

    • Özellik: bir sütunu, yalnızca özellik sütunlarında çalışan modüllerle kullanılmak üzere bir özellik olarak işaretlemek için bu seçeneği kullanın. Varsayılan olarak, tüm sütunlar başlangıçta özellik olarak değerlendirilir.

    • Etiket: etiketi işaretlemek için bu seçeneği kullanın (tahmin edilebilir öznitelik veya hedef değişken olarak da bilinir). Birçok modül, veri kümesinde en az bir (ve yalnızca bir) etiket sütununun bulunmasını gerektirir.

      Çoğu durumda, Azure Machine Learning bir sütunun sınıf etiketi içerdiğini, ancak bu meta verileri ayarlayarak sütunun doğru şekilde tanımlanmasını sağlayabilirsiniz. Bu seçeneğin ayarlanması veri değerlerini değiştirmez, yalnızca bazı makine öğrenimi algoritmalarının verileri işleme yoludur.

    • Ağırlık: Bu seçeneği, sütun değerlerinin makine öğrenimi Puanlama veya eğitim işlemlerinde kullanım ağırlıklarını temsil ettiğini göstermek için sayısal verilerle kullanın. Bir veri kümesinde yalnızca bir ağırlık sütunu bulunabilir ve sütun sayısal olmalıdır.

    İpucu

    Bu kategorilere sığmayan veriler mi var? Örneğin, veri kümeniz değişken olarak faydalı olmayan benzersiz tanımlayıcılar gibi değerler içerebilir. Bazen kimlikler bir modelde kullanıldığında sorunlara neden olabilir.

    Neyse ki "Azure Machine Learning, tüm verilerinizi korur, bu nedenle veri kümesinden söz konusu sütunları silmeniz gerekmez. Özel bir sütun kümesinde işlem gerçekleştirmeniz gerektiğinde, tüm diğer sütunları geçici olarak veri kümesindeki sütunları seç modülünde kullanarak kaldırmanız yeterlidir. Daha sonra sütunları Ekle modülünü kullanarak sütunları veri kümesine geri birleştirebilirsiniz.

  3. Önceki seçimleri temizlemek ve meta verileri varsayılan değerlere geri yüklemek için aşağıdaki seçenekleri kullanın.

    • Özelliği temizle: Özellik bayrağını kaldırmak için bu seçeneği kullanın.

      Tüm sütunlar başlangıçta özellik olarak kabul edildiklerinden, matematik işlemleri gerçekleştiren modüllerde sayısal sütunların değişken olarak kabul rakamlarını önlemek için bu seçeneği kullanabilirsiniz.

    • Etiketi temizle: Etiket meta verilerini belirtilen sütundan kaldırmak için bu seçeneği kullanın.

    • Puanı temizle: Puan meta verilerini belirtilen sütundan kaldırmak için bu seçeneği kullanın.

      Şu anda bir sütunu puan olarak açıkça işaretleme özelliği, bir sütunun Azure Machine Learning. Ancak bazı işlemler, bir sütunun dahili olarak puan olarak işaretlenmelerine neden olabilir. Ayrıca, özel bir R modülü puan değerlerini çıkış olarak kullanabilir.

    • Net ağırlık: Ağırlık meta verilerini belirtilen sütundan kaldırmak için bu seçeneği kullanın.

  4. Yeni sütun adları için seçili sütunun veya sütunların yeni adını yazın.

    • Sütun adları yalnızca UTF-8 kodlaması tarafından desteklenen karakterleri kullanabilir. Boş dizelere, null değerlere veya tamamen boşluklardan oluşan adlara izin verilmez.

    • Birden çok sütunu yeniden adlandırmak için adları sütun dizinleri sırasına göre virgülle ayrılmış bir liste olarak yazın.

    • Seçilen tüm sütunların yeniden adlandırılması gerekir. Sütunları atlayıp atamazsınız.

    İpucu

    Birden çok sütunu yeniden adlandırmak gerekirse önceden hazırlanmış virgülle ayrılmış bir dizeyi yapıştırabilirsiniz. Veya R Betiği Yürütme veya SQL Dönüşümü Uygulama modüllerini kullanabilirsiniz. Kod ve örnekler için Teknik Notlar bölümüne bakın.

  5. Denemeyi çalıştırın.

Örnekler

Verileri hazırlama ve model oluşturmada Meta Verileri Düzenle'nin nasıl kullandığına örnekler için bkz. Azure Yapay Zeka Galerisi:

  • Akciğer kanseri algılama:Sütun adları, veri kümelerini katıldıktan sonra değiştirilir. Hasta kimliği sütunu Ayrıca bir hesaplamada kullanılmadığından, ancak bir dize değeri olarak işlenmek yerine kategorik olarak işaretlenir.

  • Twitter yaklaşım Analizi: sütunların özellikler olarak değerlendirildiğinden emin olmak Için meta verileri düzenleme özelliğinin nasıl kullanılacağını gösterir. Daha sonra deneme sürümünde özellik meta verileri temizlenir.

  • Veri işleme ve analiz: Bu örnekte, bir Web sayfasından yüklenen veriler için yeni sütun adlarını tanımlamak üzere meta verileri Düzenle kullanılır.

Teknik notlar

Bu bölümde, bilinen sorunlar, sık sorulan sorular ve bazı yaygın geçici çözüm örnekleri yer almaktadır.

Bilinen Sorunlar

  • Özel meta veriler desteklenmiyor. Azure Machine Learning ' de özel meta verileri kullanmak veya veri düzenleme meta verileridışında sütun meta verilerini düzenlemek mümkün değildir. Örneğin, bir sütunun benzersiz bir tanımlayıcı olduğunu gösteren meta veriler ekleyemez veya diğer açıklayıcı öznitelikler ekleyebilirsiniz. Azure Machine Learning, faktörlerle, özelliklerle, ağırlıklarla ve etiketlerle çalışmak için yalnızca R içinde kullanılan meta veri özniteliklerini destekler.

  • Desteklenmeyen veri türleri. Şu sayısal veri türleri desteklenmez: Double (ondalık) ve zaman damgası.

  • Puan sütunlarını tanımlama. Şu anda, bir sütunu, puanları içeren bir sütuna Işaretlemek Için düzenleme meta verilerinde bir seçenek yoktur. Ancak, bir sütunun puanlar içerdiğini belirtmek için, R betiği Yürüt modülünü aşağıdakine benzer bir komut dosyasıyla birlikte kullanabilirsiniz:

    dataset <- maml.mapInputPort(1)   
    attr(dataset$x, "label.type")= "True Labels"  
    attr(dataset$y, "feature.channel")= "Multiclass Classification Scores"  
    attr(dataset$y, "score.type")= "Assigned Labels"  
    maml.mapOutputPort("dataset");
    
  • DateTime biçimleriyle ilgili sorunlar. datetimeAzure Machine Learning tarafından kullanılan temel alınan veri türü POSIXct .

    Bir sütundaki tüm tarihler varsayılan Ayrıştırıcı tarafından ayrıştırılacaksa, sütun içeri aktarılır ve dize verileri olarak kabul edilir.

    DateTime Meta verileri Düzenle modülünü kullanarak bir sütunu öğesine dönüştürmeye çalışırsanız ve bir hata alırsanız, tarihin .net 'in varsayılan olarak kabul ettiği bir biçimde olmadığı anlamına gelir. Bu durumda, sütununu varsayılan ayrıştırıcı tarafından kabul edilen bir biçime dönüştürmek için R Betiği Yürütme modülünü veya SQL Dönüşümü Uygula modülünü kullanmanızı öneririz.

    DateTime.Parse Yöntemi

    Standart Tarih ve Saat Biçim Dizeleri

Sütun dizinlerini kullanarak sütunları seçme

Çok büyük veri kümelerde tüm sütun adlarını el ile yazmanız veya seçmeniz mümkün değildir. Sütun dizinini kullanmak, birçok sütun belirtmek için kullanabileceğiniz bir kısayoldur. Bu bölümde sütun dizinlerini kullanmayla ilgili bazı ipuçları ve bulabilirsiniz.

Örneğin, Sütun Seçici'yi açın, KURALLARLA'ya tıklayın, Ekle'yi ve sütun dizinlerini seçin ve ardından aşağıdaki gibi bir aralık veya sayı dizisi yazın:

  • İlk 1-20 20 sütunu seçmek için yazın
  • 5-205 ile başlayan ve sütun 20'yi içeren bir sütun aralığı seçmek için yazın.
  • Üretimden 1,5,10,15 kaldıran sütunları seçmek için yazın
  • 1-2, 51, 2 ve 5 sütunlarını seçerek 3. ve 4. sütunları atlayarak yazın
  • Veri kümesinde kullanılabilen sütun sayısından büyük bir dizin değeri yazamazsınız.

Aşağıdaki denemeler, birden çok sütunu seçme ve değiştirme için diğer yöntemlere bazı örnekler sağlar:

  • İkili Sınıflandırma: Kanser Algılama:Özgün veriler, elektronik tablodan içeri aktarma sırasında oluşturulan çok sayıda boş sütun içeriyordu. Ek sütunlar, Verileri Bölme modülünde 1-11 sütunları belirterek kaldırılmıştır.

  • UCI'denveri kümesi indirme: Verileri El ile Girme modülünü kullanarak sütun adlarını liste olarak sağlamayı ve ardından R betiği yürütme modülünü kullanarak listeyi başlık olarak veri kümesine eklemeyi gösterir.

  • Regex Select Columns:Bu deneme, sütun adlarına normal bir ifade uygulamanızı sağlayan özel bir modül sağlar. Meta Verileri Düzenle için bu modülü giriş olarak kullanabilirsiniz.

Sütun adlarını değiştirmek için alternatif yöntemler

Yeniden adlandırılacak çok sayıda sütun varsa, R betik modülünü Yürüt veya SQL dönüştürme modülünü Uygula ' yı kullanabilirsiniz.

R betiği kullanma

Azure Machine Learning tarafından kullanılan veri kümeleri, bu modüle bir Data. Frame olarak geçirilir. Bu, colnames() sütun adlarını listelemek veya değiştirmek Için r işlevini ve diğer Ilgili R işlevlerini kullanabileceğiniz anlamına gelir.

Örneğin, aşağıdaki kod yeni sütun adlarının bir listesini oluşturur ve sonra yeni sütun başlıkları oluşturmak için bu listeyi giriş veri kümesine uygular.

irisdata <- maml.mapInputPort(1);    
newnames <- c("CLASS", "SEPAL  LENGTH", "SEPAL WIDTH", "PETAL LENGTH", "PETAL WIDTH");
colnames(irisdata) = newnames
maml.mapOutputPort("irisdata");

Aşağıdaki örnek, için sütun adlarında belirtilen dizenin tüm örneklerini Global olarak değiştirmek için R 'de bir normal ifade kullanır irisdata :

# Map input dataset to variable
newirisdata <- maml.mapInputPort(1) # class: data.frame
names(newirisdata) <- gsub("col", "iris", names(newirisdata))
maml.mapOutputPort("newirisdata");

SQL kullanma

Aşağıdaki örnek, giriş olarak bir veri kümesini alır ve sonra as anahtar sözcüğünü kullanarak sütun adlarını değiştirir.

SELECT col1 as [C1], 
  col2 as [C2], 
  col3 as [C3], 
  col4 as [C4],
  col5 as [C5] 
FROM t1;

Beklenen giriş

Ad Tür Description
Veri kümesi Veri tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Sütun Herhangi biri ColumnSelection Değişikliklerinizin uygulanması gereken sütunları seçin.
Veri türü Liste Meta veri Düzenleyicisi veri türü Değiştirilmediği Sütun için yeni veri türünü belirtin.
Kategorik Liste Meta veri Düzenleyicisi kategorik Değiştirilmediği Sütunun kategorik olarak işaretlenip işaretlenmeyeceğini belirtin.
Alanlar Liste Meta veri düzenleyici bayrağı Değişme -den Öğrenme algoritmaları tarafından sütunun bir özellik veya etiket olarak değerlendirilecek olup olacağını belirtin.
Yeni sütun adları herhangi biri Dize Sütunlar için yeni adları yazın.

Çıktı

Ad Tür Description
Sonuç veri kümesi Veri Tablosu Değiştirilen meta verilerle veri kümesi

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş veri kümesi null veya boşsa özel durum oluşur.
Hata 0017 Belirtilen bir veya daha fazla sütun geçerli modül tarafından desteklenmeyen bir türe sahipse özel durum oluşur.
Hata 0020 Modüle geçirilen bazı veri kümelerinin sütun sayısı çok küçükse özel durum oluşur.
Hata 0031 Sütun kümesinde sütun sayısı gerekenden azsa özel durum oluşur.
Hata 0027 İki nesne aynı boyutta olması gerektir ancak aynı boyutta değil olduğunda özel durum oluşur.
Hata 0028 Sütun kümesi yinelenen sütun adları içerdiğinde ve buna izin verilmiyorsa özel durum oluşur.
Hata 0037 Birden çok etiket sütunu belirtilirse ve yalnızca birine izin veriliyorsa bir özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

İşleme
Veri dönüştürme
A-Z modül listesi