Derleme sayım dönüşümü

Dönüştürmeyi birden çok veri kümesine uygulayabilmeniz için, bu tabloları Özellikler halinde açan bir dönüşüm oluşturur

Kategori: sayımlar Ile öğrenme

Not

Uygulama hedefi: Machine Learning Studio (klasik)

Bu içerik yalnızca Studio (klasik) ile ilgilidir. Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısına eklenmiştir. Bu makalede iki sürümü karşılaştırandaha fazla bilgi edinin.

Modüle genel bakış

Bu makalede eğitim verilerini çözümlemek için Azure Machine Learning Studio (klasik) ' de Yapı sayımı dönüştürme modülünün nasıl kullanılacağı açıklanır. Bu verilerden, modül bir sayma tablosu ve bir tahmine dayalı modelde kullanılabilecek Count tabanlı özellikler kümesi oluşturur.

Bir Count tablosu, belirtilen etiket sütunu verilen tüm özellik sütunlarının ortak dağılımını içerir. Bu tür istatistikler, hangi sütunların en fazla bilgi değerine sahip olduğunu belirlemek için faydalıdır. Bu tür özellikler özgün eğitim verilerinden daha küçük olduğundan, ancak en yararlı bilgileri yakaladığı için, sayı tabanlı korlaleştirme yararlı olur. Sayımların, sayım tabanlı yeni özellikler kümesine nasıl dönüştürüleceğini özelleştirmek için modül parametrelerini kullanabilirsiniz.

Sayımlar oluşturup özelliklere dönüştürerek, ilgili verilerde yeniden kullanım için işlemi bir dönüşüm olarak kaydedebilirsiniz. Ayrıca, yeni bir sayı kümesi oluşturmak zorunda kalmadan özellikler kümesini değiştirebilir veya sayıları ve özellikleri başka bir sayı ve özellik kümesiyle birleştirebilirsiniz.

Count tabanlı özellikleri yeniden kullanma ve yeniden uygulama özelliği aşağıdaki senaryolarda faydalıdır:

  • Veri kümenizin kapsamını veya bakiyesini geliştirmek için yeni veriler kullanılabilir hale gelir.
  • Özgün sayılarınız ve özellikler, yeniden işlemek istemediğiniz çok büyük bir veri kümesini temel alır. Yeni verilerle güncelleştirebilmeniz için sayıları birleştirerek.
  • Denemenizin içinde kullandığınız tüm veri kümelerine aynı sayı tabanlı özellikler kümesinin uygulandığından emin olmak istiyorsunuz.

Derleme sayım dönüşümünü yapılandırma

Doğrudan bir veri kümesinden sayı tabanlı özellik dönüştürmesi oluşturabilir ve denemeyi her çalıştırarak yeniden çalıştırabilirsiniz. Veya bir sayı kümesi oluşturabilir ve ardından bunu yeni verilerle birleştirebilir ve güncelleştirilmiş bir sayı tablosu oluşturabilirsiniz.

  • Veri kümesinden sayı tabanlı özellikler oluşturma

    Daha önce sayı oluşturmadıysanız buradan başlayabilirsiniz. Sayı tabloları oluşturmak ve otomatik olarak bir özellik kümesi oluşturmak için Derleme Sayma Dönüştürme modülünü kullanırsiniz.

    Bu işlem, DönüştürmeYi Uygula modülünü kullanarak bir veri kümesine uygulayabilecek bir özellik dönüşümü oluşturur.

  • Birden çok veri kümesinden gelen birleştirme sayıları ve özellikleri

    Önceki bir veri kümesinden daha önce bir sayı tablosu oluşturduysanız yalnızca yeni veriler üzerinde sayımlar oluşturabilir veya önceki bir veri kümesi sürümünde oluşturulmuş mevcut sayı Azure Machine Learning. Ardından iki sayı tablosu kümesi birleştirin

    Bu işlem, Dönüşümü Uygula modülünü kullanarak bir veri kümesine uygulayabilecek yeni bir özellik dönüşümü oluşturur.

Veri kümesinden sayı tabanlı özellikler oluşturma

  1. Azure Machine Learning Studio'da (klasik) Denemenize Derleme Sayma Dönüştürme modülünü ekleyin. Modülü Veri Dönüştürme altında, Sayımlarla Öğrenme kategorisinde bulabilirsiniz.

  2. Sayı tabanlı özelliklerimizin temeli olarak kullanmak istediğiniz veri kümesine bağlanın.

  3. Etiket sütundaki değer sayısını belirtmek için Sınıf sayısı seçeneğini kullanın.

    • Herhangi bir ikili sınıflandırma sorunu için 2 yazın.
    • İkiden fazla olası çıkışa sahip bir sınıflandırma sorunu için, saymak istediğiniz tam sınıf sayısını önceden belirtmeniz gerekir. Gerçek sınıf sayısından küçük bir sayı girersiniz, modül bir hata döndürür.
    • Veri kümeniz birden çok sınıf değeri içeriyorsa ve sınıf etiketi değerleri sıralı değilse, sütunun kategorik değerler içerdiğini belirtmek için Meta Verileri Düzenle'yi kullansanız gerekir.
  4. Karma işlevin bitleri olan seçeneği için değerleri kararken kaç bit kullanılacağını belirtin.

    Sayılacak çok sayıda değer olduğunu ve daha yüksek bit sayımının gerekli olabileceğini bilmiyorsanız, Varsayılanları kabul etmek genellikle güvenlidir.

  5. Hash işlevinin çekirdek bölümünde, karma işlevi temel almak için isteğe bağlı olarak bir değer belirtebilirsiniz. Karma sonuçların aynı denemenin çalıştırmaları genelinde belirleyici olmasını sağlamak istediğinizde, bir çekirdek oluşturma işlemi genellikle yapılır.

  6. Depolama moduna bağlı olarak, sayılabilmeniz gereken verilerin türünü belirtmek için Modül türü seçeneğini kullanın:

    • Veri kümesi: Azure Machine Learning Studio (klasik) içinde bir veri kümesi olarak kaydedilen verileri saydıysanız bu seçeneği belirleyin.

    • BLOB: sayım oluşturmak için kullanılan kaynak verileriniz Windows Azure depolamada bir Blok Blobu olarak depolanıyorsa bu seçeneği belirleyin.

    • MapReduce: verileri Işlemek için eşleme/azaltma işlevlerini çağırmak istiyorsanız bu seçeneği belirleyin.

      Bu seçeneği kullanmak için, yeni verilerin Windows Azure Storage 'da bir blob olarak sağlanması ve dağıtılan bir HDInsight kümesine erişiminizin olması gerekir. Denemeyi çalıştırdığınızda, sayımı gerçekleştirmek için kümede bir harita/azaltma işi başlatılır.

      Çok büyük veri kümelerinde, mümkün olduğunda bu seçeneği kullanmanızı öneririz. HDInsight hizmetini kullanmak için ek ücret ödemeniz gerekebilir, ancak büyük veri kümeleri üzerinde hesaplama, HDInsight 'ta daha hızlı olabilir.

      Daha fazla bilgi için bkz. https://azure.microsoft.com/services/hdinsight/.

  7. Veri depolama modunu belirttikten sonra, gereken veriler için ek bağlantı bilgileri sağlayın:

    • Hadoop veya blob depolamadan veri kullanıyorsanız, küme konumunu ve kimlik bilgilerini belirtin.
    • Daha önce denemede veri erişimi için bir Içeri aktarma modülü kullandıysanız, hesap adını ve kimlik bilgilerinizi yeniden girmeniz gerekir. Yapı sayı dönüştürme modülü verileri okumak ve gerekli tabloları derlemek için veri depolamaya ayrı olarak erişir.
  8. Etiket sütunu veya dizini için etiket sütunu olarak bir sütun seçin.

    Etiket sütunu gereklidir. Sütunun zaten etiket olarak işaretlenmiş olması gerekir, yoksa bir hata ortaya çıkar.

  9. Saymak için sütunları seçin seçeneğini kullanın ve sayıların oluşturulılacağı sütunları seçin.

    Genel olarak, en iyi adaylar yüksek boyutlu sütunlar ve bu sütunlarla ilişkili diğer sütunlardır.

  10. Sayı tablosu türünü depolamak için kullanılan biçimi belirtmek için Tablo türünü say seçeneğini kullanın.

    • Sözlük: Bir sözlük sayısı tablosu oluşturur. Seçili sütunlarda yer alan tüm sütun değerleri dize olarak kabul edilir ve boyutu en fazla 31 bit olan bir bit dizisi kullanılarak karma olarak kullanılır. Bu nedenle, tüm sütun değerleri negatif olmayan bir 32 bit tamsayı ile temsil eder.

      Genel olarak, bu seçeneği daha küçük veri kümeleri (1 GB'ın altında) için ve daha büyük veri kümeleri için CMSketch seçeneğini kullansanız gerekir.

      Bu seçeneği kullandıktan sonra karma işlevi tarafından kullanılan bit sayısını yapılandırarak karma işlevini başlatmaya uygun bir çekirdek ayarlayın.

    • CMSketch: Bir sayı en küçük taslak tablosu oluşturur. Bu seçenekle, bellek verimliliğini artırmak ve karma çakışma ihtimalini azaltmak için daha küçük bir aralıkta birden çok bağımsız karma işlevi kullanılır. Karma bit boyutu ve karma çekirdeği parametrelerinin bu seçenek üzerinde hiçbir etkisi yoktur.

  11. Denemeyi çalıştırın.

    Modül, Dönüştürme Uygulama modülüne giriş olarak kullanabileceğiniz bir özel durum dönüştürmesi oluşturur. Dönüştürme Uygula modülünün çıktısı, modeli eğitmek için kullanılan dönüştürülmüş bir veri kümesidir.

    İsteğe bağlı olarak, sayı tabanlı özellik kümelerini başka bir sayı tabanlı özellik kümesiyle birleştirmek için dönüştürmeyi kaydedebilirsiniz. Daha fazla bilgi için bkz. Birleştirme Sayısı Dönüşümü.

Birden çok veri kümesinden gelen birleştirme sayıları ve özellikleri

  1. Azure Machine Learning Studio'da (klasik) Derleme Sayma Dönüştürme modülünü denemenize ekleyin ve eklemek istediğiniz yeni verileri içeren veri kümesine bağlanabilirsiniz.

  2. Yeni verilerin kaynağını belirtmek için Modül türü seçeneğini kullanın. Farklı kaynaklardaki verileri birleştirebilirsiniz.

    • Veri kümesi: yeni veriler Azure Machine Learning Studio (klasik) içinde bir veri kümesi olarak sağlanıyorsa bu seçeneği belirleyin.

    • BLOB: yeni veriler Windows Azure depolamada bir Blok Blobu olarak sağlanıyorsa bu seçeneği belirleyin.

    • MapReduce: verileri Işlemek için eşleme/azaltma işlevlerini çağırmak istiyorsanız bu seçeneği belirleyin.

      Bu seçeneği kullanmak için, yeni verilerin Windows Azure Storage 'da bir blob olarak sağlanması ve dağıtılan bir HDInsight kümesine erişiminizin olması gerekir. Denemeyi çalıştırdığınızda, sayımı gerçekleştirmek için kümede bir harita/azaltma işi başlatılır.

      Daha fazla bilgi için bkz. https://azure.microsoft.com/services/hdinsight/

  3. Veri depolama modunu belirttikten sonra, yeni veriler için ek bağlantı bilgilerini sağlayın:

    • Hadoop veya blob depolamadan veri kullanıyorsanız, küme konumunu ve kimlik bilgilerini belirtin.

    • Daha önce denemede veri erişimi için bir Içeri aktarma modülü kullandıysanız, hesap adını ve kimlik bilgilerinizi yeniden girmeniz gerekir. Bunun nedeni, derleme sayım dönüştürme modülünün verileri okumak ve gerekli tabloları oluşturmak için veri depolamasına ayrı olarak eriştiği bir nedendir.

  4. Sayımlar birleştirilirken, aşağıdaki seçenekler tam olarak her iki sayı tablolarında aynı olmalıdır:

    • Sınıf sayısı
    • Karma işlev bitleri
    • Karma işlevinin temel değeri
    • Sayılacak sütunları seçin

    Etiket sütunu, aynı sayıda sınıf içerdiği sürece farklı olabilir.

  5. Güncelleştirilmiş sayı tablosu için biçimi ve hedefi belirtmek üzere Count tablo türü seçeneğini kullanın.

    İpucu

    Birleştirmek istediğiniz iki sayı tablosunun biçimi aynı olmalıdır. Diğer bir deyişle, Sözlük biçimini kullanarak önceki bir sayım tablosunu kaydettiyseniz, CMSketch biçimi kullanılarak kaydedilmiş sayılarla birleştiremezsiniz.

  6. Denemeyi çalıştırın.

    Modül, uygulama dönüştürme modülüne giriş olarak kullanabileceğiniz bir korlaleştirme dönüştürmesi oluşturur. Dönüştürme Uygula modülünün çıktısı, modeli eğitmek için kullanılan dönüştürülmüş bir veri kümesidir.

  7. Bu sayı dizisini mevcut bir sayı tabanlı özellik kümesiyle birleştirmek için bkz. Birleştirme Sayısı Dönüşümü.

Örnekler

Sayım algoritması ve diğer yöntemlerle karşılaştırıldığında sayı tabanlı modellemenin etkinliği hakkında daha fazla bilgi için bu makalelere bakın.

Aşağıdaki denemelerde, Azure Yapay Zeka Galerisi tahmine dayalı modeller oluşturmak için sayı tabanlı öğrenmenin nasıl kullanılacağı gösterildi:

Modül parametreleri

Aşağıdaki parametreler tüm seçeneklerle birlikte kullanılır:

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Sınıf sayısı Tamsayı >=2 Gerekli 2 Etiket için sınıfların sayısı.
Karma işlevinin bitleri Tamsayı [12;31] Gerekli 20 Karma işlevi aralığının bit sayısı.
Karma işlevinin çekirdeği Tamsayı herhangi biri Gerekli 1 Karma işlevi için çekirdek.
Modül türü Gerekli Veri kümesi Sayı tablosu oluşturmada kullanmak için modülün türü.
Sayım tablosu türü CountTableType listeden seç Gerekli Sözlük Sayım tablosunun biçimini belirtin.

BLOB seçeneği seçilirken aşağıdaki seçenekler geçerlidir.

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Blob adı Dize herhangi biri Gerekli Giriş blobunun adı. Kapsayıcı adı eklemeyin.
Hesap adı Dize herhangi biri Gerekli Depolama hesabının adı.
Hesap anahtarı SecureString herhangi biri Gerekli Depolama hesabının anahtarı.
Kapsayıcı adı Dize herhangi biri Gerekli Giriş blobu içeren Azure Blob kapsayıcısı.
Sütunları say Dize herhangi biri Gerekli Sayım gerçekleştirecek sütun gruplarının tek tabanlı dizinleri.
Etiket sütunu Tamsayı >= 1 Gerekli 1 Etiket sütununun tek tabanlı dizini.
Blob biçimi herhangi biri Gerekli CSV Blob metin dosyası biçimi.

Sayıları oluşturmak için MapReduce kullanılırken aşağıdaki parametreler geçerlidir:

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Varsayılan depolama hesabı adı Dize herhangi biri Gerekli yok Giriş blobu içeren depolama hesabının adı.
Varsayılan depolama hesabı anahtarı Securestring herhangi biri Gerekli yok Giriş blobu içeren depolama hesabının anahtarı.
Varsayılan kapsayıcı adı Dize herhangi biri Gerekli yok Sayı tablosu yazmak için blob kapsayıcının adı.
Küme URI'si Dize herhangi biri Gerekli yok HDInsight Hadoop kümesi URI'si.
Kullanıcı adı Dize herhangi biri Gerekli yok HDInsight Hadoop kümesinde oturum açma kullanıcı adı.

Aşağıdaki parametreler sayı tablosu biçimini tanımlar:

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Tablo türünü say CountTableType Liste Gerekli Sözlük Sayı tablosu türü.
Sütun dizinini veya adını etiketleme ColumnSelection Sayı tablosu Veri Kümesi olarak kaydedildi ise gereklidir yok Etiket sütununu seçin.
Saymak istediğiniz sütunları seçin ColumnSelection Sayı tablosu Veri Kümesi olarak kaydedildi ise gereklidir Sayım için sütunları seçin. Bu sütunlar kategorik özellikler olarak değerlendirilir.
CM taslak tablosunun derinliği Tamsayı >= 1 Count tablosu CMSketch biçimini kullanıyorsa gereklidir 4 Dizi karması işlevlerinin eşit olduğu CM taslak tablosunun derinliği.
CM taslak tablosunun genişliği Tamsayı [1; 31] Count tablosu CMSketch biçimini kullanıyorsa gereklidir 20 Dizi karma işlevin bit sayısı olan CM taslak tablosunun genişliği.
Etiket sütun dizini veya NameColumn ColumnSelection Count tablosu veri kümesi olarak kaydedildiğinde gereklidir Etiket sütununu seçer.
Sayılacak sütunları seçin ColumnSelection Count tablosu veri kümesi olarak kaydedildiğinde gereklidir Sayım için sütunları seçer. Bu sütunlar kategorik özellikler olarak değerlendirilir.
Sayım tablosu türü Count tablosu veri kümesi olarak kaydedildiğinde gereklidir Sözlük Sayı tablosu türünü belirtir.
CM taslak tablosu derinliği Tamsayı >=1 SAYı tablosu CMSketch olarak kaydedildi ise gereklidir 4 Karma işlevlerin sayısına eşit olan CM çizim tablosu derinliği.
CM taslak tablosu genişliği Tamsayı [1;31] SAYı tablosu CMSketch olarak kaydedildi ise gereklidir 20 Karma işlevi aralığının bit sayısı olan CM taslak tablosu genişliği.

Çıkışlar

Ad Tür Description
Dönüştürmeyi sayma ITransform arabirimi Sayma dönüşümü.

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0004 Parametre belirli bir değerden küçük veya ona eşitse özel durum oluşur.
Hata 0005 Parametre belirli bir değerden küçükse özel durum oluşur.
Hata 0007 Parametre belirli bir değerden büyükse özel durum oluşur.
Hata 0009 Azure depolama hesabı adı veya kapsayıcı adı yanlış belirtilmişse özel durum oluşur.
Hata 0065 Azure Blob adı yanlış belirtilmişse özel durum oluşur.
Hata 0011 Geçirilen sütun kümesi bağımsız değişkeni herhangi bir veri kümesi sütunu için uygulanmemişse özel durum oluşur.
Hata 0049 Bir dosya ayrıştırılmaya mümkün olmadığı durumlarda özel durum oluşur.
Hata 1000 İç kitaplık özel durumu.
Hata 0059 Sütun seçicisinde belirtilen bir sütun dizini ayrıştırılamıyorsa özel durum oluşur.
Hata 0060 Bir sütun seçicide Aralık dışı bir sütun aralığı belirtildiğinde özel durum oluşur.
Hata 0089 Belirtilen sınıf sayısı, sayım için kullanılan bir veri kümesindeki gerçek sınıf sayısından az olduğunda özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

Sayımlar ile öğrenme