Azure Machine Learning ile veri çözümleme

Bu öğreticide tahmine dayalı bir makine öğrenmesi modeli oluşturmak için Azure Machine Learning tasarımcısı kullanılmaktadır. Model, Azure Synapse depolanan verileri temel alır. Öğreticinin senaryosu, bir müşterinin bisiklet satın alıp almayabileceğini tahmin etmek ve bu nedenle bisiklet mağazası Adventure Works'in hedeflenen bir pazarlama kampanyası oluşturabileceğini tahmin etmektir.

Önkoşullar

Bu öğreticide ilerleyebilmeniz için şunlar gereklidir:

Verileri alma

Kullanılan veriler AdventureWorksDW'daki dbo.vTargetMail görünümündedir. Bu öğreticide Datastore kullanmak için veriler ilk olarak Azure Data Lake Storage hesaba aktarılır çünkü Azure Synapse şu anda veri kümelerini desteklemez. Azure Data Factory, veri ambarından kopyalama etkinliğini kullanarak Azure Data Lake Storage verileri dışarı aktarmak için kullanılabilir. İçeri aktarma için aşağıdaki sorguyu kullanın:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Veriler Azure Data Lake Storage'de kullanılabilir olduğunda Azure Machine Learning'deki Veri Depoları, Azure depolama hizmetlerine bağlanmak için kullanılır. Veri deposu ve karşılık gelen veri kümesi oluşturmak için aşağıdaki adımları izleyin:

  1. Azure Machine Learning stüdyosu Azure portal'dan başlatın veya Azure Machine Learning stüdyosu oturum açın.

  2. Yönet bölümündeki sol bölmede Veri Depoları'na ve ardından Yeni Veri Deposu'na tıklayın.

    Azure Machine Learning arabiriminin sol bölmesinin ekran görüntüsü

  3. Veri deposu için bir ad girin, türü 'Azure Blob Depolama' olarak seçin, konum ve kimlik bilgilerini sağlayın. Ardından, Oluştur'u tıklatın.

  4. Ardından, Varlıklar bölümündeki sol bölmede Veri Kümeleri'ne tıklayın. Veri deposundan seçeneğiyle Veri kümesi oluştur'u seçin.

  5. Veri kümesinin adını belirtin ve Tablolu olacak türü seçin. Ardından ileri gitmek için İleri'ye tıklayın.

  6. Veri deposu seçme veya oluşturma bölümündeÖnceden oluşturulmuş veri deposu seçeneğini belirleyin. Daha önce oluşturulan veri depolarını seçin. İleri'ye tıklayın ve yolu ve dosya ayarlarını belirtin. Dosyalarda bir sütun başlığı varsa sütun üst bilgisini belirttiğinizden emin olun.

  7. Son olarak, veri kümesini oluşturmak için Oluştur'a tıklayın.

Tasarımcı denemesi yapılandırma

Ardından, tasarımcı yapılandırması için aşağıdaki adımları izleyin:

  1. Yazar bölümünün sol bölmesindeki Tasarım Aracı sekmesine tıklayın.

  2. Yeni bir işlem hattı oluşturmak için Kullanımı kolay önceden oluşturulmuş bileşenler'i seçin.

  3. Sağdaki ayarlar bölmesinde işlem hattının adını belirtin.

  4. Ayrıca, önceden sağlanan bir kümenin ayarlar düğmesinde tüm deneme için bir hedef işlem kümesi seçin. Ayarlar bölmesini kapatın.

Verileri içeri aktarma

  1. Arama kutusunun altındaki sol bölmede Veri kümeleri alt sekmesini seçin.

  2. Daha önce oluşturduğunuz veri kümesini tuvale sürükleyin.

    Tuvaldeki veri kümesi bileşeninin ekran görüntüsü.

Verileri temizleyin

Verileri temizlemek için modelle ilgili olmayan sütunları bırakın. Aşağıdaki adımları izleyin:

  1. Sol bölmede Bileşenler alt sekmesini seçin.

  2. Veri Dönüştürme < düzenlemesialtındaki Veri Kümesindeki Sütunları Seç bileşenini tuvale sürükleyin. Bu bileşeni Veri Kümesi bileşenine bağlayın.

    Tuvaldeki sütun seçimi bileşeninin ekran görüntüsü.

  3. Özellikler bölmesini açmak için bileşene tıklayın. Hangi sütunları bırakmak istediğinizi belirtmek için Sütunu düzenle'ye tıklayın.

  4. Şu iki sütunu dışlayın: CustomerAlternateKey ve GeographyKey. Kaydet’e tıklayın

    Bırakılan sütunları gösteren ekran görüntüsü.

Modeli oluşturma

Veriler 80-20 arasında bölünür: makine öğrenmesi modelini eğitmek için %80 ve modeli test etmek için %20. Bu ikili sınıflandırma probleminde "İki Sınıflı" algoritmalar kullanılır.

  1. Verileri Böl bileşenini tuvale sürükleyin.

  2. Özellikler bölmesinde, ilk çıkış veri kümesindeki Satırların kesri için 0,8 girin.

    0,8'in bölme oranını gösteren ekran görüntüsü.

  3. İki Sınıflı Artırılmış Karar Ağacı bileşenini tuvale sürükleyin.

  4. Modeli Eğitme bileşenini tuvale sürükleyin. Girişleri, İki Sınıflı Artırılmış Karar Ağacı (ML algoritması) ve Verileri Bölme (algoritmayı eğitecek veriler) bileşenlerine bağlayarak belirtin.

  5. Modeli Eğitma modeli için Özellikler bölmesindeki Etiket sütunu seçeneğinde Sütunu düzenle'yi seçin. BikeBuyer sütununu tahmin etmek için sütun olarak seçin ve Kaydet'i seçin.

    BikeBuyer etiket sütununu gösteren ekran görüntüsü.

    Two-Class Artırılmış Karar Ağacı ve Verileri Böl bileşenlerine bağlı Modeli Eğit bileşenini gösteren ekran görüntüsü.

Modeli puanlama

Şimdi modelin test verileri üzerinde nasıl performans sergilediğini test edin. Hangisinin daha iyi performans sergilediğini görmek için iki farklı algoritma karşılaştırılacaktır. Aşağıdaki adımları izleyin:

  1. Model Puanla bileşenini tuvale sürükleyin ve Modeli Eğitme ve Verileri Bölme bileşenlerine bağlayın.

  2. İki Sınıflı Bayes Averaged Perceptron'unu deneme tuvaline sürükleyin. Bu algoritmanın performansını Two-Class Artırılmış Karar Ağacı ile karşılaştırıldığında karşılaştıracaksınız.

  3. Tuvalde Modeli Eğit ve ModeliPuanla bileşenlerini kopyalayıp yapıştırın.

  4. İki algoritmayı karşılaştırmak için Modeli Değerlendir bileşenini tuvale sürükleyin.

  5. İşlem hattı çalıştırmasını ayarlamak için Gönder'e tıklayın.

    Tuvalde kalan tüm bileşenlerin ekran görüntüsü.

  6. Çalıştırma tamamlandıktan sonra Modeli Değerlendir bileşenine sağ tıklayın ve Değerlendirme sonuçlarını görselleştir'e tıklayın.

    Sonuçların ekran görüntüsü.

Sağlanan ölçümler ROC eğrisi, duyarlık geri çağırma diyagramı ve kaldırma eğrisidir. İlk modelin ikinci modelden daha iyi performans sergilediğini görmek için bu ölçümlere bakın. İlk modelin tahminine bakmak için Modeli Puanla bileşenine sağ tıklayın ve tahmin edilen sonuçları görmek için Puanlanan veri kümesini görselleştir'e tıklayın.

Test veri kümenize iki sütun daha eklendiğini göreceksiniz.

  • Puanlanmış Olasılıklar: müşterinin bir bisiklet alıcısı olma olasılığı.
  • Puanlanmış Etiketler: model tarafından yapılan sınıflandırma; bisiklet alıcısı (1) veya değil (0). Etiketlemeye ilişkin bu olasılık eşiği %50 olarak belirlenmiş olup ayarlanabilir.

Modelin ne kadar iyi performans sergilediğini görmek için BikeBuyer (gerçek) sütununu Puanlanan Etiketler (tahmin) ile karşılaştırın. Daha sonra bu modeli kullanarak yeni müşteriler için tahminlerde bulunabilirsiniz. Bu modeli web hizmeti olarak yayımlayabilir veya sonuçları Azure Synapse geri yazabilirsiniz.

Sonraki adımlar

Azure Machine Learning hakkında daha fazla bilgi edinmek için bkz. Azure'da Machine Learning'e giriş.

Veri ambarında yerleşik puanlama hakkında buradan bilgi edinin.