Azure Açık Veri Kümelerinden Azure Machine Learning veri kümeleri oluşturma

Dikkat

Bu makalede, Kullanım Süresi Sonu (EOL) durumuna yakın bir Linux dağıtımı olan CentOS'a başvuruda bulunur. Lütfen kullanımınızı ve buna uygun planlamayı göz önünde bulundurun. Daha fazla bilgi için bkz . CentOS Kullanım Süresi Sonu kılavuzu.

Bu makalede, Azure Machine Learning veri kümeleri ve Azure Açık Veri Kümeleri ile yerel veya uzak makine öğrenmesi denemelerinize seçilmiş zenginleştirme verileri getirmeyi öğreneceksiniz.

Azure Machine Learning veri kümesi oluşturarak veri kaynağı konumuna ve meta verilerinin bir kopyasına başvuru oluşturursunuz. Veri kümeleri gevşek bir şekilde değerlendirildiğinden ve veriler mevcut konumunda kaldığından,

  • Ek depolama maliyeti doğurmaz.
  • Özgün veri kaynaklarınızı istemeden değiştirme riskini göze alma.
  • ML iş akışı performans hızlarını artırın.

Veri kümelerinin Azure Machine Learning'in genel veri erişimi iş akışına nerelere uygun olduğunu anlamak için Verilere güvenli erişim makalesine bakın.

Azure Açık Veri Kümeleri, tahmine dayalı çözümlerinizi zenginleştirmek ve bunların doğruluğunu geliştirmek için senaryoya özgü özellikler eklemek için kullanabileceğiniz genel veri kümeleridir. Aşağıdakiler gibi makine öğrenmesi modellerini eğitmenize yardımcı olabilecek genel etki alanı verileri için Açık Veri Kümeleri kataloğuna bakın:

Açık Veri Kümeleri Microsoft Azure'da buluttadır ve hem Azure Machine Learning Python SDK'sında hem de Azure Machine Learning stüdyosu dahil edilir.

Önkoşullar

Bu makale için şunlar gerekir:

Not

Bazı veri kümesi sınıflarının yalnızca 64 bit Python ile uyumlu olan azureml-dataprep paketine bağımlılıkları vardır. Linux kullanıcıları için bu sınıflar yalnızca şu dağıtımlarda desteklenir: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) ve CentOS (7).

SDK ile veri kümeleri oluşturma

Python SDK'sında Azure Open Datasets sınıfları aracılığıyla Azure Machine Learning veri kümeleri oluşturmak için paketini ile pip install azureml-opendatasetsyüklediğinizden emin olun. Her ayrı veri kümesi SDK'da kendi sınıfıyla temsil edilir ve belirli sınıflar Azure Machine Learning TabularDatasetveya FileDatasether ikisi olarak kullanılabilir. Sınıfların tam listesi için başvuru belgelerineopendatasets bakın.

Belirli opendatasets sınıfları, dosyaları doğrudan işlemenize ve/veya indirmenize olanak tanıyan veya TabularDatasetFileDatasetolarak alabilirsiniz. Diğer sınıflar veri kümesini yalnızca Python SDK'sında get_tabular_dataset() sınıfından Datasetveya get_file_dataset() işlevlerini kullanarak alabilir.

Aşağıdaki kod, MNIST opendatasets sınıfının veya TabularDatasetFileDatasetdöndürebileceğini gösterir.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Bu örnekte Diabetes opendatasets sınıfı yalnızca olarak TabularDatasetkullanılabilir, bu nedenle kullanımı.get_tabular_dataset()


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Veri kümelerini kaydetme

Çalışma alanınıza bir Azure Machine Learning veri kümesi kaydederek bunları başkalarıyla paylaşabilir ve çalışma alanınızdaki denemelerde yeniden kullanabilirsiniz. Açık Veri Kümelerinden oluşturulan bir Azure Machine Learning veri kümesini kaydettiğinizde, veri hemen indirilmeyecektir, ancak daha sonra merkezi bir depolama konumundan istendiğinde (örneğin eğitim sırasında) verilere erişilir.

Veri kümelerinizi bir çalışma alanına kaydetmek için yöntemini kullanın register() .

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Stüdyo ile veri kümeleri oluşturma

Ayrıca, tüm beceri düzeylerindeki veri bilimi uygulayıcıları için veri bilimi senaryoları gerçekleştirmek için makine öğrenmesi araçları içeren birleştirilmiş bir web arabirimi olan Azure Machine Learning stüdyosu ile Azure Açık Veri Kümelerinden Azure Machine Learning veri kümeleri oluşturabilirsiniz.

Not

Azure Machine Learning stüdyosu aracılığıyla oluşturulan veri kümeleri otomatik olarak çalışma alanına kaydedilir.

  1. Çalışma alanınızda Varlıklar'ın altındaki Veri Kümeleri sekmesini seçin. Veri kümesi oluştur açılan menüsünde Açık Veri Kümelerinden'i seçin.

    Veri Kümesini kullanıcı arabirimiyle açma

  2. Kutucuğunu seçerek bir veri kümesi seçin. (Arama çubuğunu kullanarak filtreleme seçeneğiniz vardır.) İleri'yi seçin.

    Veri kümesi seçme

  3. Veri kümesinin kaydedildiği adı seçin ve isteğe bağlı olarak kullanılabilir filtreleri kullanarak verileri filtreleyin. Bu durumda, resmi tatiller veri kümesi için zaman aralığını bir yıla, ülke kodunu ise yalnızca ABD'ye göre filtreleyebilirsiniz. Alan açıklamaları ve tarih aralıkları gibi veri ayrıntıları için bkz. Azure Açık Veri Kümeleri Kataloğu. Oluştur'u belirleyin.

    Veri kümesi parametrelerini ayarlama ve veri kümesi oluşturma

    Veri kümesi artık çalışma alanınızda Veri Kümeleri altında kullanılabilir. Bunu, oluşturduğunuz diğer veri kümeleriyle aynı şekilde kullanabilirsiniz.

Denemeleriniz için veri kümelerine erişme

ML modellerini eğitmak için makine öğrenmesi denemelerinizde veri kümelerinizi kullanın. Veri kümeleriyle eğitim hakkında daha fazla bilgi edinin.

Örnek not defterleri

Açık Veri Kümeleri işlevinin örnekleri ve tanıtımları için bu örnek not defterlerine bakın.

Sonraki adımlar