Azure Açık Veri Kümelerinden Azure Machine Learning veri kümeleri oluşturma
Dikkat
Bu makalede, Kullanım Süresi Sonu (EOL) durumuna yakın bir Linux dağıtımı olan CentOS'a başvuruda bulunur. Lütfen kullanımınızı ve buna uygun planlamayı göz önünde bulundurun. Daha fazla bilgi için bkz . CentOS Kullanım Süresi Sonu kılavuzu.
Bu makalede, Azure Machine Learning veri kümeleri ve Azure Açık Veri Kümeleri ile yerel veya uzak makine öğrenmesi denemelerinize seçilmiş zenginleştirme verileri getirmeyi öğreneceksiniz.
Azure Machine Learning veri kümesi oluşturarak veri kaynağı konumuna ve meta verilerinin bir kopyasına başvuru oluşturursunuz. Veri kümeleri gevşek bir şekilde değerlendirildiğinden ve veriler mevcut konumunda kaldığından,
- Ek depolama maliyeti doğurmaz.
- Özgün veri kaynaklarınızı istemeden değiştirme riskini göze alma.
- ML iş akışı performans hızlarını artırın.
Veri kümelerinin Azure Machine Learning'in genel veri erişimi iş akışına nerelere uygun olduğunu anlamak için Verilere güvenli erişim makalesine bakın.
Azure Açık Veri Kümeleri, tahmine dayalı çözümlerinizi zenginleştirmek ve bunların doğruluğunu geliştirmek için senaryoya özgü özellikler eklemek için kullanabileceğiniz genel veri kümeleridir. Aşağıdakiler gibi makine öğrenmesi modellerini eğitmenize yardımcı olabilecek genel etki alanı verileri için Açık Veri Kümeleri kataloğuna bakın:
Açık Veri Kümeleri Microsoft Azure'da buluttadır ve hem Azure Machine Learning Python SDK'sında hem de Azure Machine Learning stüdyosu dahil edilir.
Önkoşullar
Bu makale için şunlar gerekir:
Azure aboneliği. Aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun. Azure Machine Learning'in ücretsiz veya ücretli sürümünü deneyin.
Paketi içeren Python için Azure Machine Learning SDK'sı
azureml-datasets
yüklüdür.- Tümleşik not defterlerini ve sdk'yı içeren tam olarak yapılandırılmış ve yönetilen bir geliştirme ortamı olan bir Azure Machine Learning işlem örneği oluşturun.
OR
Not
Bazı veri kümesi sınıflarının yalnızca 64 bit Python ile uyumlu olan azureml-dataprep paketine bağımlılıkları vardır. Linux kullanıcıları için bu sınıflar yalnızca şu dağıtımlarda desteklenir: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) ve CentOS (7).
SDK ile veri kümeleri oluşturma
Python SDK'sında Azure Open Datasets sınıfları aracılığıyla Azure Machine Learning veri kümeleri oluşturmak için paketini ile pip install azureml-opendatasets
yüklediğinizden emin olun. Her ayrı veri kümesi SDK'da kendi sınıfıyla temsil edilir ve belirli sınıflar Azure Machine Learning TabularDataset
veya FileDataset
her ikisi olarak kullanılabilir. Sınıfların tam listesi için başvuru belgelerineopendatasets
bakın.
Belirli opendatasets
sınıfları, dosyaları doğrudan işlemenize ve/veya indirmenize olanak tanıyan veya TabularDataset
FileDataset
olarak alabilirsiniz. Diğer sınıflar veri kümesini yalnızca Python SDK'sında get_tabular_dataset()
sınıfından Dataset
veya get_file_dataset()
işlevlerini kullanarak alabilir.
Aşağıdaki kod, MNIST opendatasets
sınıfının veya TabularDataset
FileDataset
döndürebileceğini gösterir.
from azureml.core import Dataset
from azureml.opendatasets import MNIST
# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()
Bu örnekte Diabetes opendatasets
sınıfı yalnızca olarak TabularDataset
kullanılabilir, bu nedenle kullanımı.get_tabular_dataset()
from azureml.opendatasets import Diabetes
from azureml.core import Dataset
# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()
Veri kümelerini kaydetme
Çalışma alanınıza bir Azure Machine Learning veri kümesi kaydederek bunları başkalarıyla paylaşabilir ve çalışma alanınızdaki denemelerde yeniden kullanabilirsiniz. Açık Veri Kümelerinden oluşturulan bir Azure Machine Learning veri kümesini kaydettiğinizde, veri hemen indirilmeyecektir, ancak daha sonra merkezi bir depolama konumundan istendiğinde (örneğin eğitim sırasında) verilere erişilir.
Veri kümelerinizi bir çalışma alanına kaydetmek için yöntemini kullanın register()
.
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
Stüdyo ile veri kümeleri oluşturma
Ayrıca, tüm beceri düzeylerindeki veri bilimi uygulayıcıları için veri bilimi senaryoları gerçekleştirmek için makine öğrenmesi araçları içeren birleştirilmiş bir web arabirimi olan Azure Machine Learning stüdyosu ile Azure Açık Veri Kümelerinden Azure Machine Learning veri kümeleri oluşturabilirsiniz.
Not
Azure Machine Learning stüdyosu aracılığıyla oluşturulan veri kümeleri otomatik olarak çalışma alanına kaydedilir.
Çalışma alanınızda Varlıklar'ın altındaki Veri Kümeleri sekmesini seçin. Veri kümesi oluştur açılan menüsünde Açık Veri Kümelerinden'i seçin.
Kutucuğunu seçerek bir veri kümesi seçin. (Arama çubuğunu kullanarak filtreleme seçeneğiniz vardır.) İleri'yi seçin.
Veri kümesinin kaydedildiği adı seçin ve isteğe bağlı olarak kullanılabilir filtreleri kullanarak verileri filtreleyin. Bu durumda, resmi tatiller veri kümesi için zaman aralığını bir yıla, ülke kodunu ise yalnızca ABD'ye göre filtreleyebilirsiniz. Alan açıklamaları ve tarih aralıkları gibi veri ayrıntıları için bkz. Azure Açık Veri Kümeleri Kataloğu. Oluştur'u belirleyin.
Veri kümesi artık çalışma alanınızda Veri Kümeleri altında kullanılabilir. Bunu, oluşturduğunuz diğer veri kümeleriyle aynı şekilde kullanabilirsiniz.
Denemeleriniz için veri kümelerine erişme
ML modellerini eğitmak için makine öğrenmesi denemelerinizde veri kümelerinizi kullanın. Veri kümeleriyle eğitim hakkında daha fazla bilgi edinin.
Örnek not defterleri
Açık Veri Kümeleri işlevinin örnekleri ve tanıtımları için bu örnek not defterlerine bakın.
Sonraki adımlar
İlk ML modelinizi eğitin.
Azure machine learning veri kümesi oluşturma.