HTTP aracılığıyla Web URL’sinden içeri aktarma

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Bu makalede, bir makine öğrenmesi denemesinde kullanmak üzere genel bir Web sayfasından verileri okumak için Machine Learning Studio'daki (klasik) Verileri İçeri Aktarma modülünün nasıl kullanımı açıklanmıştır.

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Aşağıdaki kısıtlamalar bir web sayfasında yayımlanan veriler için geçerlidir:

  • Veriler desteklenen biçimlerden biri içinde olmalı: CSV, TSV, ARFF veya SvmLight. Diğer veriler hatalara neden olur.
  • Kimlik doğrulaması gerekmez veya destek gerekmez. Verilerin genel kullanıma açık olması gerekir.

HTTP aracılığıyla verileri içeri aktarma

Veri almanın iki yolu vardır: veri kaynağını ayarlamak için sihirbazı kullanın veya el ile yapılandırabilirsiniz.

Veri İçeri Aktarma Sihirbazı'nı kullanma

  1. Denemenize Veri İçeri Aktarma modülünü ekleyin. Modülü Studio'da (klasik) Veri Girişi ve Çıktı kategorisinde bulabilirsiniz.

  2. Verileri İçeri Aktarma Sihirbazı'nı başlat'a tıklayın ve HTTP aracılığıyla Web URL'si'ne tıklayın.

  3. URL'yi yapıştırın ve bir veri biçimi seçin.

  4. Yapılandırma tamamlandığında modüle sağ tıklayın ve Seçileni Çalıştır'ı seçin.

Mevcut bir veri bağlantısını düzenlemek için sihirbazı yeniden başlatın. Sihirbaz, sıfırdan yeniden başlamanız gerekmamak için önceki tüm yapılandırma ayrıntılarını yükler

Verileri İçeri Aktarma modülünde özellikleri el ile ayarlama

Aşağıdaki adımlarda, içeri aktarma kaynağının el ile nasıl yapılandırılacakları açıkmektedir.

  1. Denemenize Veri İçeri Aktarma modülünü ekleyin. Modülü Studio'da (klasik) Veri Girişi ve Çıktı kategorisinde bulabilirsiniz.

  2. Veri kaynağı için HTTP aracılığıyla Web URL'si'ne tıklayın.

  3. URL için, yüklemek istediğiniz verileri içeren sayfanın tam URL'sini yazın veya yapıştırın.

    URL, site URL'sini ve dosya adı ve uzantısı olan tam yolu, yüklenilen verileri içeren sayfayı içermesi gerekir.

    Örneğin, aşağıdaki sayfada California Üniversitesi Irvine'in makine öğrenmesi deposundan iris veri kümesi yer amektedir:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. Veri biçimi için listeden desteklenen veri biçimlerinden birini seçin.

    Biçimi belirlemek için her zaman verileri önceden denetlemenizi öneririz. UC Irvine sayfası CSV biçimini kullanır. Desteklenen diğer veri biçimleri TSV, ARFF ve SvmLight'dır.

  5. Veriler CSV veya TSV biçiminde ise, kaynak verilerin bir üst bilgi satırı içerip dahil olmadığını belirtmek için Dosya üst bilgi satırına sahip seçeneğini kullanın. Sütun adlarını atamak için üst bilgi satırı kullanılır.

  6. Verilerin çok değişmesini beklemiyorsanız veya denemeyi her çalıştırarak verileri yeniden yüklemek istemiyorsanız Önbelleğe alınmış sonuçları kullan seçeneklerini belirleyin.

    Bu seçenek seçildiğinde deneme, modülü ilk kez çalıştıracak olan verileri yükler ve ardından veri kümesi için önbelleğe alınmış bir sürümü kullanır.

    Deneme veri kümesi yinelemelerinde veri kümesini yeniden yüklemek için Önbelleğe alınmış sonuçları kullan seçeneğinin seçimini kaldırın. Verileri İçeri Aktarma parametrelerinde herhangi bir değişiklik varsa sonuçlar da yeniden yüklenir.

  7. Denemeyi çalıştırın.

Sonuçlar

Tamamlandığında, çıktı veri kümesine tıklayın ve verilerin başarıyla içe aktarılmış olup olduğunu görmek için Görselleştir'i seçin.

Örnekler

Genel web sitelerinden veri Azure Yapay Zeka Galerisi makine öğrenmesi denemeleri çalışmalarında şu örneklere bakın:

Teknik notlar

Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.

Sık sorulan sorular

Kaynaktan okunan verileri filtrelenmiş olabilir mi?

Hayır. Bu seçenek bu veri kaynağında desteklenmiyor.

Verileri Machine Learning Studio'da (klasik) okuduktan sonra, veri kümelerini bölebilirsiniz, örneklemeyi kullanabilir ve bu şekilde yalnızca istediğiniz satırları elde edin:

  • Satırlara veya sütunlara göre verilerin bir kısmını almak için R Betiği Yürütme'ye birkaç basit R kodu yazın.

  • Verileri Bölme modülünü göreli bir ifadeyle veya normal ifadeyle kullanarak istediğiniz verileri yalıtabilirsiniz.

  • Gerekenden fazla veri yüklemiş olursanız, yeni bir veri kümesi okuyarak ve aynı adla kaydederek önbelleğe alınmış veri kümesi üzerine yazın.

Aynı verileri gereksiz yere yeniden yüklemeden nasıl kaçınabilirsiniz?

Kaynak verileriniz değişirse, Verileri İçeri Aktar'ın yeniden çalıştırarak veri kümenizi yeniler ve yeni veriler eklersiniz.

Denemeyi her çalıştırsanız kaynaktan yeniden okumak istemiyorsanız Önbelleğe alınmış sonuçları kullan seçeneğini TRUE olarak belirleyin . Bu seçenek TRUE olarak ayarlanırsa modül, denemenin daha önce aynı kaynak ve aynı giriş seçeneklerini kullanarak çalıştırıp çalıştırmadı olmadığını denetler. Önceki bir çalıştırma bulunursa, verileri kaynaktan yeniden yükleme yerine önbellekte veriler kullanılır.

Veri kümemin sonuna neden fazladan bir satır eklendi?

Verileri İçeri Aktarma modülü, ardından boş bir satır veya sonda yeni bir satır karakteri gelen bir veri satırıyla karşılaşırsa tablonun sonuna ek bir satır eklenir. Bu yeni satır eksik değerler içeriyor.

Sonda yeni bir satırı yeni satır olarak yorumlamanın nedeni, Verileri İçeri Aktarma'nın gerçek bir boş satır ile dosyanın sonunda ENTER tuşuna basan kullanıcı tarafından oluşturulan boş bir satır arasındaki farkı belirleyelemeyektir.

Bazı makine öğrenmesi algoritmaları eksik verileri desteklemesi ve bu nedenle bu satırı bir durum olarak (sonuçları etkileyebilecek) olarak işleyebilecek olması nedeniyle eksik değerleri (özellikle de tamamen boş olan satırları) kontrol etmek ve gerektiğinde kaldırmak için Eksik Verileri Temizleme'ye ihtiyaç vardır.

Boş satırları denetlemeden önce Verileri Böl'i kullanarak veri kümelerini bölmek de iyi olabilir. Bu, kaynak verilerde gerçek eksik değerleri temsil eden kısmi eksik değerlere sahip satırları ayırıyor. Veri kümesi ilk bölümünü son satırdan ayrı bir kapsayıcıya okumak için Baş N satır seçin seçeneğini kullanın.

Kaynak dosyamda bazı karakterler neden doğru görüntülenmiyor?

Machine Learning UTF-8 kodlamasını destekler. Kaynak dosyanız başka bir kodlama türü kullandıysa, karakterler doğru şekilde içe aktarılamayabilirsiniz.

Modül parametreleri

Name Aralık Tür Varsayılan Description
Veri kaynağı Liste Veri kaynağı veya havuz Azure Blob Depolama Veri kaynağı HTTP, FTP, anonim HTTPS veya FTPS, Azure BLOB depolamadaki bir dosya, Azure tablosu, Azure SQL Veritabanı, şirket içi SQL Server veritabanı, Hive tablosu veya OData uç noktası olabilir.
URL herhangi biri Dize yok HTTP URL'si
Veri biçimi CSV

TSV

ARFF

SvmLight
Veri Biçimi CSV HTTP kaynağının dosya türü
CSV veya TSV üst bilgi satırına sahip TRUE/FALSE Boole yanlış CSV veya TSV dosyasının üst bilgi satırı olup olmadığını gösterir
Önbelleğe alınmış sonuçları kullanma TRUE/FALSE Boole FALSE Modül yalnızca geçerli önbellek yoksa yürütülür. Aksi takdirde, önceki yürütmeden önbelleğe alınmış veriler kullanılır.

Çıkışlar

Ad Tür Description
Sonuç veri kümesi Veri Tablosu İndirilen verileri olan veri kümesi

Özel durumlar

Özel durum Description
Hata 0027 İki nesne aynı boyutta olması gerektir ancak aynı boyutta değil olduğunda özel durum oluşur.
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0029 Geçersiz bir URI geçir olduğunda özel durum oluşur.
Hata 0030 içinde bir dosya indirilenemay olduğunda özel durum oluşur.
Hata 0002 Bir veya daha fazla parametre ayrıştırılana veya belirtilen türden hedef yöntemin gerekli türüne dönüştürülememesi bir özel durum oluşur.
Hata 0048 Bir dosyanın açılması mümkün değilken bir özel durum oluşur.
Hata 0046 Belirtilen yolda dizin oluşturulamaysa özel durum oluşur.
Hata 0049 Bir dosyayı ayrıştırmak mümkün değilken bir özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Verileri İçeri Aktarma
Verileri Dışarı Aktarma
Hive Sorgusundan içeri aktarma
Azure SQL Veritabanı’ndan içeri aktarma
Azure Tablosundan içeri aktarma
Dosyadan içeri Azure Blob Depolama
Veri Akışı Sağlayıcılarından içeri aktarma
Şirket İçi Veritabanı'SQL Server aktarma