Sıkıştırılmış Veri Kümelerini Açma

Kullanıcı depolamada bir zip paketinden veri kümelerini açma

Kategori: Veri Girişi ve Çıkışı

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, verileri ve betik dosyalarını sıkıştırılmış biçimde karşıya yüklemek ve ardından denemede kullanmak üzere sıkıştırmalarını açmak için Machine Learning Studio'da (klasik) Sıkıştırılmış Veri Kümelerini Açma modülünün nasıl kullanımı açıklanmıştır.

Bu modülün amacı, veri dosyalarınızı sıkıştırılmış biçimde kaydederek ve karşıya yükerek çok büyük veri kümeleriyle çalışırken veri aktarım sürelerini azaltmaktır. Genellikle, veri kümeniz karşıya yükleme için sıkıştırmayı kullanmak ve karşıya yükleme süresini ve ilişkili maliyetleri en aza indirmek için kullanmak istediğiniz kadar büyük olduğunda dosyaları sıkıştırmak iyi bir seçenektir.

Modül, çalışma alanınıza bir veri kümesi girdisi olarak alır. Veri kümesi sıkıştırılmış biçimde karşıya yüklenmli olmalıdır. Modül daha sonra veri kümesinde yer alan verileri açar ve çalışma alanınıza ekler.

Sıkıştırılmış Veri Kümelerini Paketlemeyi Kullanma

Bu bölümde verilerinizi hazırlama ve ardından Machine Learning Studio'da (klasik) sıkıştırmasını nasıl açabilirsiniz?

Adım 1. Dosyaları hazırlama

Dosyanızı karşıya yüklemeden önce, dosyanın veri kaynağında Machine Learning:

  • Dosyada yer alan verilerin UTF-8 kodlamasını kullandığına emin olun.

    Dosya yeterince küçükse dosyayı dosyanın içinde Not Defteri istediğiniz kodlamaya kaydedebilirsiniz. Diğer birçok metin düzenleyicisi de benzer işlevlere sahip olur. CSV dosyaları için, dosya biçimi Excel kodlama belirtmek için Farklı Kaydet veya Dışarı Aktar komutlarını kullanabilirsiniz.

  • Veri dosyalarının CSV, TSV , ARFF veya SVMLight gibi desteklenen bir biçime sahip olduğunu doğrulayın.

  • Veri dosyasını veya bir dosyaya ekleyerek verileri .ZIP. GZ biçimli arşiv dosyası. Diğer arşiv türleri desteklenmiyor.

  • Parola korumasını kaldırın. Dosyalardan veya sıkıştırılmış klasörün kendisi şifrelenmiş veya parola korumalı ise, karşıya yüklemeden önce dosyanın kilidini açmanız veya dosyanın şifresini çözmeniz gerekir. Modül şifrelenmiş veri türlerini algılayamaz ve rastgele istemcilerden parola girişi için iletişim kutularını desteklemez.

Adım 2. Upload çalışma alanınıza veri kümesi ekleme

Ardından sıkıştırılmış veri kümenizi deneme çalışma alanınıza yükleyin.

  1. Yenİ'ye tıklayın, VESERSET'i seçin ve YEREL DOSYADAN'ı seçin.

  2. Karşıya yüklemek için sıkıştırılmış dosyayı bulun. Dosyayı seçerek, tür otomatik olarak Zip dosyası (posta) olarak .zip.

3. Adım Denemeye sıkıştırılmış veri kümesi ekleme

Veri kümesi tamamen karşıya yüklendikten sonra, bunu denemenize sıkıştırılmış biçimde ekleyin.

  1. Machine Learning Studio'da (klasik) sol gezinti bölmesinde Kayıtlı Veri Kümeleri'ni seçin ve ardından Veri Kümelerim'i genişletin.

  2. Yeni yüklediğiniz sıkıştırılmış veri kümelerini bulun ve deneme tuvali üzerine sürükleyin.

4. Adım: Veri kümesi paketini açma

Son adım veri kümesi paketini açmaktır.

  1. Bağlan sıkıştırılmış veri kümesi, Sıkıştırılmış Veri Kümelerini Açma modülünün girişine ek olarak kullanılır.

  2. Paketi Açmak için Veri Kümesi'ne, paketi açmak için tek bir veri kümesi adını yazın.

    • Sayfa1 adlı bir çalışma sayfasınıTest.csvadlı Excel CSV dosyası olarak kaydederse , veri kümesi adı Sayfa1Test.csvolur.

    • Veri Kümesi kutusunda Paketi Açmak için metin kutusuna yazmanız gereken ad, dosya adı uzantısı da dahil olmak üzere sıkıştırılan özgün dosyanın adıyla tam olarak aynı olması gerekir. Örneğin,Users.txtmetin dosyasına göre bir veri kümesi paketini açmak için KullanıcılarUsers.txtyazın.

    • Birden çok dosyayı tek bir sıkıştırılmış klasöre yerleştirmiş olursanız, aynı anda bir veri kümesi paketini açmalısınız.

    İpucu

    Özelliğini boş bırakırsanız sıkıştırılmış arşiv dosyasının yalnızca bir kaynak dosya içerdiği varsayılırsa modül sıkıştırılmış dosyadan dosya adını alır. Sıkıştırılmış arşiv birden çok dosya içeriyorsa, bir çalışma zamanı hatası ortaya çıkar.

  3. Veri kümesi dosya biçimi için veri kümesi özgün biçimini belirtin: diğer bir ifadeyle, sıkıştırılmış olmadan önceki biçimi belirtin.

    Şu biçimlerden birini kullanarak oluşturulan veri kümelerini karşıya yükleyebilir ve sıkıştırmasını açabilirsiniz: CSV, ARFF, TSV, SvmLight.

    Bu özellik boş kalırsa modül, kaynak dosya adını kullanarak veri kümelerini tanımlar.

  4. Özgün veri kümesi bir üst bilgi satırına sahipse Dosya üst bilgi satırına sahip seçeneğini belirleyin. Aksi takdirde ilk veri satırı üst bilgi olarak kullanılır. Bunu yapmak istemiyorsanız, giriş öncesinde bir üst bilgi ekleyin.

    Bu seçenek yalnızca ve .CSV geçerlidir. TSV dosyaları.

    Not

    Dosyanın biçimini değiştirirseniz bu seçenek sıfırlanır.

  5. Dosya sıkıştırılmışsa, sıkıştırmak veya genişletmek için kullanılan algoritmayı belirtmek için Sıkıştırma dosyası biçimi seçeneğini kullanın.

    Şu anda .ZIP ve GZ (veya Gzip) biçimleri de desteklemektedir.

  6. Denemeyi çalıştırın.

Sonuçlar

  • Verilerin doğru şekilde içe aktarılmış olduğunu doğrulamak için Paketsiz Sıkıştırılmış Veri Kümeleri modülüne sağ tıklayın ve Görselleştir'i seçin .

  • Veri kümesi adını değiştirmek için Paketsiz Sıkıştırılmış Veri Kümeleri modülüne sağ tıklayın ve Veri Kümesi Olarak Kaydet'i seçin. Bu noktada farklı bir ad yazarak.

    Bu seçenek, tek bir ZIP dosyasından birden çok veri kümesi paketinden çıkarıyorsanız kullanışlıdır.

Örnekler

Bu modülün nasıl çalıştığını göstermek için dört farklı CSV .ZIP örnek bir dosya oluşturduk. Tüm dosyalar dosyalardan Excel.

Dosya adı Description
names-uni.csv Sütun başlıkları içeren Unicode dosyası
names-utf.csv Sütun başlıklarıyla UTF-8 dosyası
nonames-uni.csv Sütun başlığı olmayan Unicode dosyası
nonames-utf8.csv Sütun başlığı olmayan UTF-8 dosyası

Sıkıştırılmış dosyanın tamamı karşıya yüklendi ve ardından Sıkıştırılmış Veri Kümelerini Açma modülü şu ayarlar kullanılarak dört dosyanın her biri ayıklanırken dört kez çalıştırıldı:

  1. Paketi açmak için veri kümesi = names-uni.csv, Dosya üst bilgi satırına sahip = TRUE
  2. Paketi açmak için veri kümesi = names-utf8.csv, Dosya üst bilgi satırına sahip = TRUE
  3. Paketi açmak için veri kümesi = nonames-uni.csv, Dosya üst bilgi satırına sahip = FALSE
  4. Paketi açmak için veri kümesi = nonames-utf8.csv, Dosya üst bilgi satırına sahip = FALSE

Sonuçlar beklendiği gibi oldu:

Dosya adı Upload sonucu
names-uni.csv Hata 0049: Dosya ayrıştırırken hata oluştu. Dosya Unicode (UTF-8) ile kodlanmış değil
names-utf8.csv Başarılı. Kaynak dosyadaki özgün sütun adlarını kullanır.
nonames-uni.csv Hata 0049: Dosya ayrıştırırken hata oluştu. Dosya Unicode (UTF-8) ile kodlanmış değil
nonames-utf8.csv Başarılı. Sütun adları Col1, col2, ... coln , veri kümesine otomatik olarak eklenir.

Not

Seçeneğini kullanırsanız, Dosya üst bilgi satırı = TRUE olur ve kaynak dosyada aslında bir sütun başlığı yoksa, ilk veri satırı sütun başlığı olarak kullanılır.

Teknik notlar

Sıkıştırılmış R paketlerini çalışma alanınıza açmak için bu modülü kullanamazsınız. R paketleri karşıya yük olmalı ve sıkıştırılmış dosyalar olarak tüketilmelidir.

Sıkıştırılmış R paketleriyle çalışma hakkında daha fazla bilgi için bkz. R Betiği Yürütme.

Not

UTF-8 ile Unicode arasındaki fark kafa karışık mı? Şu Wikipedia makalesine bakın: UTF-8 nedir?

Modül parametreleri

Name Aralık Tür Varsayılan Description
Sıkıştırma dosyası biçimi Zip

Gzip
sıkıştırma kuralı Zip Dosyayı sıkıştırmak veya genişletmek için kullanılan sıkıştırma algoritması.
Paketi Açmak için Veri Kümesi Herhangi biri Dize yok Azure ML Studio'ya (klasik) kaydolmak için veri kümesi adı. Bir veri kümesi adı belirtilmezse, ad sıkıştırılmış dosyanın dosya adıyla elde edilir.
Veri kümesi dosya biçimi CSV

TSV

ARFF

SVMLIGHT
Dosya biçimi CSV Sıkıştırılmış dosyada veri kümesi dosya biçimi
Dosyanın üst bilgi satırı var TRUE/FALSE Boole Yanlış Yalnızca CSV/TSV dosyasında üst bilgi satırı varsa True olarak ayarlayın

Beklenen girişler

Ad Tür Description
Veri kümesi Zip Veri kümeleri içeren sıkıştırılmış dosya

Çıktı

Ad Tür Description
Sonuç veri kümesi Veri Tablosu Çıktı veri kümesi

Ayrıca bkz.

Veri Girişi ve Çıkışı