CSV’ye dönüştürme

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Veri girişini virgülle ayrılmış değerler biçimine dönüştürür

Kategori: Veri Biçimi Dönüştürmeleri

Not

Şunlar için geçerlidir: yalnızca Machine Learning Studio (klasik)

Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısında da kullanılabilir.

Modüle genel bakış

Bu makalede, azure ML bir veri kümesini indirilebilen, dışarı aktarılabilen veya R veya Python betik modülleriyle paylaşılabilen bir CSV biçimine dönüştürmek için Machine Learning Studio'da (klasik) CSV'ye Dönüştürme modülünün nasıl kullanılacağı açıklanır.

CSV biçimi hakkında daha fazla bilgi

"Virgülle ayrılmış değerler" anlamına gelen CSV biçimi, birçok dış makine öğrenmesi aracı tarafından kullanılan bir dosya biçimidir. Machine Learning tarafından kullanılan yerel veri kümesi biçimi .NET datatable'ı temel alsa da ve bu nedenle .NET kitaplıkları tarafından okunabilir, ancak CSV, R veya Python gibi açık kaynak dillerle çalışırken yaygın bir değişim biçimidir.

çalışmalarınızın çoğunu Machine Learning Studio'da (klasik) yapıyor olsanız bile, dış araçlarda kullanmak üzere veri kümenizi CSV'ye dönüştürmeyi yararlı bulabileceğiniz zamanlar olabilir. Örneğin:

  • CSV dosyasını indirerek Excel açın veya ilişkisel veritabanına aktarın.
  • CSV dosyasını bulut depolama alanına kaydedin ve görselleştirmeler oluşturmak için Power BI'dan bu dosyaya bağlanın.
  • Verileri R ve Python'da kullanılmak üzere hazırlamak için CSV biçimini kullanın. Verilere doğrudan Python'dan veya Jupyter not defterinden erişmek için gereken kodu oluşturmak için modülün çıkışına sağ tıklamanız gerekir.

Bir veri kümesini CSV'ye dönüştürdüğünüzde, dosya Azure ML çalışma alanınıza kaydedilir. Azure depolama yardımcı programını kullanarak dosyayı doğrudan açıp kullanabilir veya modül çıkışına sağ tıklayıp CSV dosyasını bilgisayarınıza indirebilir ya da R veya Python kodunda kullanabilirsiniz.

CSV'ye Dönüştür'ü yapılandırma

  1. Denemenize CSV'ye Dönüştürme modülünü ekleyin. Bu modülü Studio'daki Veri Biçimi Dönüştürmeleri grubunda (klasik) bulabilirsiniz.

  2. Bir veri kümesinin çıkışını veren herhangi bir modüle Bağlan.

  3. Denemeyi çalıştırın veya CSV'ye Dönüştür modülüne tıklayın ve Seçili çalıştır'a tıklayın.

Sonuçlar

CSV'ye Dönüştür'ün çıktısına çift tıklayın ve bu seçeneklerden birini belirleyin.

  • İndir: Verilerin yerel bir klasöre kaydedebileceğiniz bir kopyasını CSV biçiminde hemen açar. Bir klasör belirtmezseniz, varsayılan bir dosya adı uygulanır ve CSV dosyası yerel İndirmeler kitaplığına kaydedilir.

    Veri kümesini indir'i seçerseniz, veri kümesini açmak mı yoksa yerel bir dosyaya kaydetmek mi istediğinizi belirtmeniz gerekir.

    Aç'ı seçerseniz, veri kümesi varsayılan olarak .CSV dosyalarıyla ilişkilendirilmiş uygulama kullanılarak yüklenir: örneğin, Microsoft Excel.

    Veri kümesini indir'i seçerseniz, dosya varsayılan olarak modülün adı ve çalışma alanı kimliğini temsil eden bir GUID ile kaydedilir. Ancak, indirme sırasında Farklı Kaydet seçeneğini belirleyebilir ve dosya adını veya konumunu değiştirebilirsiniz.

  • Veri Kümesi Olarak Kaydet: CSV dosyasını Azure ML çalışma alanına ayrı bir veri kümesi olarak kaydeder.

  • Veri Erişim Kodu Oluşturma: Azure ML, Verilere erişmeniz için Python veya R kullanarak iki kod kümesi oluşturur. Verilere erişmek için kod parçacığını uygulamanıza kopyalayın.

  • Yeni bir Not Defteri'nde aç: Sizin için yeni bir Jupyter not defteri oluşturulur ve seçtiğiniz dil kullanılarak çalışma alanınızdaki verileri okumak için kod eklenir: Microsoft R Open ile Python 2, Python 3 veya R.

    Örneğin, R seçeneğini belirlerseniz CSV dosyasını bir veri çerçevesine yükleyen ve işlevini kullanarak head ilk birkaç satırı görüntüleyen örnek R kodu sağlanır.

Teknik notlar

Bu bölüm uygulama ayrıntılarını, ipuçlarını ve sık sorulan soruların yanıtlarını içerir.

CSV biçiminin gereksinimleri

CSV dosya biçimi, birçok makine öğrenmesi çerçevesi tarafından desteklenen popüler bir biçimdir. Biçim çeşitli "virgülle ayrılmış değerler" veya "karakterle ayrılmış değerler" olarak adlandırılır.

CSV dosyası tablosal verileri (sayılar ve metinler) düz metin biçiminde depolar. CSV dosyası, herhangi bir türde satır sonlarıyla ayrılmış herhangi bir sayıda kayıt içerir. Her kayıt, değişmez değer virgülle ayrılmış alanlardan oluşur. Bazı bölgelerde ayırıcı noktalı virgül olabilir.

Genellikle, tüm kayıtlar aynı sayıda alana sahiptir ve eksik değerler null veya boş dize olarak temsil edilir.

İpucu

verileri Excel, Access veya ilişkisel veritabanından CSV dosyalarına Machine Learning'de kullanmak üzere kolayca dışarı aktarabilirsiniz. Dosya adları genellikle .CSV uzantısına sahip olsa da, verileri CSV olarak içeri aktarmak istiyorsanız Machine Learning bu dosya adı uzantısının mevcut olmasını gerektirmez. XLSX, TXT ve diğer dosyaları CSV olarak içeri aktarabilirsiniz. Ancak, dosyadaki alanların önceki bölümde açıklandığı gibi biçimlendirilmesi ve dosyanın UTF-8 kodlamasını kullanması gerekir.

Yaygın sorular ve sorunlar

Bu bölümde CSV'ye Dönüştürme modülüne özgü bazı bilinen sorunlar, yaygın sorular ve geçici çözümler açıklanmaktadır.

Üst bilgiler tek satır olmalıdır

Machine Learning'de kullanılan CSV dosya biçimi tek bir üst bilgi satırını destekler. Çok satırlı üst bilgiler ekleyemezsiniz.

İçeri aktarmada desteklenen ancak dışarı aktarılmayan özel ayırıcılar

CSV'ye Dönüştür modülü, Avrupa'da sıklıkla kullanılan noktalı virgül (;)) gibi alternatif sütun ayırıcıları oluşturulmasını desteklemez.

Ancak, verileri dış depolamadaki CSV dosyalarından içeri aktardığınızda alternatif ayırıcılar belirtebilirsiniz. Verileri İçeri Aktar modülünde kodlamalı CSV seçeneğini belirleyin ve desteklenen bir kodlama seçin.

Virgül içeren dize verilerinde yanlış sütun ayrımı

Metin işlemede, sütun ayırıcı olarak belirtilebilen hemen her karakterin (sekmeler, boşluklar, virgüller vb.) metin alanlarında rastgele bulunabilmesi yaygın bir sorundur. CSV'den metin içeri aktarılırken, metnin gereksiz yeni sütunlar arasında ayrılmasını önlemek için her zaman dikkatli olmanız gerekir.

Virgül içeren bir dize verisi sütununu dışarı aktarmaya çalıştığınızda, sorunlarla da karşılaşabilirsiniz. Machine Learning, dizeleri tırnak içine alma gibi bu tür verilerin özel işlenmesini veya özel çevirisini desteklemez. Ayrıca, virgüllerin sabit karakter olarak işlenmesini sağlamak için virgülden önceki kaçış karakterlerini kullanamazsınız.

Bu nedenle, dize alanında karşılaşılan her virgül için çıkış dosyasında yeni alanlar oluşturulur. Bu sorunu önlemek için çeşitli geçici çözümler vardır:

  • Dize alanlarındaki noktalama işaretlerini kaldırmak için Metni Önişle modülünü kullanın.

  • Metni işlemek ve verilerin doğru şekilde dışarı aktarılabilmesini sağlamak için özel R betiği veya Python betiği kullanın.

UTF-8 kodlaması gerekiyor

CSV'ye Dönüştür modülü yalnızca UTF-8 karakter kodlamasını destekler. Farklı bir kodlama kullanarak verileri dışarı aktarmanız gerekiyorsa, özel çıkış oluşturmak için R Betiği Yürütme veya Python Betiği Yürütme modüllerini kullanmayı deneyebilirsiniz.

Veri kümesinde sütun adları yok

CSV dosyasına aktardığınız veri kümesinin sütun adları yoksa, dönüştürmeden önce sütun adları eklemek için Meta Verileri Düzenle'yi kullanmanızı öneririz. Sütun adlarını dönüştürme veya dışarı aktarma işleminin bir parçası olarak ekleyemezsiniz.

SYLK: Dosya biçimi geçerli değil

CSV'ye dönüştürdüğünüz veri kümesinin ilk sütununda ad kimliği varsa, dosyayı Excel'de açmaya çalıştığınızda aşağıdaki hatayı alabilirsiniz:

"SYLK: Dosya biçimi geçerli değil."

Bu hatayı önlemek için sütunu yeniden adlandırmanız gerekir.

CSV'den içeri aktarma konusunda yardıma ihtiyacım var

İçeri aktarma için CSV'ye Aktar modülünü kullanmayın. Bunun yerine Verileri İçeri Aktarma modülünü kullanın.

CSV'den içeri aktarma hakkında genel bilgi için şu kaynaklara bakın:

Beklenen girişler

Ad Tür Açıklama
Veri kümesi Veri Tablosu Giriş veri kümesi

Çıktı

Ad Tür Açıklama
Sonuç veri kümesi GenericCsv Çıkış veri kümesi

Ayrıca bkz.

Veri Biçimi Dönüştürmeleri
A-Z Modül Listesi