Makine öğrenmesi ve derin öğrenme için veri yükleme

Makale
03/01/2024

Bu bölümde, özellikle ML ve DL uygulamalarına yönelik verileri yükleme hakkındaki bilgiler ele alınmaktadır. Verileri yükleme hakkında genel bilgi için bkz . Databricks lakehouse'a veri alma.

Veri yüklemek ve model denetim noktası oluşturmak için dosyaları depolama

Makine öğrenmesi uygulamalarının, veri yükleme ve model denetim noktası oluşturma için paylaşılan depolama alanı kullanması gerekebilir. Bu, özellikle dağıtılmış derin öğrenme için önemlidir.

Azure Databricks, hem Spark hem de yerel dosya API'lerini kullanarak kümedeki verilere erişmek için Databricks Dosya Sistemi'ni (DBFS) sağlar.

Tablo verilerini yükleme

Tablosal makine öğrenmesi verilerini tablolardan veya dosyalardan yükleyebilirsiniz (örneğin, bkz . CSV dosyalarını okuma ve yazma). PySpark yönteminitoPandas() kullanarak Apache Spark DataFrames'i pandas DataFrames'e dönüştürebilir ve ardından isteğe bağlı olarak PySpark yönteminito_numpy() kullanarak NumPy biçimine dönüştürebilirsiniz.

Büyük dil modellerinde ince ayar yapmak için verileri hazırlama

Yüz Dönüştürücülerini Kucaklama ve Yüz Veri Kümelerini Kucaklama ile verilerinizi açık kaynak büyük dil modellerinde ince ayar yapmak için hazırlayabilirsiniz.

Yüz Tanıma modellerinde ince ayarlama yapmak için verileri hazırlama

Dağıtılmış eğitim için verileri hazırlama

Bu bölüm, dağıtılmış eğitim için veri hazırlamaya yönelik iki yöntemi kapsar: Petastorm ve TFRecords.

Dağıtılmış eğitim için verileri hazırlama
- Petastorm (Önerilir)
- TFRecord

Makine öğrenmesi ve derin öğrenme için veri yükleme

Veri yüklemek ve model denetim noktası oluşturmak için dosyaları depolama

Tablo verilerini yükleme

Büyük dil modellerinde ince ayar yapmak için verileri hazırlama

Dağıtılmış eğitim için verileri hazırlama

Ek kaynaklar