Verileri içeri aktarma, okumaya ve değiştirmeye giriş

Bu makalede kullanıcı arabirimini kullanarak verileri Azure Databricks, Spark ve yerel API'leri kullanarak içeri aktarılan verileri okuma ve Databricks Dosya Sistemi (DBFS) komutlarını kullanarak içeri aktarılan verileri değiştirme açıklanmıştır.

Veri içeri aktarma

Yerel makineniz üzerinde, Azure Databricks analiz etmek istediğiniz küçük veri dosyalarınız varsa, kullanıcı arabirimini kullanarak bunları DBFS'ye aktarabilirsiniz.

Not

Bu özellik yönetici kullanıcılar tarafından devre dışı bırakılabilir. Bu ayarı etkinleştirmek veya devre dışı bırakmak için bkz. Veri yüklemesini yönetme.

Kullanıcı arabirimiyle DBFS'ye veri yüklemenin iki yolu vardır:

  • Veri Yükleme kullanıcı arabiriminde Dosyaları FileStore'a yükleyin.

    Verileri karşıya yükleme

  • Giriş sayfasındaki Verileri Araştır kutusunu kullanarakda erişilebilen Tablo oluştur kullanıcı arabirimini kullanarak & tabloya veri yükleyin.

    Verileri içeri aktarma ve keşfetme

Bu yöntemler kullanılarak DBFS'ye aktarılan dosyalar FileStore'da depolanır.

Üretim ortamları için DBFS CLI, DBFS API,Databricks dosya sistemi yardımcı programını (dbutils.fs)kullanarak dosyaları DBFS'ye açıkça yüklemenizi öneririz.

Verilere erişmek için çok çeşitli veri kaynaklarını da kullanabilirsiniz.

Spark API'lerini kullanarak küme düğümleri üzerinde verileri okuma

Spark API'lerini kullanarak DBFS'ye Apache Spark DataFrames'e aktarılan verileri okursanız. Örneğin, bir CSV dosyasını içeri aktarırsanız, bu örneklerden birini kullanarak verileri okuyabilirsiniz.

İpucu

Daha kolay erişim için bir tablo oluşturmanızı öneririz. Daha fazla bilgi için bkz. Veritabanları ve tablolar.

Python

sparkDF = spark.read.csv("/FileStore/tables/state_income-9f7c5.csv", header="true", inferSchema="true")

R

sparkDF <- read.df(source = "csv", path = "/FileStore/tables/state_income-9f7c5.csv", header="true", inferSchema = "true")

Scala

val sparkDF = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/FileStore/tables/state_income-9f7c5.csv")

Yerel API'leri kullanarak küme düğümlerinde verileri okuma

Yerel dosya API'lerini kullanarak Spark sürücü düğümünde çalışan programlarda DBFS'ye aktarılan verileri de okuyabilirsiniz. Örneğin:

Python

pandas_df = pd.read_csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header='infer')

R

df = read.csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header = TRUE)

Karşıya yüklenen verileri değiştirme

İçe aktarılan verileri doğrudan Azure Databricks içinde düzenleyemezsiniz, ancak SparkAPI'leri, DBFS CLI, DBFS API'sive Databricks dosya sistemi yardımcı programını (dbutils.fs)kullanarak bir veri dosyasının üzerine yazabilirsiniz.

DBFS'den verileri silmek için aynı API'leri ve araçları kullanın. Örneğin, dbutils.fs.rmDatabricks yardımcı programları komutunu kullanabilirsiniz:

dbutils.fs.rm("dbfs:/FileStore/tables/state_income-9f7c5.csv")

Uyarı

Silinen veriler kurtarılamaz.