Share via


Azure Databricks'te keşif veri analizi: Araçlar ve teknikler

Bu makalede Azure Databricks'te keşif veri analizi (EDA) için araçlar ve teknikler açıklanmaktadır.

EDA nedir ve neden yararlıdır?

Keşif veri analizi (EDA), ana özelliklerini özetlemek ve verilerle ilgili sorunları belirlemek için veri kümelerini keşfetme yöntemlerini içerir. İstatistiksel yöntemleri ve görselleştirmeleri kullanarak analize hazır olduğunu belirlemek ve veri hazırlama için hangi tekniklerin uygulanacağını bildirmek için bir veri kümesi hakkında bilgi edinebilirsiniz. EDA, ml modellerini eğitmek için hangi algoritmaları uygulamayı seçtiğinizi de etkileyebilir.

Azure Databricks'teki EDA araçları nelerdir?

Azure Databricks,hem Databricks SQL'de hem de Databricks Runtime'da yerleşik analiz ve görselleştirme araçlarına sahiptir. Azure Databricks'te kullanılabilen görselleştirme türlerinin resimli listesi için bkz . Görselleştirme türleri.

Databricks SQL'de EDA

Databricks SQL'de veri görselleştirme ve araştırma araçları hakkında bazı yararlı makaleler şunlardır:

Databricks Runtime'da EDA

Databricks Runtime, popüler veri araştırma kitaplıklarının zaten yüklü olduğu önceden oluşturulmuş bir ortam sağlar. Yerleşik kitaplıkların listesini sürüm notlarında görebilirsiniz.

Ayrıca, aşağıdaki makaleler Databricks Runtime'daki görselleştirme araçlarının örneklerini gösterir:

Databricks Python not defterinde SQL ve Python'ı birleştirerek verileri keşfedebilirsiniz. Python not defterindeki bir SQL dil hücresinde kod çalıştırdığınızda, tablo sonuçları otomatik olarak Python DataFrame olarak kullanılabilir hale getirilir. Ayrıntılar için bkz . Python not defterlerinde SQL hücre sonuçlarını keşfetme.