Apache Spark v Azure Databricks

Článek
05/03/2024

Tento článek popisuje, jak Apache Spark souvisí s Azure Databricks a platformou Databricks Data Intelligence.

Apache Spark je jádrem platformy Azure Databricks a je technologie, která umožňuje výpočetní clustery a sklady SQL. Azure Databricks je optimalizovaná platforma pro Apache Spark, která poskytuje efektivní a jednoduchou platformu pro spouštění úloh Apache Sparku.

Jaký je vztah Apache Sparku k Azure Databricks?

Společnost Databricks byla založena původními tvůrci Apache Sparku. Jako opensourcový softwarový projekt apache Spark obsahuje potvrzení od mnoha špičkových společností, včetně Databricks.

Databricks nadále vyvíjí a vydává funkce pro Apache Spark. Databricks Runtime obsahuje další optimalizace a proprietární funkce, které jsou postavené na Apache Sparku, včetně Photon, optimalizované verze Apache Sparku přepsané v jazyce C++.

Jak Apache Spark funguje v Azure Databricks?

Když nasadíte výpočetní cluster nebo SQL Warehouse v Azure Databricks, apache Spark se nakonfiguruje a nasadí do virtuálních počítačů. Nemusíte konfigurovat ani inicializovat kontext Sparku nebo relaci Sparku, protože jsou spravované pro vás službou Azure Databricks.

Můžu používat Azure Databricks bez použití Apache Sparku?

Azure Databricks podporuje celou řadu úloh a zahrnuje opensourcové knihovny v Databricks Runtime. Databricks SQL používá Apache Spark pod kapotou, ale koncoví uživatelé k vytváření a dotazování databázových objektů používají standardní syntaxi SQL.

Databricks Runtime pro machine Učení je optimalizovaný pro úlohy ML a mnoho datových vědců používá při práci na Azure Databricks primární opensourcové knihovny, jako jsou TensorFlow a SciKit Learn. Pracovní postupy můžete použít k naplánování libovolných úloh na výpočetní prostředky nasazené a spravované službou Azure Databricks.

Proč používat Apache Spark v Azure Databricks?

Platforma Databricks poskytuje zabezpečené prostředí pro spolupráci pro vývoj a nasazování podnikových řešení, která se škálují s vaší firmou. Zaměstnanci Databricks zahrnují mnoho znalostí nejsvědčenějších uživatelů a uživatelů Apache Sparku. Společnost neustále vyvíjí a vydává nové optimalizace, aby uživatelé měli přístup k nejrychlejšímu prostředí pro spouštění Apache Sparku.

Jak zjistím další informace o používání Apache Sparku v Azure Databricks?

Pokud chcete začít s Apache Sparkem v Azure Databricks, pusťte se přímo do práce. Kurz datových rámců Apache Sparku vás provede načítáním a transformací dat v Pythonu, R nebo Scala. Viz kurz: Načtení a transformace dat pomocí datových rámců Apache Spark.

Další informace o podpoře jazyků Python, R a Scala ve Sparku najdete v části PySpark v Azure Databricks, Přehled SparkR a Azure Databricks pro vývojáře scala a také v referenčních informacích k rozhraním Apache Spark API.