Share via


Optimalizálási javaslatok az Azure Databricksben

Az Azure Databricks számos optimalizálást biztosít, amelyek számos számítási feladatot támogatnak a lakehouse-ban, a nagy léptékű ETL-feldolgozástól az alkalmi, interaktív lekérdezésekig. Ezen optimalizálások közül sok automatikusan történik. Az előnyöket egyszerűen az Azure Databricks használatával érheti el. Emellett a Databricks Futtatókörnyezet legtöbb funkciója megköveteli a Delta Lake-t, az Azure Databricksben táblák létrehozásához használt alapértelmezett tárolási réteget.

Az Azure Databricks a legtöbb számítási feladatot optimalizáló alapértelmezett értékeket konfigurálja. Bizonyos esetekben azonban a konfigurációs beállítások módosítása javítja a teljesítményt.

A Databricks runtime teljesítménybeli fejlesztései

Feljegyzés

A legújabb Databricks Runtime használatával kihasználhatja a legújabb teljesítménybeli fejlesztéseket. Az itt dokumentált összes viselkedés alapértelmezés szerint engedélyezve van a Databricks Runtime 10.4 LTS és újabb verziókban.

  • A lemez gyorsítótárazása felgyorsítja a Parquet-adatfájlok ismételt olvasását azáltal, hogy adatokat tölt be a számítási fürtökhöz csatlakoztatott lemezkötetekbe.
  • A dinamikus fájlmetszet azáltal javítja a lekérdezés teljesítményét, hogy kihagyja azokat a könyvtárakat, amelyek nem tartalmaznak olyan adatfájlokat, amelyek megfelelnek a lekérdezési predikátumoknak.
  • Az alacsony egyesítés csökkenti a műveletek által MERGE újraírt adatfájlok számát, és csökkenti a fürtök újrabontásának ZORDER szükségességét.
  • Az Apache Spark 3.0 adaptív lekérdezés-végrehajtást vezetett be, amely több művelethez is jobb teljesítményt nyújt.

A Databricks javaslatai a jobb teljesítmény érdekében

Bejelentkezési viselkedések

  • Az Azure Databricks alapértelmezés szerint írható szerializálható elkülönítési garanciát biztosít; Az elkülönítési szint szerializálhatóra történő módosítása csökkentheti az egyidejű műveletek átviteli sebességét, de szükség lehet az olvasási szerializálhatóságra.
  • A kinyíló szűrőindexek használatával csökkentheti az adott feltételnek megfelelő rekordokat nem tartalmazó adatfájlok vizsgálatának valószínűségét.