Kódtárak kezelése Apache Spark a Azure Synapse Analytics

A kódtárak olyan újrahasználható kódot biztosítanak, amely a programokba vagy projektekbe is belevehető.

Különböző okokból szükség lehet a kiszolgáló nélküli Apache Spark készletkörnyezet frissítésére. Például a következőt találhatja:

  • az egyik alapvető függőség kiadott egy új verziót.
  • egy további csomagra van szüksége a gépi tanulási modell betanítása vagy az adatok előkészítése során.
  • jobb csomagot talált, és már nincs szüksége a régebbi csomagra.
  • csapata létrehozott egy egyéni csomagot, amelyre szüksége lesz a Apache Spark készletben.

Ahhoz, hogy elérhetővé tegye a harmadik féltől származó vagy helyileg készült kódot az alkalmazások számára, telepíthet egy kódtárat az egyik kiszolgáló nélküli Apache Spark-készletre vagy jegyzetfüzet-munkamenetre.

Alapértelmezett telepítés

Apache Spark az Azure Synapse Analytics Anacondas teljes telepítést és további kódtárakat is telepít. A teljes kódtárak listája a következő Apache Spark található:.

A Spark-példányok indításakor ezek a kódtárak automatikusan megjelennek. A Spark-készlet vagy a munkamenet szintjén további csomagok is hozzáadhatóak.

Munkaterület-csomagok

Egyéni alkalmazások vagy modellek fejlesztésekor a csapat különböző kód-összetevők, például wheel- vagy jar-fájlok fejlesztésével csomagolhatja be a kódot.

A Synapse-ban a munkaterület-csomagok egyéni vagy privát wheel- vagy jar-fájlok is lehetek. Ezeket a csomagokat feltöltheti a munkaterületre, majd később hozzárendelheti őket egy adott Spark-készlethez. Hozzárendelés után ezek a munkaterület-csomagok automatikusan telepítve vannak az összes Spark-készlet munkamenetére.

A munkaterület-kódtárak kezelésével kapcsolatos további információkért olvassa el az alábbi útmutatókat:

  • Python-munkaterületi csomagok: Töltse fel a Python wheel-fájlokat munkaterület-csomagként, majd később adja hozzá ezeket a csomagokat adott kiszolgáló nélküli Apache Spark készletekhez.
  • Scala-/Java-munkaterületi csomagok: Töltse fel a Scala- és Java-jar-fájlokat munkaterület-csomagként, majd később adja hozzá ezeket a csomagokat adott kiszolgáló nélküli Apache Spark készletekhez.

Készletcsomagok

Bizonyos esetekben előfordulhat, hogy szabványosítani szeretné az adott készleten használt csomagkészletet Apache Spark készletben. Ez a szabványosítás akkor lehet hasznos, ha a csapat több tagja is gyakran telepíti ugyanezeket a csomagokat.

A Azure Synapse Analytics készletkezelési képességeinek használatával konfigurálhatja az alapértelmezett kódtárkészletet, amely egy adott kiszolgáló nélküli Apache Spark telepítve. Ezek a kódtárak az alap-futtatókörnyezetre vannak telepítve.

A készletkezelés jelenleg csak a Pythonhoz támogatott. A Pythonhoz a Synapse Spark-készletek a Condát használják a Python-csomagfüggőségek telepítéséhez és kezeléséhez. A készletszintű kódtárak megadásakor mostantól megadhat egy requirements.txt environment.yml-t. Ezt a környezeti konfigurációs fájlt a rendszer minden alkalommal használja, amikor egy Spark-példányt hoznak létre a Spark-készletből.

Ezekről a képességekről a Python-készletkezelés dokumentációjában talál további információt.

Fontos

  • Ha a telepített csomag nagy méretű, vagy a telepítése hosszú időt vesz igénybe, az hatással van a Spark-példány indítási idejét.
  • A PySpark-, Python-, Scala-/Java-, .NET- vagy Spark-verziók megváltoztatása nem támogatott.
  • A CSOMAGOK PyPI-ból való telepítése nem támogatott a DEP-kompatibilis munkaterületeken.

Munkamenet-hatókörű csomagok

Interaktív adatelemzés vagy gépi tanulás során gyakran előfordulhat, hogy újabb csomagokat szeretne kipróbálni, vagy olyan csomagokra van szüksége, amelyek még nem érhetők el a Apache Spark készletben. A készletkonfiguráció frissítése helyett a felhasználók munkamenet-hatókörű csomagokkal adhatnak hozzá, kezelnek és frissíthet munkamenet-függőségeket.

A munkamenet-hatókörű csomagok lehetővé teszik, hogy a felhasználók csomagfüggőségeket határozzanak meg a munkamenet elején. Munkamenet-hatókörű csomag telepítésekor csak az aktuális munkamenet fér hozzá a megadott csomagokhoz. Ennek eredményeképpen ezek a munkamenet-hatókörű csomagok nem befolyásolják az azonos készletet használó más munkameneteket Apache Spark feladatokat. Emellett ezek a kódtárak az alapszintű futásidejű és készletszintű csomagokra is telepítve vannak.

A munkamenet-hatókörű csomagok kezelésével kapcsolatos további információkért olvassa el az alábbi útmutatókat:

  • Python-munkamenetcsomagok: A munkamenet elején adjon meg egy Conda environment.yml-t a népszerű adattárakból származó további Python-csomagok telepítéséhez.
  • Scala-/Java-munkamenetcsomagok: A munkamenet elején adja meg azon JAR-fájlok listáját, amelyek a használatával %%configure telepíthetők.

Következő lépések