Bibliotheken installeren vanuit een pakketopslagplaats

Artikel
04/22/2024

Azure Databricks biedt hulpprogramma's voor het installeren van bibliotheken vanuit PyPI-, Maven- en CRAN-pakketopslagplaatsen. Zie Clusterbibliotheken voor volledige bibliotheekcompatibiliteitsdetails.

Belangrijk

Bibliotheken kunnen worden geïnstalleerd vanuit DBFS wanneer u Databricks Runtime 14.3 LTS en hieronder gebruikt. Elke werkruimtegebruiker kan echter bibliotheekbestanden wijzigen die zijn opgeslagen in DBFS. Om de beveiliging van bibliotheken in een Azure Databricks-werkruimte te verbeteren, wordt het opslaan van bibliotheekbestanden in de DBFS-hoofdmap afgeschaft en standaard uitgeschakeld in Databricks Runtime 15.0 en hoger. Zie Opslaan van bibliotheken in dbFS-hoofdmap is afgeschaft en standaard uitgeschakeld.

In plaats daarvan raadt Databricks aan om alle bibliotheken, waaronder Python-bibliotheken, JAR-bestanden en Spark-connectors, te uploaden naar werkruimtebestanden of Unity Catalog-volumes, of om opslagplaatsen van bibliotheekpakketten te gebruiken. Als uw workload deze patronen niet ondersteunt, kunt u ook bibliotheken gebruiken die zijn opgeslagen in de opslag van cloudobjecten.

PyPI-pakket

Selecteer PyPI in de lijst bibliotheekbronknop.
Voer een PyPI-pakketnaam in. Als u een specifieke versie van een bibliotheek wilt installeren, gebruikt u deze indeling voor de bibliotheek: <library>==<version> Bijvoorbeeld: scikit-learn==0.19.1.

Notitie

Voor taken raadt Databricks u aan een bibliotheekversie op te geven om een reproduceerbare omgeving te garanderen. Als de bibliotheekversie niet volledig is opgegeven, gebruikt Databricks de meest recente overeenkomende versie. Dit betekent dat verschillende uitvoeringen van dezelfde taak verschillende bibliotheekversies kunnen gebruiken wanneer nieuwe versies worden gepubliceerd. Als u de bibliotheekversie opgeeft, voorkomt u dat nieuwe, belangrijke wijzigingen in bibliotheken uw taken breken.
(Optioneel) Voer in het veld Index-URL een PyPI-index-URL in.
Klik op Install.

Maven- of Spark-pakket

Belangrijk

Als u Maven-bibliotheken wilt installeren op berekeningen die zijn geconfigureerd met de modus voor gedeelde toegang, moet u de coördinaten toevoegen aan de acceptatielijst. Zie Allowlist-bibliotheken en init-scripts voor gedeelde berekeningen.

Belangrijk

Voor DBR 14.3 LTS en lager gebruikt Databricks Apache Ivy 2.4.0 om Maven-pakketten op te lossen. Voor DBR 15.0 en hoger gebruikt Databricks Ivy 2.5.1 of hoger en wordt de specifieke Ivy-versie vermeld in de releaseopmerkingen en compatibiliteit van Databricks Runtime.

De installatievolgorde van Maven-pakketten kan van invloed zijn op de uiteindelijke afhankelijkheidsstructuur, wat van invloed kan zijn op de volgorde waarin bibliotheken worden geladen.

Selecteer Maven in de lijst bibliotheekbronknop.
Geef een Maven-coördinaat op. Voer een van de volgende stappen uit:
- Voer in het veld Coördinaat de Maven-coördinaat van de bibliotheek in die moet worden geïnstalleerd. Maven-coördinaten zijn in de vorm groupId:artifactId:version; bijvoorbeeld com.databricks:spark-avro_2.10:1.0.0.
- Als u de exacte coördinaat niet weet, voert u de naam van de bibliotheek in en klikt u op Zoekpakketten. Er wordt een lijst met overeenkomende pakketten weergegeven. Als u details over een pakket wilt weergeven, klikt u op de naam ervan. U kunt pakketten sorteren op naam, organisatie en classificatie. U kunt de resultaten ook filteren door een query in de zoekbalk te schrijven. De resultaten worden automatisch vernieuwd.
  1. Selecteer Maven Central of Spark-pakketten in de vervolgkeuzelijst linksboven.
  2. Selecteer desgewenst de pakketversie in de kolom Releases.
  3. Klik op + Selecteren naast een pakket. Het veld Coördinaat wordt ingevuld met het geselecteerde pakket en de geselecteerde versie.
(Optioneel) In het veld Opslagplaats kunt u een URL voor de Maven-opslagplaats invoeren.

Notitie

Interne Maven-opslagplaatsen worden niet ondersteund.
Geef in het veld Uitsluitingen desgewenst de groupId en de artifactId afhankelijkheden op die u wilt uitsluiten (bijvoorbeeld log4j:log4j).

Notitie

Maven werkt met behulp van de dichtstbijzijnde versie van de hoofdmap en in het geval van twee pakketten die vying voor versies met verschillende afhankelijkheden, de volgorde van belang is, dus het kan mislukken wanneer het pakket met een oudere afhankelijkheid eerst wordt geladen.

U kunt dit omzeilen door de conflicterende bibliotheek uit te sluiten. Als u bijvoorbeeld het pakket installeert met de coördinaat com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, stelt u het veld Uitsluitingen in op com.nimbusds:oauth2-oidc-sdk:RELEASE zodat de nieuwste versie van eventhubs MSAL4J wordt geladen en de eventhubs afhankelijkheid wordt voldaan.
Klik op Install.

CRAN-pakket

Selecteer CRAN in de lijst bibliotheekbronknop.
Voer in het veld Pakket de naam van het pakket in.
(Optioneel) In het veld Opslagplaats kunt u de URL van de CRAN-opslagplaats invoeren.
Klik op Install.

Notitie

CRAN-spiegels dienen de nieuwste versie van een bibliotheek. Als gevolg hiervan kan het zijn dat u verschillende versies van een R-pakket krijgt als u de bibliotheek op verschillende tijdstippen aan verschillende clusters koppelt. Zie de Knowledge Base voor meer informatie over het beheren en herstellen van R-pakketversies op Databricks.

Bibliotheken installeren vanuit een pakketopslagplaats

PyPI-pakket

Maven- of Spark-pakket

CRAN-pakket

Aanvullende resources