Instalar bibliotecas a partir de um repositório de pacotes

O Azure Databricks fornece ferramentas para instalar bibliotecas de repositórios de pacotes PyPI, Maven e RAN. Consulte Bibliotecas com escopo de cluster para obter detalhes completos sobre a compatibilidade da biblioteca.

Importante

As bibliotecas podem ser instaladas a partir do DBFS ao usar o Databricks Runtime 14.3 LTS e inferior. No entanto, qualquer usuário do espaço de trabalho pode modificar arquivos de biblioteca armazenados no DBFS. Para melhorar a segurança das bibliotecas em um espaço de trabalho do Azure Databricks, o armazenamento de arquivos de biblioteca na raiz DBFS é preterido e desabilitado por padrão no Databricks Runtime 15.0 e superior. Consulte O armazenamento de bibliotecas na raiz DBFS foi preterido e desativado por padrão.

Em vez disso, o Databricks recomenda carregar todas as bibliotecas, incluindo bibliotecas Python, arquivos JAR e conectores Spark, para arquivos de espaço de trabalho ou volumes do Catálogo Unity, ou usar repositórios de pacotes de biblioteca. Se sua carga de trabalho não oferecer suporte a esses padrões, você também poderá usar bibliotecas armazenadas no armazenamento de objetos na nuvem.

Pacote PyPI

  1. Na lista de botões Código-fonte da biblioteca, selecione PyPI.

  2. Insira um nome de pacote PyPI. Para instalar uma versão específica de uma biblioteca, use este formato para a biblioteca: <library>==<version>. Por exemplo, scikit-learn==0.19.1.

    Nota

    Para trabalhos, o Databricks recomenda que você especifique uma versão da biblioteca para garantir um ambiente reproduzível. Se a versão da biblioteca não for totalmente especificada, o Databricks usará a versão correspondente mais recente. Isso significa que diferentes execuções do mesmo trabalho podem usar versões de biblioteca diferentes à medida que novas versões são publicadas. Especificar a versão da biblioteca evita que novas alterações significativas nas bibliotecas interrompam seus trabalhos.

  3. (Opcional) No campo URL do índice, insira um URL de índice PyPI.

  4. Clique em Install (Instalar).

Pacote Maven ou Spark

Importante

Para instalar bibliotecas Maven na computação configurada com o modo de acesso compartilhado, você deve adicionar as coordenadas à lista de permissões. Consulte Bibliotecas Allowlist e scripts init em computação compartilhada.

Importante

Para DBR 14.3 LTS e inferior, o Databricks usa o Apache Ivy 2.4.0 para resolver pacotes Maven. Para DBR 15.0 e superior, o Databricks usa o Ivy 2.5.1 ou superior e a versão específica do Ivy está listada nas versões e compatibilidade das notas de versão do Databricks Runtime.

A ordem de instalação dos pacotes Maven pode afetar a árvore de dependência final, o que pode afetar a ordem na qual as bibliotecas são carregadas.

  1. Na lista de botões Código-fonte da biblioteca, selecione Maven.

  2. Especifique uma coordenada Maven. Execute um dos seguintes procedimentos:

    • No campo Coordenadas, insira a coordenada Maven da biblioteca a ser instalada. As coordenadas Maven estão na forma groupId:artifactId:version, por exemplo, com.databricks:spark-avro_2.10:1.0.0.
    • Se não souber a coordenada exata, introduza o nome da biblioteca e clique em Procurar Pacotes. É apresentada uma lista de pacotes correspondentes. Para exibir detalhes sobre um pacote, clique em seu nome. Você pode classificar os pacotes por nome, organização e classificação. Você também pode filtrar os resultados escrevendo uma consulta na barra de pesquisa. Os resultados são atualizados automaticamente.
      1. Selecione Maven Central ou Spark Packages na lista suspensa no canto superior esquerdo.
      2. Opcionalmente, selecione a versão do pacote na coluna Versões.
      3. Clique em + Selecionar ao lado de um pacote. O campo Coordenadas é preenchido com o pacote e a versão selecionados.
  3. (Opcional) No campo Repositório, você pode inserir uma URL do repositório Maven.

    Nota

    Não há suporte para repositórios internos do Maven.

  4. No campo Exclusões, opcionalmente, forneça o groupId e o artifactId das dependências que você deseja excluir (por exemplo, log4j:log4j).

    Nota

    O Maven funciona usando a versão mais próxima da raiz e, no caso de dois pacotes que disputam versões com dependências diferentes, a ordem é importante, então pode falhar quando o pacote com uma dependência mais antiga é carregado primeiro.

    Para contornar isso, exclua a biblioteca conflitante. Por exemplo, ao instalar o pacote com a coordenada com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, defina o campo Exclusões para com.nimbusds:oauth2-oidc-sdk:RELEASE que a versão mais recente do MSAL4J seja carregada eventhubs e a eventhubs dependência seja satisfeita.

  5. Clique em Install (Instalar).

Pacote CRAN

  1. Na lista de botões Código-fonte da biblioteca, selecione CRAN.
  2. No campo Pacote, insira o nome do pacote.
  3. (Opcional) No campo Repositório, você pode inserir a URL do repositório CRAN.
  4. Clique em Install (Instalar).

Nota

Os espelhos CRAN servem a versão mais recente de uma biblioteca. Como resultado, você pode acabar com versões diferentes de um pacote R se anexar a biblioteca a clusters diferentes em momentos diferentes. Para saber como gerenciar e corrigir versões de pacotes R no Databricks, consulte a Base de Dados de Conhecimento.