Repo's voor Git-integratie

Notitie

Ondersteuning voor willekeurige bestanden in Databricks-repos is nu beschikbaar als openbare preview. Zie Werken met niet-notebook-bestanden in een Azure Databricks en Python- en R-modules importeren voor meer informatie.

Ter ondersteuning van best practices voor het ontwikkelen van code voor data science en engineering biedt Databricks Repos integratie op opslagplaatsniveau met Git-providers. U kunt code ontwikkelen in een Azure Databricks notebook en deze synchroniseren met een externe Git-opslagplaats. Met Databricks-repos kunt u Git-functionaliteit gebruiken, zoals het klonen van een externe repo, het beheren van vertakkingen, het pushen en binnenhalen van wijzigingen en het visueel vergelijken van verschillen bij het maken.

Databricks-repos biedt ook een API die u kunt integreren met uw CI/CD-pijplijn. U kunt bijvoorbeeld programmatisch een Databricks-repo bijwerken zodat deze altijd de meest recente codeversie heeft.

Databricks Repos biedt beveiligingsfuncties zoals lijsten met toegestane functies voor het beheer van de toegang tot Git-opslagplaatsen en de detectie van geheimen met duidelijke tekst in de broncode.

Wanneer auditlogging is ingeschakeld, worden controlegebeurtenissen geregistreerd wanneer u communiceert met een Databricks-repo. Een controlegebeurtenis wordt bijvoorbeeld geregistreerd wanneer u een Databricks-repo maakt, bijwerkt of verwijdert, wanneer u alle Databricks-repo's vermeldt die zijn gekoppeld aan een werkruimte en wanneer u wijzigingen synchroniseert tussen uw Databricks-repo en de externe Git-locatie.

Zie Best practices for integrating repos with CI/CD workflows(Best practices voor het integreren van repos met CI/CD-werkstromen) voor meer informatie over best practices voor codeontwikkeling met behulp van Databricks-repos.

Vereisten

Azure Databricks ondersteunt deze Git-providers:

  • GitHub
  • Bitbucket
  • GitLab
  • Azure DevOps

De Git-server moet toegankelijk zijn vanaf Azure Databricks. Azure Databricks biedt geen ondersteuning voor persoonlijke Git-servers, zoals Git-servers achter een VPN.

Ondersteuning voor willekeurige bestanden in Databricks-repos is beschikbaar in Databricks Runtime versie 8.4 en hoger.

Uw Git-integratie configureren met Azure Databricks

  1. Klik op Instellingen pictogramInstellingen in uw werkruimte Azure Databricks en selecteer Instellingen in het menu.

  2. Ga op de pagina Instellingen naar het tabblad Git-integratie.

  3. Volg de instructies voor integratie met GitHub,Bitbucket Cloud,GitLabof Azure DevOps.

    Als u voor Azure DevOps geen token of app-wachtwoord op geeft, gebruikt Git-integratie standaard uw Azure Active Directory token. Als u een persoonlijk Azure DevOps-toegang token op geeft, gebruikt Git-integratie dit in plaats daarvan.

  4. Als in uw organisatie eenmalige aanmelding met SAML is ingeschakeld in GitHub, moet u ervoor zorgen dat u uw persoonlijke toegangs token voor SSO hebt geautoriseerd.

Ondersteuning inschakelen voor willekeurige bestanden in Databricks-repos

Belangrijk

Deze functie is beschikbaar als openbare preview.

Naast het synchroniseren van notebooks met een externe Git-opslagplaats kunt u met Bestanden in opslagplaatsen elk type bestand synchroniseren, zoals bestanden, gegevensbestanden in- of indelings- of .py.csv.json.yaml configuratiebestanden. U kunt deze bestanden importeren en lezen in een Databricks-repo. U kunt ook bestanden met tekst zonder tekst weergeven en bewerken in de gebruikersinterface.

Als ondersteuning voor deze functie niet is ingeschakeld, ziet u nog steeds niet-notebook-bestanden in uw repo, maar u kunt er niet mee werken.

Vereisten

Als u wilt werken met niet-notebook-bestanden in Databricks-repos, moet u Databricks Runtime versie 8.4 of hoger uitvoeren.

Bestanden in repos inschakelen

Een beheerder kan deze functie als volgt inschakelen:

  1. Ga naar de beheerconsole.
  2. Klik op het tabblad Instellingen werkruimte.
  3. Klik in de sectie Geavanceerd op de schakelknop Bestanden in repos.
  4. Klik op Bevestigen.
  5. Vernieuw de browser.

De eerste keer dat u toegang hebt tot een repo nadat Bestanden in de repo is ingeschakeld, wordt een dialoogvenster weergegeven waarin wordt aangegeven dat u een pull-bewerking moet uitvoeren om niet-notebook-bestanden in de repo te synchroniseren. Selecteer Akkoord en Pull om bestanden te synchroniseren. Als er samenvoegingsconflicten zijn, wordt er een ander dialoogvenster weergegeven waarin u de conflicterende wijzigingen kunt negeren of uw wijzigingen naar een nieuwe vertakking kunt pushen.

Een externe Git-opslagplaats klonen

U kunt een externe Git-opslagplaats klonen en werken aan uw notebooks of bestanden in Azure Databricks. U kunt notebooks maken, notebooks en andere bestanden bewerken en synchroniseren met de externe opslagplaats. U kunt ook nieuwe vertakkingen maken voor uw ontwikkelwerkzaamheden. Voor sommige taken moet u in uw Git-provider werken, zoals het maken van een pr, het oplossen van conflicten, het samenvoegen of verwijderen van vertakkingen of het opnieuw in de vertakking maken van vertakkingen.

  1. Klik op Repos IconRepos in de zijbalk.

  2. Klik op Repo toevoegen.

    Een repo toevoegen

  3. Klik in het dialoogvenster Opslagplaats toevoegen op Externe Git-opslagplaats klonen en voer de URL van de opslagplaats in. Selecteer uw Git-provider in de vervolgkeuzelijst, wijzig eventueel de naam die u wilt gebruiken voor de Databricks-repo en klik op Maken. De inhoud van de externe opslagplaats wordt gekloond naar de Databricks-opslagplaats.

    Klonen vanuit een repo

Werken met notebooks in een Azure Databricks-repo

Als u een nieuwe notebook of map in een repo wilt maken, klikt u op de pijl-omlaag naast de naam van de repo en selecteert u Notitieblok maken of Map maken in het menu.

Menu Voor het maken van een repo

Als u een notebook of map in uw werkruimte naar een repo wilt verplaatsen, gaat u naar de notebook of map en selecteert u Verplaatsen in de vervolgkeuzelijst:

Object verplaatsen

Selecteer in het dialoogvenster de repo waarin u het object wilt verplaatsen:

Verplaatsen van de repo

U kunt een SQL python-bestand als een notebook met één cel Azure Databricks importeren.

  • Voeg de -- Databricks notebook source opmerkingsregel boven aan een SQL toe.
  • Voeg de # Databricks notebook source opmerkingsregel toe aan het begin van een Python-bestand.

Werken met niet-notebook-bestanden in een Azure Databricks-repo

Deze sectie bevat informatie over het toevoegen van bestanden aan een repo en het weergeven en bewerken van bestanden.

Belangrijk

Deze functie is beschikbaar als openbare preview.

Vereisten

Databricks Runtime 8.4 of hoger.

Een nieuw bestand maken

De meest voorkomende manier om een bestand in een opslagplaats te maken, is door een Git-opslagplaats te klonen. U kunt ook rechtstreeks vanuit de Databricks-repo een nieuw bestand maken. Klik op de pijl-omlaag naast de naam van de repo en selecteer Bestand maken in het menu.

repos create file (Bestand maken met repos)

Een bestand uploaden

Als u een bestand van uw lokale systeem wilt uploaden, klikt u op de pijl-omlaag naast de naam van de repo en selecteert Upload Bestand(en). U kunt bestanden naar het dialoogvenster slepen of op Bladeren klikken om bestanden te selecteren.

bestand voor uploaden van repos

Een bestand bewerken

Als u een bestand in een repo wilt bewerken, klikt u op de bestandsnaam in de browser Repos. Het bestand wordt geopend en u kunt het bewerken. Wijzigingen worden automatisch opgeslagen.

Programmatisch toegang krijgen tot bestanden in een repo

U kunt kleine gegevensbestanden in een repo, zoals of bestanden, programmatisch rechtstreeks vanuit .csv.json een notebook lezen. U kunt bestanden niet programmatisch maken of bewerken vanuit een notebook.

import pandas as pd
df = pd.read_csv("./data/winequality-red.csv")
df

U kunt Spark gebruiken voor toegang tot bestanden in een repo. Spark vereist absolute bestandspaden voor bestandsgegevens. Het absolute bestandspad voor een bestand in een repo is file:/Workspace/Repos/<user_folder>/<repo_name>/file .

In het onderstaande voorbeeld ziet u het gebruik {os.getcwd()} van om het volledige pad op te halen.

import os
spark.read.format("csv").load(f"file:{os.getcwd()}/my_data.csv")

Voorbeeld van notebook

In dit notebook ziet u voorbeelden van het werken met willekeurige bestanden in repos.

Voorbeeld van willekeurige bestanden in een notebook in een representitie

Notebook downloaden

Werken met Python- en R-modules

Belangrijk

Deze functie is beschikbaar als openbare preview.

Vereisten

Databricks Runtime 8.4 of hoger.

Python- en R-modules importeren

De huidige map van uw repo en notebook worden automatisch toegevoegd aan het Python-pad. Wanneer u in de hoofdmap van de repo werkt, kunt u modules importeren uit de hoofdmap en alle subdirectory's.

Als u modules uit een andere repo wilt importeren, moet u die repo toevoegen aan sys.path . Bijvoorbeeld:

import sys
sys.path.append("/Workspace/Repos/<user-name>/<repo-name>")

# to use a relative path
import sys
import os
sys.path.append(os.path.abspath('..'))

U importeert functies uit een module in een repo, net zoals u zou doen vanuit een module die is opgeslagen als een clusterbibliotheek of bibliotheek met notebookbereik:

Python

from sample import power
power.powerOfTwo(3)

R

source("sample.R")
power.powerOfTwo(3)

Automatisch laden voor Python-modules

Als u tijdens het ontwikkelen van Python-code meerdere bestanden bewerkt, kunt u de opdracht in elke cel uitvoeren om het opnieuw laden van alle %autoreload 2 modules af te dwingen.

Synchroniseren met een externe Git-opslagplaats

Als u wilt synchroniseren met Git, gebruikt u het dialoogvenster Git. In het dialoogvenster Git kunt u wijzigingen uit uw externe Git-opslagplaats halen en wijzigingen pushen en doorgevoerd. U kunt ook de vertakking wijzigen waar u aan werkt of een nieuwe vertakking maken.

Belangrijk

Git-bewerkingen die upstream-wijzigingen binnen halen, maken de notebook-status leeg. Zie Binnenkomende wijzigingen om de notebook-status te verwijderen voor meer informatie.

Het git-dialoogvenster openen

U kunt het Git-dialoogvenster openen vanuit een notebook of vanuit de browser voor de repo's.

  • Klik in een notebook op de knop linksboven in het notebook waarmee de huidige Git-vertakking wordt geïdentificeerd.

    Git-dialoogvensterknop in notebook

  • Klik in de browser voor de repo's op de knop rechts van de naam van de repo:

    Git-dialoogvensterknop in de repo-browser

    U kunt ook op de pijl-omlaag naast de naam van de repo klikken en Git... selecteren in het menu.

    Repos-menu 2

Wijzigingen uit de externe Git-opslagplaats halen

Als u wijzigingen wilt op halen uit de externe Git-opslagplaats, klikt u op Pullin het git-dialoogvenster. Notebooks en andere bestanden worden automatisch bijgewerkt naar de nieuwste versie in uw externe opslagplaats.

Er wordt een bericht weergegeven als er samenvoegingsconflicten zijn. Databricks raadt u aan het samenvoegingsconflict op te lossen met behulp van uw Git-providerinterface.

Wijzigingen doorgevoerd en pushen naar de externe Git-opslagplaats

Wanneer u nieuwe notebooks of bestanden hebt toegevoegd of wijzigingen hebt aangebracht in bestaande notebooks of bestanden, worden de wijzigingen in het git-dialoogvenster weergegeven.

Git-dialoogvenster

Voeg een vereiste Samenvatting van de wijzigingen toe en klik op Push doorgevoerd om deze wijzigingen naar de externe Git-opslagplaats te pushen.

Als u geen machtiging hebt om door te geven aan de standaardvertakking, zoals , maakt u een nieuwe vertakking en gebruikt u de interface van uw Git-provider om een pull-aanvraag (PR) te maken om deze samen te voegen in de main standaardvertakking. main

Notitie

  • Resultaten zijn niet opgenomen in een notebook-door commit. Alle resultaten worden gew cleared voordat de door commit wordt gemaakt.
  • Als er samenvoegingsconflicten zijn, raadt Databricks u aan een nieuwe vertakking te maken, uw wijzigingen door te voeren en naar die vertakking te pushen, in die vertakking te werken en het samenvoegingsconflict op te lossen met behulp van uw Git-providerinterface.

Een nieuwe vertakking maken

U kunt een nieuwe vertakking maken op basis van een bestaande vertakking vanuit het Git-dialoogvenster:

Git-dialoogvenster nieuwe vertakking

Toegang tot Databricks-repos controleren

Machtigingen beheren

Wanneer u een repo maakt, hebt u de machtiging Can Manage. Hiermee kunt u Git-bewerkingen uitvoeren of de externe opslagplaats wijzigen. U kunt openbare externe opslagplaatsen klonen zonder Git-referenties (persoonlijk toegangsteken en gebruikersnaam). Als u een openbare externe opslagplaats wilt wijzigen of als u een externe privéopslagplaats wilt klonen of wijzigen, moet u een gebruikersnaam van de Git-provider en een persoonlijk toegangsteken hebben met lees- en schrijfmachtigingen voor de externe opslagplaats.

Lijsten met toegestane lijsten gebruiken

Een beheerder kan beperken welke externe repos-gebruikers kunnen commiten en pushen.

  1. Ga naar de beheerconsole.
  2. Klik op het tabblad Instellingen werkruimte.
  3. Klik in de sectie Geavanceerd op de schakelknop Lijst met toegestane Git-URL's inschakelen.
  4. Klik op Bevestigen.
  5. Voer in het veld naast Lijst met toegestane Git-URL'svan repos: Lege lijst een door komma's gescheiden lijst met URL-voorvoegsels in.
  6. Klik op Opslaan.

Gebruikers kunnen alleen Git-opslagplaatsen commiten en pushen die beginnen met een van de URL-voorvoegsels die u opgeeft. De standaardinstelling is 'Lege lijst', waarmee de toegang tot alle opslagplaatsen wordt uitgeschakeld. Als u toegang wilt toestaan tot alle opslagplaatsen, schakelt u Lijst met toegestane Git-URL's voor opslagplaatsen inschakelen uit.

Notitie

  • De lijst die u opgeslagen, overschrijft de bestaande set opgeslagen URL-voorvoegsels.
  • Het kan ongeveer 15 minuten duren voordat de wijzigingen zijn doorgevoerd.

Geheimendetectie

Met repos wordt code gescand op toegangssleutel-ID's die beginnen met het voorvoegsel en wordt de gebruiker gewaarschuwd AKIA voordat de sleutel wordt vastgelegd.

Repos-API

Met het update-eindpunt van de Repos-API kunt u een repo bijwerken naar de nieuwste versie van een specifieke Git-vertakking of naar een tag. Hiermee kunt u de -repo bijwerken voordat u een taak op een notebook in de -repo kunt uitvoeren. Zie Repos API 2.0 voor meer informatie.

Best practices voor het integreren van repos met CI/CD-werkstromen

Deze sectie bevat best practices voor het integreren van Databricks-repos met uw CI/CD-werkstroom. In de volgende afbeelding ziet u een overzicht van de stappen.

Overzicht van best practices

Beheerwerkstroom

Repos hebben mappen op gebruikersniveau en mappen op het hoogste niveau van niet-gebruikers. Mappen op gebruikersniveau worden automatisch gemaakt wanneer gebruikers voor het eerst een externe opslagplaats klonen. U kunt repos in gebruikersmappen zien als 'lokale kassa's' die voor elke gebruiker afzonderlijk zijn en waar gebruikers wijzigingen in hun code aanbrengen.

Mappen op het hoogste niveau van de repo instellen

Beheerders kunnen mappen op het hoogste niveau van niet-gebruikers maken. De meest voorkomende use-case voor deze mappen op het hoogste niveau is het maken van de mappen Dev, Staging en Production die een rek bevatten voor de juiste versies of vertakkingen voor ontwikkeling, fasering en productie. Als uw bedrijf bijvoorbeeld de hoofdvertakking gebruikt voor productie, bevat de map Productie de mappen die zijn geconfigureerd voor de hoofdvertakking.

Doorgaans zijn machtigingen voor deze mappen op het hoogste niveau alleen-lezen voor alle gebruikers die geen beheerder zijn in de werkruimte.

Mappen op het hoogste niveau

Git-automatisering instellen om repo's bij te werken bij samenvoeging

Om ervoor te zorgen dat de repo's altijd de nieuwste versie hebben, kunt u Git-automatisering instellen om de Repos-API aan te roepen. Stel in uw Git-provider automatisering in die na elke geslaagde samenvoeging van een pr in de main-vertakking het eindpunt van de Repos-API aanroept op de juiste repo in de map Productie om die repo naar de nieuwste versie te brengen.

Dit kan bijvoorbeeld op GitHub worden bereikt met GitHub Acties. Zie de Repos-API voor meer informatie.

Gebruikerswerkstroom

Als u een werkstroom wilt starten, kloont u uw externe opslagplaats in een gebruikersmap. Een best practice is het maken van een nieuwe functievertakking of het selecteren van een eerder gemaakte vertakking voor uw werk, in plaats van wijzigingen rechtstreeks door te voeren en naar de main branch. U kunt wijzigingen aanbrengen, wijzigingen doorgevoerd en pushen in die vertakking. Wanneer u klaar bent om uw code samen te voegen, maakt u een pull-aanvraag en volgt u de controle- en samenvoegprocessen in Git.

Werkstroom voor productietaken

U kunt taken rechtstreeks naar notebooks in de -repos laten wijzen. Wanneer een taak een uitvoering start, wordt de huidige versie van de code in de repo gebruikt.

Als de automatisering is ingesteld zoals beschreven in Beheerwerkstroom,wordt bij elke geslaagde samenvoeging de repos-API aangeroepen om de repo bij te werken. Als gevolg hiervan gebruiken taken die zijn geconfigureerd om code uit te voeren vanuit een repo altijd de meest recente versie die beschikbaar is wanneer de taak is gemaakt.

Migratietips

Belangrijk

Deze functie is beschikbaar als openbare preview.

Als u opdrachten gebruikt om Python- of R-functies die zijn gedefinieerd in een notebook beschikbaar te maken voor een ander notebook, of als u aangepaste bestanden op een cluster installeert, kunt u overwegen deze aangepaste modules op te slaan in een %run.whl Databricks-repo. Op deze manier kunt u uw notebooks en andere codemodules synchroon houden, zodat uw notebook altijd de juiste versie gebruikt.

Migreren vanuit %run opdrachten

%run met -opdrachten kunt u één notebook in een ander notebook opnemen en deze worden vaak gebruikt om ondersteunende Python- of R-code beschikbaar te maken voor een notebook. In dit voorbeeld bevat een notebook met de power.py naam de onderstaande code.

# This code is in a notebook named "power.py".
def n_to_mth(n,m):
  print(n, "to the", m, "th power is", n**m)

Vervolgens kunt u functies die zijn gedefinieerd in power.py beschikbaar maken voor een ander notebook met een %run opdracht:

# This notebook uses a %run command to access the code in "power.py".
%run ./power
n_to_mth(3, 4)

Met Bestanden in repos kunt u rechtstreeks de module importeren die de Python-code bevat en de functie uitvoeren.

from Power import n_to_mth
n_to_mth(3, 4)

Migreren van het installeren van aangepaste .whl Python-bestanden

U kunt aangepaste bestanden .whl installeren op een cluster en deze vervolgens importeren in een notebook dat aan dat cluster is gekoppeld. Voor code die regelmatig wordt bijgewerkt, is dit proces omslachtig en foutgevoelig. Met bestanden in repos kunt u deze Python-bestanden in dezelfde repo bewaren met de notebooks die gebruikmaken van de code, zodat uw notebook altijd de juiste versie gebruikt.

Zie deze zelfstudie voor meer informatie over het verpakken van Python-projecten.

Beperkingen en veelgestelde vragen

In deze sectie:

Met binnenkomende wijzigingen wordt de notebook-status geweken

Git-bewerkingen die de broncode van het notebook wijzigen, leiden tot verlies van de notebook-status, inclusief celresultaten, opmerkingen, revisiegeschiedenis en widgets. Git pull kan bijvoorbeeld de broncode van een notebook wijzigen. In dit geval moeten Databricks-repos het bestaande notebook overschrijven om de wijzigingen te importeren. Git-commit en pushen of maken van een nieuwe vertakking hebben geen invloed op de broncode van het notebook, dus de notebook-status blijft behouden in deze bewerkingen.

Wat gebeurt er als een taak wordt uitgevoerd op een notebook terwijl een Git-bewerking wordt uitgevoerd?

Op elk moment dat een Git-bewerking wordt uitgevoerd, zijn sommige notebooks in de repo mogelijk bijgewerkt terwijl anderen dat niet hebben. Dit kan onvoorspelbaar gedrag veroorzaken.

Stel bijvoorbeeld dat notebook A notebook Z aanroept met behulp van een %run opdracht. Als een taak wordt uitgevoerd tijdens een Git-bewerking wordt de meest recente versie van notebook A gestart, maar notebook Z heeft dat niet is bijgewerkt, kan de %run opdracht in notebook A de oudere versie van notebook Z starten. Tijdens de Git-bewerking zijn de notebook-staten niet voorspelbaar en kan de taak mislukken of worden uitgevoerd notebook A en notebook Z uit verschillende commits.

Hoe kan ik niet-Databricks-notebookbestanden uitvoeren in een repo? Bijvoorbeeld een .py bestand?

U kunt een van de volgende opties gebruiken:

Kan ik mappen op het hoogste niveau maken die geen gebruikersmappen zijn?

Ja, beheerders kunnen mappen op het hoogste niveau tot één diepte maken. Repos biedt geen ondersteuning voor extra mapniveaus.

Bieden repos ondersteuning voor GPG-ondertekening van commits?

Nee.

Hoe en waar worden de GitHub-tokens opgeslagen in Azure Databricks? Wie zou toegang hebben vanaf Azure Databricks?

  • De verificatietokens worden opgeslagen in Azure Databricks besturingsvlak en een Azure Databricks-werknemer kan alleen toegang krijgen via een tijdelijke referentie die wordt gecontroleerd.
  • Azure Databricks registreert het maken en verwijderen van deze tokens, maar niet het gebruik ervan. Azure Databricks logboekregistratie die Git-bewerkingen bij houdt die kunnen worden gebruikt om het gebruik van de tokens door de Azure Databricks controleren.
  • Github Enterprise controleert het tokengebruik. Andere Git-services kunnen ook git-servercontrole hebben.

Ondersteunen repos on-premises of zelf-hostende Git-servers?

Nee.

Bieden repos ondersteuning voor Git-submodules?

Nee. U kunt een repo klonen die Git-submodules bevat, maar de submodule is niet gekloond.

Bieden repos ondersteuning voor SSH?

Nee, alleen HTTPS.

Ondersteunt repos .gitignore bestanden?

Ja. Als u een bestand aan uw opslagplaats toevoegt en niet wilt dat het door Git wordt gevolgd, maakt u een bestand of gebruikt u een gekloond bestand uit uw externe opslagplaats en voegt u de bestandsnaam toe, inclusief de .gitignore extensie.

.gitignore werkt alleen voor bestanden die nog niet door Git worden bijgespoord. Als u een bestand dat al door Git wordt bijgespoord toevoegt aan een bestand, wordt het bestand .gitignore nog steeds bij te houden door Git.

Kan ik de nieuwste versie van een opslagplaats uit Git halen voordat ik een taak kan uitvoeren zonder afhankelijk te zijn van een extern orchestration-hulpprogramma?

Nee. Normaal gesproken kunt u dit integreren als een vooraf door te voeren op de Git-server, zodat bij elke push naar een vertakking (main/prod) de productie-repo wordt bijgewerkt.

Kan ik bestanden .ipynb pullen?

Ja. Het bestand wordt weergegeven in .json indeling, niet in notebookindeling.

Gelden er limieten voor de grootte van een repo of het aantal bestanden?

Databricks dwingt geen limiet af voor de grootte van een repo. Werk branches zijn beperkt tot 200 MB. Afzonderlijke bestanden zijn beperkt tot 10 MB.

Databricks raadt aan dat het totale aantal notebooks en bestanden in een repo niet groter is dan 1000.

U ontvangt mogelijk een foutbericht als deze limieten zijn overschreden. Er kan ook een time-outfout worden weergegeven bij de eerste kloon van de repo, maar de bewerking kan op de achtergrond worden voltooid.

Ondersteunt repos het samenvoegen van vertakkingen?

Nee. Databricks raadt u aan een pull-aanvraag te maken en samen te voegen via uw Git-provider.

Is de inhoud van Databricks-repos versleuteld?

De inhoud van de repos wordt versleuteld door een Azure Databricks met behulp van een standaardsleutel. Versleuteling met door de klant beheerde sleutels inschakelen voor beheerde services wordt niet ondersteund.

Kan ik een vertakking uit een Azure Databricks verwijderen?

Nee. Als u een vertakking wilt verwijderen, moet u in uw Git-provider werken.

Waar wordt de inhoud van de Databricks-repo opgeslagen?

De inhoud van een repo wordt tijdelijk gekloond op schijf in het besturingsvlak. Azure Databricks notebookbestanden worden opgeslagen in de besturingsvlakdatabase, net als notebooks in de hoofdwerkruimte. Niet-notebook-bestanden kunnen maximaal 30 dagen op schijf worden opgeslagen.

Hoe kan ik repos in mijn werkruimte uitschakelen?

Volg deze stappen om de repos voor Git in uw werkruimte uit te schakelen.

  1. Ga naar de beheerconsole.
  2. Klik op het tabblad Instellingen werkruimte.
  3. Klik in de sectie Geavanceerd op de schakelknop Repos.
  4. Klik op Bevestigen.
  5. Vernieuw de browser.

Ondersteunt Azure Data Factory (ADF) repos?

Ja.

Beperkingen voor bestanden in repos

Belangrijk

Deze functie is beschikbaar als openbare preview.

  • Native bestandslezen worden ondersteund in Python- en R-notebooks. Native bestandslezen worden niet ondersteund in Scala-notebooks, maar u kunt Scala-notebooks gebruiken met DBFS zoals u dat nu doet.
  • De diff-weergave in het git-dialoogvenster is niet beschikbaar voor bestanden.
  • Alleen tekstbestanden worden weergegeven in de gebruikersinterface. Als u bestanden in Azure Databricks weergeven, mogen de bestanden niet groter zijn dan 10 MB.
  • U kunt geen bestand maken of bewerken vanuit uw notebook.

Problemen oplossen

Foutbericht: Invalid credentials

Probeer het volgende:

  • Controleer of de instellingen op het tabblad Git-integratie(Instellingen Git-integratie)juist zijn.

    • U moet zowel de gebruikersnaam als het token van uw Git-provider invoeren. Voor verouderde Git-integraties is geen gebruikersnaam vereist, dus mogelijk moet u een gebruikersnaam toevoegen om met repo's te kunnen werken.
  • Controleer of u de juiste Git-provider hebt geselecteerd in het dialoogvenster Repotoevoegen.

  • Zorg ervoor dat uw persoonlijke toegangs token of app-wachtwoord de juiste toegang tot de repo heeft.

  • Als eenmalige aanmelding is ingeschakeld op uw Git-provider, autor mailt u uw tokens voor eenmalige aanmelding.

  • Test uw token met de opdrachtregel Git. Beide opties moeten werken:

    git clone https://<username>:<personal-access-token>@github.com/<org>/<repo-name>.git
    
    git clone -c http.sslVerify=false -c http.extraHeader='Authorization: Bearer <personal-access-token>' https://agile.act.org/
    

Foutbericht: Beveiligde verbinding kan niet tot stand worden gebracht vanwege SSL-problemen

<link>: Secure connection to <link> could not be established because of SSL problems

Deze fout treedt op als uw Git-server niet toegankelijk is vanuit Azure Databricks. Privé-Git-servers worden niet ondersteund.

Foutbericht: Azure Active Directory referenties

  Encountered an error with your Azure Active Directory credentials. Please try logging out of Azure Active Directory and logging back in.

Deze fout kan optreden als uw team onlangs is overgeschoven naar het gebruik van een MFA-beleid (Multi-Factor Authorization) voor Azure Active Directory. Als u dit probleem wilt oplossen, moet u zich afmelden bij Azure Active Directory door naar te gaan portal.azure.com en u af te melden. Wanneer u zich weer aanmeldt, wordt u gevraagd om MFA te gebruiken om u aan te melden.

Als dat niet werkt, meld u zich volledig af bij alle Azure-services voordat u zich opnieuw probeert aan te melden.

Time-outfouten

Dure bewerkingen, zoals het klonen van een grote repo of het uitchecken van een grote vertakking, kunnen time-outfouten veroorzaken, maar de bewerking kan op de achtergrond worden voltooid. U kunt het later ook opnieuw proberen als de werkruimte op dat moment zwaar werd belast.

404-fouten

Als u een 404-fout krijgt wanneer u een niet-notebookbestand probeert te openen, wacht u een paar minuten en probeert u het opnieuw. Er is een vertraging van enkele minuten tussen het moment waarop de werkruimte is ingeschakeld en het moment waarop de web-app de configuratievlag oppikt.

resource not found fouten na het binnenhalen van niet-notebook-bestanden in een Databricks-repo

Deze fout kan optreden als u geen gebruik Databricks Runtime 8.4 of hoger. Een cluster met Databricks Runtime 8.4 of hoger is vereist om te werken met niet-notebook-bestanden in een repo.

Mijn beheerder heeft bestanden ingeschakeld in opslagplaatsen, maar verwachte bestanden worden niet weergegeven na het klonen van een externe opslagplaats of het binnenhalen van bestanden in een bestaande opslagplaats

  • U moet uw browser vernieuwen en het cluster opnieuw starten om de nieuwe configuratie op te halen.
  • Uw cluster moet worden uitgevoerd Databricks Runtime 8.4 of hoger.