Konfigurieren von Git-Anmeldeinformationen und Verbinden eines Remoterepositorys mit Azure Databricks

In diesem Artikel wird beschrieben, wie Sie Ihre Git-Anmeldeinformationen in Databricks so konfigurieren, dass Sie ein Remoterepository mit Databricks-Git-Ordnern (ehemals Repositorys) verbinden können.

Eine Liste der unterstützten Git-Anbieter (Cloud und lokale Bereitstellungen) finden Sie unter Unterstützte Git-Anbieter.

GitHub und GitHub AE

Die folgenden Informationen gelten für GitHub- und GitHub AE-Benutzer.

Warum verwenden Sie die Databricks GitHub-App anstelle eines PAT?

Databricks-Git-Ordner ermöglichen Ihnen die Auswahl der Databricks-GitHub-App für die Benutzerauthentifizierung anstelle von PATs, wenn Sie ein gehostetes GitHub-Konto verwenden. Die Verwendung der GitHub-App bietet die folgenden Vorteile gegenüber PATs:

  • Sie verwendet OAuth 2.0 für die Benutzerauthentifizierung. Der OAuth 2.0-Repositorydatenverkehr wird verschlüsselt, um hohe Sicherheit zu gewährleisten.
  • Sie ist einfacher zu integrieren (siehe die nachfolgenden Schritte) und erfordert keine individuelle Nachverfolgung von Token.
  • Die Tokenverlängerung wird automatisch durchgeführt.
  • Die Integration kann auf bestimmte angefügte Git-Repositorys festgelegt werden, sodass Sie den Zugriff präziser steuern können.

Wichtig

Gemäß der standardmäßigen OAuth 2.0-Integration speichert Databricks die Zugriffs- und Aktualisierungstoken eines Benutzers – alle anderen Zugriffssteuerungen werden von GitHub verarbeitet. Zugriffs- und Aktualisierungstoken folgen den Standardmäßigen Ablaufregeln von GitHub mit Zugriffstoken, die nach 8 Stunden ablaufen (wodurch das Risiko im Falle eines Verlusts von Anmeldeinformationen minimiert wird). Aktualisierungstoken haben eine Lebensdauer von 6 Monaten, wenn sie nicht verwendet wird. Verknüpfte Anmeldeinformationen laufen nach 6 Monaten Inaktivität ab, sodass der Benutzer sie neu konfigurieren muss.

Sie können Databricks-Token optional mithilfe von vom Kunden verwalteten Schlüsseln (CMK) verschlüsseln.

Hinweis

  • Dieses Feature wird in GitHub Enterprise Server nicht unterstützt. Verwenden Sie stattdessen ein persönliches Zugriffstoken.

Verknüpfen Sie in Azure Databricks Ihr GitHub-Konto auf der Seite „Benutzereinstellungen“:

  1. Klicken Sie auf einer beliebigen Seite in der oberen rechten Ecke auf Ihren Benutzernamen und anschließend auf Benutzereinstellungen.

  2. Klicken Sie auf die Registerkarte Verknüpfte Konten.

  3. Ändern Sie Ihren Anbieter in GitHub, wählen Sie Git-Konto verknüpfen aus, und klicken Sie auf Verknüpfen.

    Verknüpfen eines GitHub-Kontos in Databricks

  4. Die Autorisierungsseite für die Databricks-GitHub-App wird angezeigt. Autorisieren Sie die GitHub-App zum Abschließen des Setups. Damit darf Databricks in Ihrem Auftrag handeln kann, wenn Sie Git-Vorgänge in Git-Ordnern ausführen (z. B. ein Repository klonen). Ausführlichere Informationen zur App-Autorisierung finden Sie in der GitHub-Dokumentation.

    Autorisierungsseite für die Databricks-GitHub-App

  5. Um den Zugriff auf GitHub-Repositorys zuzulassen, führen Sie die folgenden Schritte aus, um die Databricks-GitHub-App zu installieren und zu konfigurieren.

Installieren und Konfigurieren der Databricks-GitHub-App, um den Zugriff auf Repositorys zu ermöglichen

Sie können die Databricks-GitHub-App installieren und in GitHub-Repositorys konfigurieren, auf die Sie über Databricks-Git-Ordner zugreifen möchten. Ausführlichere Informationen zur App-Installation finden Sie in der GitHub-Dokumentation.

  1. Öffnen Sie die Installationsseite der Databricks-GitHub-App.

  2. Wählen Sie das Konto aus, dem die Repositorys gehören, auf die Sie zugreifen möchten.

    Installationsseite der Databricks-GitHub-App

  3. Wenn Sie nicht der Besitzer oder die Besitzerin des Kontos sind, müssen Sie die App vom Kontobesitzer oder der Kontobesitzerin für Sie installieren und konfigurieren lassen.

  4. Wenn Ihnen der Kontobesitz zugewiesen wurde, installieren Sie die GitHub-App. Durch die Installation erhalten Sie Lese- und Schreibzugriff auf Code. Auf Code wird nur im Namen von Benutzern oder Benutzerinnen zugegriffen (z. B. wenn diese ein Repository in Databricks-Git-Ordnern klonen).

  5. Optional können Sie nur einer Teilmenge von Repositorys Zugriff gewähren, indem Sie die Option Nur ausgewählte Repositorys auswählen.

Herstellen einer Verbindung mit einem GitHub-Repository mithilfe eines persönlichen Zugriffstokens

Führen Sie in GitHub die folgenden Schritte aus, um ein persönliches Zugriffstoken für den Zugriff auf Ihre Repositorys zu erstellen:

  1. Klicken Sie auf einer beliebigen Seite in der oberen rechten Ecke auf Ihr Profilfoto und anschließend auf Einstellungen.
  2. Klicken Sie auf Entwicklereinstellungen.
  3. Klicken Sie im linken Bereich auf die Registerkarte Persönliche Zugriffstoken und dann auf Token (klassisch).
  4. Klicken Sie auf die Schaltfläche Neues Token generieren.
  5. Geben Sie eine Beschreibung für das Token ein.
  6. Wählen Sie die Bereiche Repository und Workflow aus, und klicken Sie auf die Schaltfläche Token generieren. Der Bereich Workflow wird benötigt, falls Ihr Repository GitHub Action-Workflows enthält.
  7. Kopieren Sie das Token in die Zwischenablage. Geben Sie dieses Token in Azure Databricks unter Benutzereinstellungen > Verknüpfte Konten ein.

Informationen zur Verwendung des einmaligen Anmeldens finden Sie unter Autorisieren eines persönlichen Zugriffstokens für die Verwendung mit SAML SSO.

Herstellen einer Verbindung mit einem GitHub-Repository mithilfe eines differenzierten persönlichen Zugriffstokens

Verwenden Sie als bewährte Methode ein differenziertes PAT, das nur Zugriff auf die Ressourcen gewährt, auf die Sie in Ihrem Projekt zugreifen werden. Führen Sie in GitHub die folgenden Schritte aus, um ein differenziertes persönliches Zugriffstoken für den Zugriff auf Ihre Repositorys zu erstellen:

  1. Klicken Sie auf einer beliebigen Seite in der oberen rechten Ecke auf Ihr Profilfoto und anschließend auf Einstellungen.

  2. Klicken Sie auf Entwicklereinstellungen.

  3. Klicken Sie im linken Bereich auf die Registerkarte Persönliche Zugriffstoken und dann auf Differenzierte Token.

  4. Klicken Sie oben rechts auf der Seite auf die Schaltfläche Neues Token generieren, um die Seite New fine-grained personal access token zu öffnen.

    Generieren von GitHub-Token

  5. Konfigurieren Sie Ihr neues differenziertes Token mit den folgenden Einstellungen:

    • Tokenname: Geben Sie einen eindeutigen Tokennamen an. Notieren Sie diesen, damit Sie ihn nicht vergessen oder verlieren.

    • Ablauf: Wählen Sie den Zeitrahmen für den Tokenablauf aus. Der Standardwert beträgt 30 Tage.

    • Beschreibung: Fügen Sie einen kurzen Text hinzu, der den Zweck des Tokens beschreibt.

    • Ressourcenbesitzer: Die Standardeinstellung ist Ihre aktuelle GitHub-ID. Legen Sie diesen Wert auf die GitHub-Organisation fest, die die Repositorys besitzt, auf die Sie zugreifen.

    • Wählen Sie unter Repositoryzugriffden Zugriffsbereich für Ihr Token aus. Wählen Sie als bewährte Methode nur die Repositorys aus, die Sie für die Git-Ordnerversionskontrolle verwenden.

    • Konfigurieren Sie unter Berechtigungen die spezifischen Zugriffsebenen, die von diesem Token für die Repositorys und das Konto gewährt werden, mit denen Sie arbeiten. Weitere Informationen zu den Berechtigungsgruppen finden Sie in der GitHub-Dokumentation unter Permissions required for fine-grained personal access tokens.

      Legen Sie die Zugriffsberechtigungen für Inhalte auf Lesen und schreiben fest. (Sie finden den Bereich „Inhalte“ unter Repositoryberechtigungen.) Ausführliche Informationen zu diesem Bereich finden Sie in der GitHub-Dokumentation zum Bereich „Inhalte“.

      Festlegen der Berechtigungen für ein differenziertes Git-PAT zum Lesen und Schreiben über die GitHub-Benutzeroberfläche

  6. Klicken Sie auf die Schaltfläche Token generieren.

  7. Kopieren Sie das Token in die Zwischenablage. Geben Sie dieses Token in Azure Databricks unter Benutzereinstellungen > Verknüpfte Konten ein.

GitLab

Führen Sie in GitLab die folgenden Schritte aus, um ein persönliches Zugriffstoken für den Zugriff auf Ihre Repositorys zu erstellen:

  1. Klicken Sie in GitLab in der oberen linken Ecke des Bildschirms auf Ihr Benutzersymbol und anschließend auf Einstellungen.

  2. Klicken Sie in der Seitenleiste auf Zugriffstoken.

  3. Klicken Sie im Abschnitt „Persönliche Zugriffstoken“ der Seite auf Neues Token hinzufügen.

    Generieren von GitLab-Token

  4. Geben Sie einen Namen für das Token ein.

  5. Wählen Sie die spezifischen Bereiche aus, um den Zugriff zu ermöglichen, indem Sie die Kontrollkästchen für Ihre gewünschten Berechtigungsstufen aktivieren. Weitere Informationen zu den Bereichsoptionen finden Sie in der GitLab-Dokumentation zu PAT-Bereichen.

  6. Klicken Sie auf Persönliches Zugriffstoken erstellen.

  7. Kopieren Sie das Token in die Zwischenablage. Geben Sie dieses Token in Azure Databricks unter Benutzereinstellungen > Verknüpfte Konten ein.

Weitere Informationen zum Erstellen und Verwalten persönlicher Zugriffstoken finden Sie in der GitLab-Dokumentation.

GitLab bietet auch Unterstützung für differenzierten Zugriff mithilfe von sogenannten Projektzugriffstoken. Sie können Projektzugriffstoken verwenden, um den Zugriff auf ein GitLab-Projekt einzuschränken. Weitere Informationen finden Sie in der GitLab-Dokumentation zu Projektzugriffstoken.

Azure DevOps Services

Herstellen einer Verbindung mit einem Azure DevOps-Repository mithilfe von Microsoft Entra ID (früher Azure Active Directory)

Die Authentifizierung mit Azure DevOps Services erfolgt automatisch, wenn Sie sich mit Microsoft Entra ID authentifizieren. Die Azure DevOps Services-Organisation muss mit demselben Microsoft Entra ID-Mandanten wie Databricks verknüpft sein. Auf den Dienstendpunkt für Microsoft Entra ID muss sowohl über das private als auch das öffentliche Subnetz des Databricks-Arbeitsbereichs zugegriffen werden können. Weitere Informationen finden Sie unter _.

Stellen Sie in Azure Databricks Ihren Git-Provider auf der Seite mit den Benutzereinstellungen auf Azure DevOps Services ein:

  1. Klicken Sie auf einer beliebigen Seite in der oberen rechten Ecke auf Ihren Benutzernamen und anschließend auf Benutzereinstellungen.

  2. Klicken Sie auf die Registerkarte Verknüpfte Konten.

  3. Ändern Sie Ihren Anbieter in Azure DevOps Services.

    Azure DevOps Services GitHub-Anbieter

Herstellen einer Verbindung mit einem Azure DevOps-Repository mithilfe eines Tokens

Die folgenden Schritte zeigen, wie Sie ein Azure Databricks-Repository mit einem Azure DevOps-Repository verbinden, wenn sie sich nicht im selben Microsoft Entra ID-Mandanten befinden.

Der Dienstendpunkt für Microsoft Entra ID muss über das private und öffentliche Subnetz des Databricks-Arbeitsbereichs zugänglich sein. Weitere Informationen finden Sie unter _.

Abrufen eines Zugriffstokens für das Repository in Azure DevOps:

  1. Wechseln Sie zu dev.azure.com, und melden Sie sich dann bei der DevOps-Organisation an, die das Repository enthält, mit dem Sie Azure Databricks verbinden möchten.
  2. Klicken Sie oben rechts auf das Symbol „Benutzereinstellungen“, und wählen Sie Persönliche Zugriffstoken aus.
  3. Klicken Sie auf + Neues Token.
  4. Geben Sie die Informationen in das Formular ein:
    1. Benennen Sie das Token.
    2. Wählen Sie den Organisationsnamen aus, bei dem es sich um den Namen des Repositorys handelt.
    3. Legen Sie ein Ablaufdatum fest.
    4. Wählen Sie den erforderlichen Bereich aus, z. B. Vollzugriff.
  5. Kopieren Sie das angezeigte Zugriffstoken.
  6. Geben Sie dieses Token in Azure Databricks unter Benutzereinstellungen > Verknüpfte Konten ein.
  7. Geben Sie unter Benutzername oder E-Mail-Adresse des Git-Anbieters die E-Mail-Adresse ein, die Sie zum Anmelden bei der DevOps-Organisation verwenden.

Bitbucket

Hinweis

Databricks unterstützt keine Bitbucket-Repository-Zugriffstoken oder Projektzugriffstoken.

Führen Sie in Bitbucket die folgenden Schritte aus, um ein App-Kennwort für den Zugriff auf Ihre Repositorys zu erstellen:

  1. Wechseln Sie zu Bitbucket Cloud, und erstellen Sie ein App-Kennwort, das den Zugriff auf Ihre Repositorys ermöglicht. Weitere Informationen finden Sie in der Dokumentation zu Bitbucket Cloud.
  2. Bewahren Sie das Kennwort sicher auf.
  3. Geben Sie dieses Kennwort in Azure Databricks unter Benutzereinstellungen > Verknüpfte Konten ein.

Andere Git-Anbieter

Wenn Ihr Git-Anbieter nicht aufgeführt ist, wählen Sie „GitHub“ aus, und geben Sie das PAT an, das Sie von Ihrem Git-Anbieter erhalten haben. Dies funktioniert häufig, kann aber nicht garantiert werden.