Unerwartete Cluster Beendigung Unexpected cluster termination

Manchmal wird ein Cluster unerwartet beendet, nicht aufgrund einer manuellen Beendigung oder einer konfigurierten automatischen Beendigung.Sometimes a cluster is terminated unexpectedly, not as a result of a manual termination or a configured automatic termination. Ein Cluster kann aus vielen Gründen beendet werden.A cluster can be terminated for many reasons. Einige Abschlüsse werden von Azure Databricks initiiert, und andere werden vom cloudanbieter initiiert.Some terminations are initiated by Azure Databricks and others are initiated by the cloud provider. In diesem Artikel werden Abbruch Gründe und Schritte für die Wiederherstellung beschrieben.This article describes termination reasons and steps for remediation.

Azure Databricks initiiertes Anforderungs Limit überschritten Azure Databricks initiated request limit exceeded

Um den API-Missbrauch zu verhindern, sollten Sie die Dienst Qualität sicherstellen und verhindern, dass versehentlich zu viele große Cluster erstellt werden, Azure Databricks alle Cluster Anforderungen für die Größenanpassung einschränken, einschließlich der Cluster Erstellung, des Starts und der Größenänderung.To defend against API abuses, ensure quality of service, and prevent you from accidentally creating too many large clusters, Azure Databricks throttles all cluster up-sizing requests, including cluster creation, starting, and resizing. Die Drosselung verwendet den tokenbucket-Algorithmus , um die Gesamtzahl der Knoten einzuschränken, die von allen Benutzern über ein definiertes Intervall in der databricks-Bereitstellung gestartet werden können, während Burst Anforderungen bestimmter Größen zugelassen werden.The throttling uses the token bucket algorithm to limit the total number of nodes that anyone can launch over a defined interval across your Databricks deployment, while allowing burst requests of certain sizes. Anforderungen, die von der Webbenutzer Oberfläche und den APIs stammen, unterliegen der Raten Begrenzung.Requests coming from both the web UI and the APIs are subject to rate limiting. Wenn die Grenzwerte für Cluster Anforderungen überschritten werden, tritt bei der Anforderung zum Überschreiten der Überschreitung ein REQUEST_LIMIT_EXCEEDED Fehler auf.When cluster requests exceed rate limits, the limit-exceeding request fails with a REQUEST_LIMIT_EXCEEDED error.

LösungSolution

Wenn Sie den Grenzwert für den legitimen Workflow erreichen, empfiehlt databricks Folgendes:If you hit the limit for your legitimate workflow, Databricks recommends that you do the following:

  • Wiederholen Sie die Anforderung einige Minuten später.Retry your request a few minutes later.
  • Verteilen Sie den wiederkehrenden Workflow gleichmäßig im geplanten Zeitraum.Spread out your recurring workflow evenly in the planned time frame. Anstatt z. b. alle Aufträge zu planen, die an einer stündlichen Grenze ausgeführt werden sollen, versuchen Sie, Sie in verschiedenen Intervallen innerhalb der Stunde zu verteilen.For example, instead of scheduling all of your jobs to run at an hourly boundary, try distributing them at different intervals within the hour.
  • Es empfiehlt sich, Cluster mit einem größeren Knotentyp und einer geringeren Anzahl von Knoten zu verwenden.Consider using clusters with a larger node type and smaller number of nodes.
  • Verwenden Sie Cluster mit automatischer Skalierung .Use autoscaling clusters.

Wenn diese Optionen nicht für Sie geeignet sind, wenden Sie sich an Azure Databricks Support, um eine Erhöhung des Limits für die Kern Instanz anzufordern.If these options don’t work for you, contact Azure Databricks Support to request a limit increase for the core instance.

Informationen zu anderen Azure Databricks initiierten Abbruch Gründen finden Sie unter Beendigungs Code.For other Azure Databricks initiated termination reasons, see Termination Code.

Vom cloudanbieter initiierte terminationenCloud provider initiated terminations

In diesem Artikel werden allgemeine Abbruch Gründe für cloudanbieter und Korrektur Schritte aufgeführt.This article lists common cloud provider related termination reasons and remediation steps.

Launch failure (Startfehler)Launch failure

Dieser Abbruch Grund tritt auf, wenn Azure Databricks virtuelle Computer nicht abrufen kann.This termination reason occurs when Azure Databricks fails to acquire virtual machines. Der Fehlercode und die Meldung von der API werden weitergegeben, um Sie bei der Problembehandlung zu unterstützen.The error code and message from the API are propagated to help you troubleshoot the issue.

OperationNotAllowedOperationNotAllowed

Sie haben eine Kontingent Grenze erreicht, in der Regel die Anzahl der Kerne, die von Ihrem Abonnement gestartet werden können.You have reached a quota limit, usually number of cores, that your subscription can launch. Fordern Sie eine Erhöhung des Limits in Azure-Portal an.Request a limit increase in Azure portal. Weitere Informationen finden Sie unter Einschränkungen für Azure-Abonnements und Dienste, Kontingente und Einschränkungen.See Azure subscription and service limits, quotas, and constraints.

PublicIPCountLimitReachedPublicIPCountLimitReached

Sie haben das Limit der öffentlichen IP-Adressen erreicht, die Sie ausführen können.You have reached the limit of the public IPs that you can have running. Fordern Sie eine Erhöhung des Limits im Azure-Portal an.Request a limit increase in Azure Portal.

SkuNotAvailableSkuNotAvailable

Die von Ihnen ausgewählte Ressourcen-SKU (z. b. die VM-Größe) ist für den ausgewählten Speicherort nicht verfügbar.The resource SKU you have selected (such as VM size) is not available for the location you have selected. Informationen zur Behebung finden Sie unter Beheben von Fehlern für SKU nicht verfügbar.To resolve, see Resolve errors for SKU not available.

"Read onlydisabledabonnement"ReadOnlyDisabledSubscription

Das Abonnement wurde deaktiviert.Your subscription was disabled. Befolgen Sie die Schritte unter Warum ist mein Azure-Abonnement deaktiviert, und wie reaktiviere ich es? , um Ihr Abonnement erneut zu aktivieren.Follow the steps in Why is my Azure subscription disabled and how do I reactivate it? to reactivate your subscription.

ResourceGroupBeingDeletedResourceGroupBeingDeleted

Kann auftreten, wenn ein Benutzer den Azure Databricks Arbeitsbereich in der Azure-Portal abbricht und gleichzeitig versucht, einen Cluster zu erstellen.Can occur if someone cancels your Azure Databricks workspace in the Azure portal and you try to create a cluster at the same time. Der Cluster schlägt fehl, da die Ressourcengruppe gelöscht wird.The cluster fails because the resource group is being deleted.

AbonnemenrequeststhrottledSubscriptionRequestsThrottled

Ihr Abonnement trifft das Limit für Azure Resource Manager Anforderungen (siehe Drosselung Ressourcen-Manager Anforderungen).Your subscription is hitting the Azure Resource Manager request limit (see Throttling Resource Manager requests). Die typische Ursache ist, dass ein anderes System außerhalb Azure Databricks) viele API-Aufrufe an Azure durchführt.Typical cause is that another system outside Azure Databricks) making a lot of API calls to Azure. Wenden Sie sich an den Azure-Support, um dieses System zu identifizieren und die Anzahl der API-Aufrufe zu verringernContact Azure support to identify this system and then reduce the number of API calls.

Kommunikations VerlustCommunication lost

Azure Databricks konnte den Cluster starten, verlor aber die Verbindung zu der Instanz, die den Spark-Treiber gehostet.Azure Databricks was able to launch the cluster, but lost the connection to the instance hosting the Spark driver.

Ursache dafür, dass der virtuelle Treiber Computer ausfällt oder ein Netzwerkproblem auftritt.Caused by the driver virtual machine going down or a networking issue.