Verteiltes Training mit dem DeepSpeed-Verteiler

In diesem Artikel wird beschrieben, wie Sie mithilfe des DeepSpeed-Verteilers verteiltes Training für PyTorch-ML-Modelle durchführen.

Der DeepSpeed-Verteiler basiert auf TorchDistributor und ist eine empfohlene Lösung für Kunden mit Modellen, die eine höhere Computeleistung erfordern, aber durch Speichereinschränkungen begrenzt sind.

Die DeepSpeed-Bibliothek ist eine von Microsoft entwickelte Open-Source-Bibliothek, die in Databricks Runtime 14.0 ML oder höher verfügbar ist. Sie bietet eine optimierte Speicherauslastung, einen reduzierten Kommunikationsaufwand und erweiterte Pipelineparallelität, die eine Skalierung von Modellen und Trainingsverfahren ermöglichen die andernfalls auf Standardhardware nicht zu erreichen wäre.

Im Folgenden finden Sie Beispielszenarien, in denen der DeepSpeed-Verteiler von Vorteil ist:

  • Geringer GPU-Arbeitsspeicher
  • Umfassendes Modelltraining
  • Umfassende Eingabedaten, z. B. beim Batchrückschluss

Beispielnotebook für verteiltes Training mit DeepSpeed

Im folgenden Notebookbeispiel wird veranschaulicht, wie verteiltes Training mit dem DeepSpeed-Verteiler durchgeführt wird.

Optimieren von Llama 2 7B Chat mit dem Notebook DeepspeedTorchDistributor

Notebook abrufen