Generative KI und LLMs in Azure Databricks

Artikel
03/19/2024

Dieser Artikel enthält eine Übersicht über generative KI auf Databricks und enthält Links zu Beispielnotizbüchern und Demos.

Was ist generative KI?

Generative KI ist eine Art künstlicher Intelligenz, die sich auf die Fähigkeit von Computern konzentriert, Modelle zum Erstellen von Inhalten wie Bildern, Text, Code und synthetischen Daten zu verwenden.

Generative KI-Anwendungen basieren auf großen Sprachmodellen (LLMs) und Foundation-Modellen.

LLMs sind Deep Learning-Modelle, die massive Datasets nutzen und trainieren, um in Sprachverarbeitungsaufgaben zu excelieren. Sie erstellen neue Textkombinationen, die natürliche Sprache basierend auf ihren Schulungsdaten nachahmen.
Foundation-Modelle sind große ML-Modelle, die mit der Absicht geschult wurden, dass sie für spezifischere Sprachverständnis- und Generationsaufgaben optimiert werden sollen. Diese Modelle werden verwendet, um Muster innerhalb der Eingabedaten zu erkennen.

Nachdem diese Modelle ihre Lernprozesse abgeschlossen haben, generieren sie statistisch wahrscheinliche Ausgaben, wenn sie dazu aufgefordert werden, und sie können eingesetzt werden, um verschiedene Aufgaben auszuführen, darunter:

Die Bildgenerierung basiert auf vorhandenen Oder mithilfe der Formatvorlage eines Bilds, um ein neues Bild zu ändern oder zu erstellen.
Sprachaufgaben wie Transkription, Übersetzung, Frage-/Antwortgenerierung und Interpretation der Absicht oder Bedeutung von Text.

Wichtig

Während viele LLMs oder andere generative KI-Modelle Sicherheitsvorkehrungen haben, können sie weiterhin schädliche oder ungenaue Informationen generieren.

Generative KI hat die folgenden Entwurfsmuster:

Prompt Engineering: Erstellen spezieller Prompts zur Steuerung des LLM-Verhaltens
Retrieval Augmented Generation (RAG): Kombinieren eines LLM mit externem Wissensabruf
Optimierung: Anpassen eines vortrainierten LLM an bestimmte Datasets von Domänen
Vorabtraining: Trainieren eines LLM von Grund auf

Entwickeln von generativen KI und LLMs in Azure Databricks

Azure Databricks vereint den KI-Lebenszyklus von der Datensammlung und -vorbereitung bis hin zur Modellentwicklung und LLMOps zur Bereitstellung und Überwachung. Die folgenden Features sind speziell optimiert, um die Entwicklung von generativen KI-Anwendungen zu erleichtern:

Unity Catalog für Governance, Ermittlung, Versionsverwaltung und Zugriffssteuerung für Daten, Features, Modelle und Funktionen.
MLflow für die Nachverfolgung der Modellentwicklung und LLM-Auswertung
Feature Engineering und Featurebereitstellung.
Databricks Model Serving für die Bereitstellung von LLMs. Sie können ein Modell konfigurieren, das endpunktspezifisch für den Zugriff auf Basismodelle dient:
- Modernste offene LLMs mit Basismodell-APIs
- Drittanbietermodelle, die außerhalb von Databricks gehostet werden. Weitere Informationen finden Sie unter Externe Modelle in Databricks Model Serving.
Die Databricks-Vektorsuche stellt eine abfragefähige Vektordatenbank bereit, in der eingebettete Vektoren gespeichert und die so konfiguriert werden kann, dass sie automatisch mit Ihrer Wissensdatenbank synchronisiert wird.
Lakehouse Monitoring für die Datenüberwachung und Nachverfolgung von Modellvorhersagequalität und -drift mithilfe automatischer Nutzlastprotokollierung mit Rückschlusstabellen
KI Playground zum Testen von Grundlagenmodellen aus Ihrem Databricks-Arbeitsbereich. Sie können Einstellungen wie Systemeingabeaufforderungen und Rückschlussparameter anfordern, vergleichen und anpassen.

Zusätzliche Ressourcen

Siehe Retrieval Augmented Generation (RAG) in Azure Databricks.
- Siehe Erstellen eines Q&A-Chatbots mit LLama2 und Databricks.
Informationen zur Verwendung von Hugging Face Modellen auf Databricks finden Sie unter Hugging Face Transformers.
Das databricks-ml-examples-Repo in Github enthält Beispielimplementierungen von STATE-of-the-Art-LLMs (SOTA).