Databricks Foundation Model-APIs

Artikel
05/02/2024

Dieser Artikel enthält eine Übersicht über die Foundation Model-APIs in Azure Databricks. Sie enthält Anforderungen für die Verwendung, unterstützte Modelle und Einschränkungen.

Was sind Databricks Foundation Model-APIs?

Databricks Model Serving unterstützt jetzt Foundation Model-APIs, mit denen Sie über einen Bereitstellungsendpunkt auf aktuelle offene Modelle zugreifen und diese abfragen können. Mit Foundation Model-APIs können Sie schnell und einfach Anwendungen erstellen, die ein qualitativ hochwertiges generatives KI-Modell nutzen, ohne Ihre eigene Modellimplementierung aufrechtzuerhalten.

Foundation Model-APIs sind in zwei Preismodi verfügbar:

Tokenbasierte Bezahlung: Dies ist die einfachste Möglichkeit für den Zugriff auf Databricks-Basismodelle. Sie wird für den Einstieg in die Verwendung von Basismodell-APIs empfohlen. Dieser Modus ist nicht für Anwendungen mit hohem Durchsatz oder leistungsfähige Produktionsworkloads ausgelegt.
Bereitgestellter Durchsatz: Dieser Modus wird für alle Produktionsworkloads empfohlen (insbesondere für Workloads, die einen hohen Durchsatz, Leistungsgarantien, optimierte Modelle oder zusätzliche Sicherheitsanforderungen erfordern). Endpunkte für bereitgestellten Durchsatz sind mit Compliancezertifizierungen wie HIPAA verfügbar.

Anleitungen zur Verwendung dieser beiden Modi und der unterstützten Modelle finden Sie unter Verwenden von Foundation Model-APIs.

Mit den Basismodell-APIs ist Folgendes möglich:

Eine generalisierte LLM abfrage, um die Gültigkeit eines Projekts zu überprüfen, bevor Sie weitere Ressourcen investieren.
Eine generalisierte LLM abfragen, um eine schnelle Machbarkeitsstudie für eine LLM-basierte Anwendung zu erstellen, bevor Sie in Schulungen investieren und ein benutzerdefiniertes Modell bereitstellen.
Ein Foundation-Modell zusammen mit einer Vektordatenbank verwenden, um einen Chatbot mithilfe der erweiterten Abrufgenerierung (Retrieval Augmented Generation, RAG) zu erstellen.
Proprietäre Modelle durch offene Alternativen ersetzen, um Kosten und Leistung zu optimieren.
Sie können LLMs effizient vergleichen, um herauszufinden, welches der beste Kandidat für Ihren Anwendungsfall ist, oder ein Produktionsmodell gegen ein leistungsfähigeres austauschen.
Erstellen Sie eine LLM-Anwendung für die Entwicklung oder die Produktion auf der Grundlage einer skalierbaren, SLA-gesicherten LLM-Serving-Lösung, die Ihre Produktionsverkehrsspitzen bewältigen kann.

Anforderungen

Databricks API-Token zur Authentifizierung von Endpunktanforderungen.
Serverloses Computing (für bereitgestellte Durchsatzmodelle).
Arbeitsbereich in einer unterstützten Region:
- Regionen, die die tokenbasierte Bezahlung unterstützen
- Regionen, die den bereitgestellten Durchsatz unterstützen

Hinweis

Informationen zu Workloads für bereitgestellten Durchsatz, die das DBRX-Basismodell verwenden, finden Sie im Abschnitt zur regionalen Verfügbarkeit im Artikel zu den Einschränkungen der Basismodell-APIs.

Verwenden Sie Foundation Model APIs

Es stehen mehrere Optionen zur Verwendung der Basismodell-APIs zur Verfügung.

Die APIs sind mit OpenAI kompatibel, sodass Sie für Abfragen sogar den OpenAI-Client verwenden können. Sie können auch die Benutzeroberfläche, das Python SDK für die Foundation Models-APIs, das Bereitstellungs-SDK von MLflow oder die REST-API zum Abfragen unterstützter Modelle verwenden. Databricks empfiehlt die Verwendung des MLflow-Bereitstellungs-SDK oder der REST-API für komplexere Interaktionen und die Benutzeroberfläche zum Testen des Features.

Beispiele für Bewertungen finden Sie unter Abfragen von Foundation-Modellen.

Pay-per-Token Foundation Model-APIs

Wichtig

Dieses Feature befindet sich in der Public Preview.

Sie können über Ihren Azure Databricks-Arbeitsbereich auf die Modelle für tokenbasierte Bezahlung zugreifen, die für die ersten Schritte empfohlen werden. Um auf sie in Ihrem Arbeitsbereich zuzugreifen, navigieren Sie in der linken Randleiste zur Registerkarte Bereitstellen. Die Foundation-Modell-APIs befinden sich oben in der Endpunktlistenansicht.

Liste der Bereitstellungsendpunkte

In der folgenden Tabelle werden die unterstützten Modelle für die tokenbasierte Bezahlung zusammengefasst. Weitere Modellinformationen finden Sie unter Unterstützte Modelle für Pay-per-Token.

Wenn Sie diese Modelle testen und mit ihnen chatten möchten, können Sie dazu den AI Playground nutzen. Weitere Informationen finden Sie unter Chatten mit unterstützten LLMs im AI Playground.

Modell	Aufgabentyp	Endpunkt
DBRX Instruct	Chat	`databricks-dbrx-instruct`
Meta-Llama-3-70B-Instruct	Chat	`databricks-meta-llama-3-70b-instruct`
Meta-Llama-2-70B-Chat	Chat	`databricks-llama-2-70b-chat`
Mixtral-8x7B-Anweisung	Chat	`databricks-mixtral-8x7b-instruct`
MPT 7B Instruct	Completion	`databricks-mpt-7b-instruct`
MPT 30B Instruct	Completion	`databricks-mpt-30b-instruct`
BGE Large (Englisch)	Einbettung	`databricks-bge-large-en`

Leitfäden zum Abfragen von Foundation Model-APIs finden Sie unter Abfragen von Foundation-Modellen.
Die erforderlichen Parameter und die Syntax finden Sie in der Referenz zur Foundation Model-REST-API.

Foundation Model-APIs mit bereitgestelltem Durchsatz

Der bereitgestellte Durchsatz ist allgemein verfügbar, und Databricks empfiehlt den bereitgestellten Durchsatz für Produktionsworkloads. Der bereitgestellte Durchsatz bietet Endpunkte mit optimierten Rückschlüssen für Basismodellworkloads, die Leistungsgarantien erfordern. Eine Schrittanleitung zum Bereitstellen von Foundation Model-APIs im Modus mit bereitgestelltem Durchsatz finden Sie unter Bereitstellen von Foundation Model-APIs mit bereitgestelltem Durchsatz.

Die Unterstützung des bereitgestellten Durchsatzes umfasst Folgendes:

Basismodelle aller Größen (z. B. DBRX Base): Auf Basismodelle kann über den Databricks Marketplace zugegriffen werden, oder Sie können sie alternativ von Hugging Face oder einer anderen externen Quelle herunterladen und im Unity Catalog registrieren. Letzteres funktioniert mit jeder optimierten Variante der unterstützten Modelle, unabhängig von der verwendeten Optimierungsmethode.
Optimierte Varianten von Basismodellen, z. B. LlamaGuard-7B. Dazu gehören Modelle, die für geschützte Daten optimiert sind.
Vollständig benutzerdefinierte Gewichtungen und Tokenizer (z. B. von Grund auf neu trainiert oder weiter vortrainiert) oder andere Variationen, die die Basismodellarchitektur nutzen (z. B. CodeLlama, Yi-34B-Chat oder SOLAR-10.7B)

In der folgenden Tabelle sind die unterstützten Modellarchitekturen für den bereitgestellten Durchsatz zusammengefasst.

Modellarchitektur	Aufgabentypen	Hinweise
DBRX	Chat oder Vervollständigung	Weitere Informationen zur regionalen Verfügbarkeit finden Sie im Artikel zu den Einschränkungen der Basismodell-APIs.
Meta Llama 3	Chat oder Vervollständigung
Meta Llama 2	Chat oder Vervollständigung
Mistral	Chat oder Vervollständigung
Mixtral	Chat oder Vervollständigung
MPT	Chat oder Vervollständigung
BGE 1.5 (Englisch)	Einbettung

Begrenzungen

Weitere Informationen finden Sie unter Grenzwerte und Regionen für die Modellbereitstellung.

Share via