Share via


Introduzione all'esecuzione di query su LLMs in Databricks

Questo articolo descrive come iniziare a usare le API del modello di base per gestire ed eseguire query su LLMs in Databricks.

Il modo più semplice per iniziare a gestire ed eseguire query sui modelli LLM in Databricks consiste nell'usare le API del modello di base in base al pagamento per token . Le API forniscono l'accesso ai modelli di base più diffusi dagli endpoint con pagamento in base al token disponibili automaticamente nell'interfaccia utente di gestione dell'area di lavoro di Databricks. Vedere Modelli supportati per il pagamento in base al token.

È anche possibile testare e chattare con modelli con pagamento in base al token usando AI Playground. Vedere Chat with supported LLMs using AI Playground (Chat with SUPPORTED LLMs using AI Playground).

Per i carichi di lavoro di produzione, in particolare se si dispone di un modello ottimizzato o di un carico di lavoro che richiede garanzie di prestazioni, Databricks consiglia di eseguire l'aggiornamento all'uso delle API del modello di base in un endpoint di velocità effettiva con provisioning.

Requisiti

  • Area di lavoro di Databricks in un'area supportata per le API del modello foundation con pagamento in base al token.
  • Token di accesso personale di Databricks per eseguire query e accedere al modello di Databricks che gestisce gli endpoint usando il client OpenAI.

Importante

Come procedura consigliata per la sicurezza per gli scenari di produzione, Databricks consiglia di usare token OAuth da computer a computer per l'autenticazione durante l'ambiente di produzione.

Per il test e lo sviluppo, Databricks consiglia di usare un token di accesso personale appartenente alle entità servizio anziché agli utenti dell'area di lavoro. Per creare token per le entità servizio, vedere Gestire i token per un'entità servizio.

Introduzione all'uso delle API del modello foundation

Nell'esempio seguente viene eseguito un'query sul databricks-dbrx-instruct modello gestito nell'endpointdatabricks-dbrx-instruct con pagamento in base al token. Altre informazioni sul modello DBRX Instruct.

In questo esempio si usa il client OpenAI per eseguire query sul modello popolando il model campo con il nome dell'endpoint del modello che gestisce l'endpoint che ospita il modello su cui eseguire la query. Usare il token di accesso personale per popolare l'istanza dell'area DATABRICKS_TOKEN di lavoro di Databricks e per connettere il client OpenAI a Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-dbrx-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Output previsto:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-dbrx-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Passaggi successivi