Condividi tramite


Inferenza batch con le API del modello di base

Questo articolo fornisce notebook di esempio che eseguono l'inferenza batch in un endpoint di velocità effettiva con provisioning usando le API del modello di base. Entrambi i notebook sono necessari per eseguire l'inferenza batch usando le API del modello di base.

Gli esempi illustrano l'inferenza batch usando il modello DBRX Instruct per le attività di chat.

Requisiti

  • Un'area di lavoro in un'area supportata dalle API del modello di base
  • Databricks Runtime 14.0 ML o versione successiva
  • Il provisioned-throughput-batch-inference notebook e chat-batch-inference-api il notebook devono trovarsi nella stessa directory nell'area di lavoro

Configurare la tabella di input, l'inferenza batch

Il notebook seguente esegue le attività seguenti usando Python:

  • Legge i dati dalla tabella di input e dalla colonna di input
  • Costruisce le richieste e le invia a un endpoint delle API del modello di base
  • Rende persistenti le righe di input insieme ai dati di risposta nella tabella di output

Attività di inferenza batch del modello di chat con notebook Python

Ottenere il notebook

Il notebook seguente esegue le stesse attività del notebook precedente, ma usando Spark:

  • Legge i dati dalla tabella di input e dalla colonna di input
  • Costruisce le richieste e le invia a un endpoint delle API del modello di base
  • Rende persistente la riga di input insieme ai dati di risposta nella tabella di output

Attività di inferenza batch del modello di chat con notebook UDF PySpark Pandas

Ottenere il notebook

Creare un endpoint di velocità effettiva con provisioning

Se si vuole usare il notebook Spark invece del notebook Python, assicurarsi di aggiornare il comando che chiama il notebook Python.

  • Crea un endpoint di gestione della velocità effettiva con provisioning
  • Monitorare l'endpoint fino a ottenere uno stato pronto
  • Chiama il chat-batch-inference-api notebook per eseguire attività di inferenza batch simultaneamente sull'endpoint preparato. Se si preferisce usare Spark, modificare questo riferimento per chiamare il chat-batch-inference-udf notebook.
  • Elimina l'endpoint di gestione della velocità effettiva con provisioning dopo il completamento dell'inferenza batch

Eseguire l'inferenza batch in un notebook dell'endpoint di velocità effettiva con provisioning

Ottenere il notebook

Risorse aggiuntive