Inferenza batch con le API del modello di base

Articolo
04/19/2024

Questo articolo fornisce notebook di esempio che eseguono l'inferenza batch in un endpoint di velocità effettiva con provisioning usando le API del modello di base. Entrambi i notebook sono necessari per eseguire l'inferenza batch usando le API del modello di base.

Gli esempi illustrano l'inferenza batch usando il modello DBRX Instruct per le attività di chat.

Requisiti

Un'area di lavoro in un'area supportata dalle API del modello di base
Databricks Runtime 14.0 ML o versione successiva
Il provisioned-throughput-batch-inference notebook e chat-batch-inference-api il notebook devono trovarsi nella stessa directory nell'area di lavoro

Configurare la tabella di input, l'inferenza batch

Il notebook seguente esegue le attività seguenti usando Python:

Legge i dati dalla tabella di input e dalla colonna di input
Costruisce le richieste e le invia a un endpoint delle API del modello di base
Rende persistenti le righe di input insieme ai dati di risposta nella tabella di output

Attività di inferenza batch del modello di chat con notebook Python

Ottenere il notebook

Il notebook seguente esegue le stesse attività del notebook precedente, ma usando Spark:

Legge i dati dalla tabella di input e dalla colonna di input
Costruisce le richieste e le invia a un endpoint delle API del modello di base
Rende persistente la riga di input insieme ai dati di risposta nella tabella di output

Attività di inferenza batch del modello di chat con notebook UDF PySpark Pandas

Ottenere il notebook

Creare un endpoint di velocità effettiva con provisioning

Se si vuole usare il notebook Spark invece del notebook Python, assicurarsi di aggiornare il comando che chiama il notebook Python.

Crea un endpoint di gestione della velocità effettiva con provisioning
Monitorare l'endpoint fino a ottenere uno stato pronto
Chiama il chat-batch-inference-api notebook per eseguire attività di inferenza batch simultaneamente sull'endpoint preparato. Se si preferisce usare Spark, modificare questo riferimento per chiamare il chat-batch-inference-udf notebook.
Elimina l'endpoint di gestione della velocità effettiva con provisioning dopo il completamento dell'inferenza batch

Eseguire l'inferenza batch in un notebook dell'endpoint di velocità effettiva con provisioning

Ottenere il notebook

Condividi tramite

Inferenza batch con le API del modello di base

Requisiti

Configurare la tabella di input, l'inferenza batch

Attività di inferenza batch del modello di chat con notebook Python

Attività di inferenza batch del modello di chat con notebook UDF PySpark Pandas

Creare un endpoint di velocità effettiva con provisioning

Eseguire l'inferenza batch in un notebook dell'endpoint di velocità effettiva con provisioning

Risorse aggiuntive

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive