Condividi tramite


Modelli supportati per il pagamento per token

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Questo articolo descrive i modelli aperti all'avanguardia supportati dalle API modello di Databricks Foundation in modalità con pagamento in base al token.

È possibile inviare richieste di query a questi modelli usando gli endpoint con pagamento in base al token disponibili nell'area di lavoro Databricks. Vedere Modelli di base di query.

Oltre a supportare i modelli in modalità con pagamento in base al token, le API del modello foundation offrono anche la modalità velocità effettiva con provisioning. Databricks consiglia la velocità effettiva con provisioning per i carichi di lavoro di produzione. Questa modalità supporta tutti i modelli di una famiglia di architetture di modelli (ad esempio, modelli DBRX), inclusi i modelli con training preliminare ottimizzati e personalizzati supportati in modalità con pagamento in base al token. Per l'elenco delle architetture supportate, vedere Provisioned throughput Foundation Model APIs (API del modello di base per la velocità effettiva con provisioning).

È possibile interagire con questi modelli supportati usando AI Playground.

DBRX Instruct

Importante

DBRX viene fornito in e soggetto alla licenza open model di Databricks, Copyright © Databricks, Inc. Tutti i diritti riservati. I clienti sono responsabili della conformità alle licenze del modello applicabili, inclusi i criteri di utilizzo accettabile di Databricks.

DBRX Instruct è un modello linguistico di esperti (MoE) all'avanguardia sottoposto a training da Databricks.

Le prestazioni dei modelli hanno stabilito modelli open source su benchmark standard ed eccelle in un ampio set di attività del linguaggio naturale, ad esempio: riepilogo del testo, risposte alle domande, estrazione e codifica.

DBRX Instruct può gestire fino a 32.000 token di lunghezza dell'input e genera output di un massimo di 4.000 token. Grazie alla sua architettura MoE, DBRX Instruct è altamente efficiente per l'inferenza, attivando solo 36B parametri su un totale di 132B parametri sottoposti a training. L'endpoint con pagamento in base al token che serve questo modello ha un limite di frequenza di una query al secondo. Vedere Model Serving limits and regions (Limiti e aree di gestione dei modelli).

Analogamente ad altri modelli linguistici di grandi dimensioni, l'output DBRX Instruct può omettere alcuni fatti e talvolta produrre informazioni false. Databricks consiglia di usare la generazione aumentata (RAG) di recupero in scenari in cui l'accuratezza è particolarmente importante.

I modelli DBRX usano il prompt di sistema predefinito seguente per garantire la pertinenza e l'accuratezza nelle risposte del modello:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3 70B Instruct

Importante

Llama 3 è concesso in licenza con la licenza community LLAMA 3, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono responsabili di garantire la conformità alle licenze del modello applicabili.

Meta-Llama-3-70B-Instruct è un modello linguistico denso di parametri 70B all'avanguardia con un contesto di 8000 token creati e sottoposti a training da Meta. Il modello è ottimizzato per i casi d'uso dei dialoghi e allineato alle preferenze umane per l'utilità e la sicurezza. Non è destinato all'uso in lingue diverse dall'inglese. Altre informazioni sui modelli Meta Llama 3.

Analogamente ad altri modelli linguistici di grandi dimensioni, l'output di Llama-3 può omettere alcuni fatti e talvolta produrre informazioni false. Databricks consiglia di usare la generazione aumentata (RAG) di recupero in scenari in cui l'accuratezza è particolarmente importante.

Llama 2 70B Chat

Importante

Llama 2 è concesso in licenza con la licenza community LLAMA 2, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono responsabili di garantire la conformità alle licenze del modello applicabili.

Llama-2-70B-Chat è un modello linguistico di parametri 70B all'avanguardia con una lunghezza di contesto di 4.096 token, sottoposto a training da Meta. Eccelle nelle applicazioni interattive che richiedono funzionalità di ragionamento avanzate, tra cui riepilogo, domande e domande e applicazioni di chat.

Analogamente ad altri modelli linguistici di grandi dimensioni, l'output di Llama-2-70B può omettere alcuni fatti e talvolta produrre informazioni false. Databricks consiglia di usare la generazione aumentata (RAG) di recupero in scenari in cui l'accuratezza è particolarmente importante.

Istruzioni mixtral-8x7B

Mixtral-8x7B Instruct è una miscela di esperti (SMoE) di alta qualità addestrata da Mistral AI. Mixtral-8x7B Instruct può essere usato per diverse attività, ad esempio domande e risposte, riepiloghi ed estrazione.

Mixtral può gestire lunghezze di contesto fino a 32.000 token. Mixtral può elaborare inglese, francese, italiano, tedesco e spagnolo. Corrispondenze mixtral o prestazioni superiori a Llama 2 70B e GPT3.5 nella maggior parte dei benchmark (prestazioni mixtral), mentre sono quattro volte più veloci di Llama 70B durante l'inferenza.

Analogamente ad altri modelli linguistici di grandi dimensioni, il modello Mixtral-8x7B Instruct non deve essere basato su per produrre informazioni effettivamente accurate. Anche se sono stati compiuti grandi sforzi per pulire i dati di pre-training, è possibile che questo modello possa generare output lewd, biased o altrimenti offensivi. Per ridurre i rischi, Per impostazione predefinita, Databricks usa una variante del prompt del sistema in modalità provvisoria di Mistral.

Istruzioni MPT 7B

MPT-7B-8K-Instruct è un modello di parametro 6.7B sottoposto a training da MosaicML per istruzioni in formato lungo, in particolare la risposta alle domande e il riepilogo di documenti più lunghi. Il modello viene sottoposto a training preliminare per i token 1.5T in una combinazione di set di dati e ottimizzato su un set di dati derivato da Databricks Dolly-15k e i set di dati Anthropic Helpful and Harmless (HH-RLHF) Il nome del modello visualizzato nel prodotto è mpt-7b-instruct ma il modello usato in modo specifico è la versione più recente del modello.

MPT-7B-8K-Instruct può essere usato per diverse attività, ad esempio domande e risposte, riepiloghi ed estrazione. È molto veloce rispetto a Llama-2-70B, ma potrebbe generare risposte di qualità inferiore. Questo modello supporta una lunghezza del contesto di 8 mila token. Altre informazioni sul modello MPT-7B-8k-Instruct.

Analogamente ad altri modelli linguistici di questa dimensione, MPT-7B-8K-Instruct non deve essere basato su per produrre informazioni effettivamente accurate. Questo modello è stato sottoposto a training su vari set di dati pubblici. Anche se sono stati compiuti grandi sforzi per pulire i dati di pre-training, è possibile che questo modello possa generare output lewd, biased o altrimenti offensivi.

Istruzioni MPT 30B

MPT-30B-Instruct è un modello di parametro 30B per istruzioni che seguono il training da MosaicML. Il modello viene sottoposto a training preliminare per token 1T su una combinazione di testo e codice in inglese e quindi viene ottimizzata ulteriormente l'istruzione su un set di dati derivato da Databricks Dolly-15k, Anthropic Helpful and Harmless (HH-RLHF), CompetitionMath, DuoRC, CoT GSM8k, QASPER, QuALITY, SummScreen e Spider set di dati.

MPT-30B-Instruct può essere usato per diverse attività, ad esempio domande e risposte, riepiloghi ed estrazione. È molto veloce rispetto a Llama-2-70B, ma potrebbe generare risposte di qualità inferiori e non supporta chat a più turni. Questo modello supporta una lunghezza del contesto di 8.192 token. Altre informazioni sul modello MPT-30B-Instruct.

Analogamente ad altri modelli linguistici di questa dimensione, MPT-30B-Instruct non deve essere basato su per produrre informazioni effettivamente accurate. Questo modello è stato sottoposto a training su vari set di dati pubblici. Sebbene siano stati compiuti grandi sforzi per pulire i dati di pre-training, è possibile che questo modello possa generare output lewd, biased o altrimenti offensivi.

BGE Large (En)

BAAI General Embedding (BGE) è un modello di incorporamento di testo in grado di eseguire il mapping di qualsiasi testo a un vettore di incorporamento di dimensioni 1024 e a una finestra di incorporamento di 512 token. Questi vettori possono essere usati nei database vettoriali per le macchine virtuali e per attività quali recupero, classificazione, risposta alle domande, clustering o ricerca semantica. Questo endpoint serve la versione inglese del modello.

I modelli di incorporamento sono particolarmente efficaci quando vengono usati in combinazione con IMS per i casi d'uso di generazione aumentata (RAG). BGE può essere usato per trovare frammenti di testo pertinenti in blocchi di documenti di grandi dimensioni che possono essere usati nel contesto di un LLM.

Nelle applicazioni RAG è possibile migliorare le prestazioni del sistema di recupero includendo un parametro di istruzione. Gli autori di BGE consigliano di provare l'istruzione "Represent this sentence for searching relevant passages:" per gli incorporamenti di query, anche se l'impatto sulle prestazioni dipende dal dominio.

Risorse aggiuntive