APIs do Modelo de Base do Databricks

Artigo
04/25/2024

Este artigo fornece uma visão geral das APIs do Modelo de Fundação no Azure Databricks. Inclui requisitos de utilização, modelos suportados e limitações.

O que são APIs do Databricks Foundation Model?

O Databricks Model Serving agora suporta APIs de Modelo de Base que permitem acessar e consultar modelos abertos de última geração a partir de um ponto de extremidade de serviço. Com as APIs do Foundation Model, você pode criar aplicativos de forma rápida e fácil que aproveitam um modelo de IA generativa de alta qualidade sem manter sua própria implantação de modelo.

As APIs do Modelo de Base são fornecidas em dois modos de preços:

Pay-per-token: Esta é a maneira mais fácil de começar a acessar modelos de base no Databricks e é recomendada para começar sua jornada com APIs de modelo de fundação. Esse modo não foi projetado para aplicativos de alto rendimento ou cargas de trabalho de produção de alto desempenho.
Taxa de transferência provisionada: esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alto rendimento, garantias de desempenho, modelos ajustados ou têm requisitos de segurança adicionais. Os endpoints de taxa de transferência provisionados estão disponíveis com certificações de conformidade como a HIPAA.

Consulte Usar APIs de modelo básico para obter orientação sobre como usar esses dois modos e os modelos suportados.

Usando as APIs do Modelo de Fundação, você pode:

Consulte um LLM generalizado para verificar a validade de um projeto antes de investir mais recursos.
Consulte um LLM generalizado para criar uma prova de conceito rápida para um aplicativo baseado em LLM antes de investir em treinamento e implantar um modelo personalizado.
Use um modelo de base, juntamente com um banco de dados vetorial, para criar um chatbot usando a geração aumentada de recuperação (RAG).
Substitua modelos proprietários por alternativas abertas para otimizar o custo e o desempenho.
Compare LLMs de forma eficiente para ver qual é o melhor candidato para o seu caso de uso ou troque um modelo de produção por um de melhor desempenho.
Crie um aplicativo LLM para desenvolvimento ou produção sobre uma solução de LLM escalável e apoiada por SLA que pode suportar seus picos de tráfego de produção.

Requerimentos

Token de API Databricks para autenticar solicitações de ponto de extremidade.
Computação sem servidor (para modelos de taxa de transferência provisionada).
Um espaço de trabalho em uma região suportada:
- Regiões de pagamento por token.
- Regiões de taxa de transferência provisionadas.

Nota

Para cargas de trabalho de taxa de transferência provisionadas que usam o modelo Base DBRX, consulte Limites de APIs do Modelo de Base para disponibilidade de região.

Usar APIs de modelo de base

Você tem várias opções para usar as APIs do Modelo de Base.

As APIs são compatíveis com OpenAI, então você pode até usar o cliente OpenAI para consultar. Você também pode usar a interface do usuário, o SDK Python das APIs de Modelos Básicos, o SDK de Implantações MLflow ou a API REST para consultar modelos suportados. O Databricks recomenda o uso do SDK de Implantações MLflow ou da API REST para interações estendidas e a interface do usuário para testar o recurso.

Consulte Modelos de base de consulta para obter exemplos de pontuação.

APIs do modelo de base de pagamento por token

Importante

Esta funcionalidade está em Pré-visualização Pública.

Os modelos de pagamento por tokens são acessíveis em seu espaço de trabalho do Azure Databricks e são recomendados para começar. Para acessá-los em seu espaço de trabalho, navegue até a guia Servindo na barra lateral esquerda. As APIs do Modelo de Base estão localizadas na parte superior da exibição da lista Pontos de Extremidade.

Servindo a lista de pontos de extremidade

A tabela a seguir resume os modelos suportados para pagamento por token. Consulte Modelos suportados para pagamento por token para obter informações adicionais sobre o modelo.

Se você quiser testar e conversar com esses modelos, você pode fazê-lo usando o AI Playground. Consulte Bate-papo com LLMs suportados usando o AI Playground.

Modelo	Tipo de tarefa	Ponto final
DBRX Instruir	Chat	`databricks-dbrx-instruct`
Meta-Llama-3-70B-Instruir	Chat	`databricks-meta-llama-3-70b-instruct`
Meta-Lama-2-70B-Chat	Chat	`databricks-llama-2-70b-chat`
Instruções Mixtral-8x7B	Chat	`databricks-mixtral-8x7b-instruct`
MPT 7B Instruir	Conclusão	`databricks-mpt-7b-instruct`
MPT 30B Instruir	Conclusão	`databricks-mpt-30b-instruct`
BGE Large (Inglês)	Incorporar	`databricks-bge-large-en`

Consulte Modelos de base de consulta para obter orientação sobre como consultar APIs de modelo básico.
Consulte Referência da API REST do modelo de base para obter os parâmetros e a sintaxe necessários.

APIs de modelo de base de taxa de transferência provisionada

A taxa de transferência provisionada está geralmente disponível e o Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. A taxa de transferência provisionada fornece pontos de extremidade com inferência otimizada para cargas de trabalho de modelo básico que exigem garantias de desempenho. Consulte APIs de modelo de base de taxa de transferência provisionada para obter um guia passo a passo sobre como implantar APIs de modelo de base no modo provisionado.

O suporte à taxa de transferência provisionada inclui:

Modelos base de todos os tamanhos, como DBRX Base. Os modelos básicos podem ser acessados usando o Databricks Marketplace, ou você pode alternativamente baixá-los do Hugging Face ou de outra fonte externa e registrá-los no Catálogo Unity. Esta última abordagem funciona com qualquer variante ajustada dos modelos suportados, independentemente do método de ajuste fino utilizado.
Variantes ajustadas de modelos básicos, como o LlamaGuard-7B. Isso inclui modelos que são ajustados em dados proprietários.
Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados continuados ou outras variações usando a arquitetura do modelo base (como CodeLlama, Yi-34B-Chat ou SOLAR-10.7B).

A tabela a seguir resume as arquiteturas de modelo suportadas para taxa de transferência provisionada.

Arquitetura do modelo	Tipos de tarefa	Notas
DBRX	Bate-papo ou conclusão	Consulte Limites de APIs do Modelo de Base para disponibilidade de região.
Meta Lama 3	Bate-papo ou conclusão
Meta Lama 2	Bate-papo ou conclusão
Mistral	Bate-papo ou conclusão
Mixtral	Bate-papo ou conclusão
TMF	Bate-papo ou conclusão
BGE v1.5 (Inglês)	Incorporar

Limitações

Consulte Limites e regiões de serviço do modelo.

Share via