Compartilhar via


Cotas e limites do Serviço OpenAI do Azure

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do OpenAI do Azure nos serviços de IA do Azure.

Referência de cotas e limites

As seções a seguir fornecem um guia rápido para as cotas e os limites padrão que se aplicam ao OpenAI do Azure:

Nome do limite Valor do limite
Recursos do OpenAI por região na assinatura do Azure 30
Limites de cota DALL-E 2 padrão 2 solicitações simultâneas
Limites de cota DALL-E 3 padrão Duas unidades de capacidade (seis solicitações por minuto)
Máximo de tokens de prompt por solicitação Varia de acordo com o modelo. Para saber mais, confira Modelos do Serviço OpenAI do Azure
Máximo de ajuste de implantações de modelo 5
Número total de trabalhos de treinamento por recurso 100
Máximo de trabalhos de treinamento simultâneos em execução por recurso 1
Máximo de trabalhos de treinamento na fila 20
Máximo de arquivos por recurso (ajuste fino) 50
Tamanho total de todos os arquivos por recurso (ajuste fino) 1 GB
Tempo máximo do trabalho de treinamento (o trabalho falhará se ele for excedido) 720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (nº de épocas) 2 bilhões
Tamanho máximo de todos os arquivos por upload (OpenAI do Azure em seus dados) 16 MB
Número máximo ou entradas na matriz com /embeddings 2048
Número máximo de mensagens de /chat/completions 2048
Número máximo de funções de /chat/completions 128
Número máximo de ferramentas de /chat completions 128
Número máximo de unidades de taxa de transferência Provisionadas por implantação 100.000
Máximo de arquivos por Assistente/thread 20
Tamanho máximo do arquivo para Assistentes e ajuste fino 512 MB
Limite de token de assistentes Limite de token de 2.000.000

Limites de cota regional

A cota padrão para modelos varia de acordo com o modelo e a região. Os limites da cota padrão estão sujeitos a alterações.

A cota para implantações padrão é descrita em termos de TPM (Tokens por Minuto).

Region GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o - GlobalStandard GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 – ajuste fino Davinci-002 Davinci-002 – ajuste fino GPT-35-Turbo – ajuste fino GPT-35-Turbo-1106 – ajuste fino GPT-35-Turbo-0125 – ajuste fino GPT-4 - finetune
australiaeast 40 mil 80 mil 80 mil 30 K - - 300 mil - 350 mil - - - - - - - - - -
brazilsouth - - - - - - - - 350 mil - - - - - - - - - -
canadaeast 40 mil 80 mil 80 mil - - - 300 mil - 350 mil 350 mil 350 mil - - - - - - - -
eastus - - 80 mil - 150 mil 450 K 240 mil 240 mil 240 mil 350 mil 350 mil - - - - - - - -
eastus2 - - 80 mil - 150 mil 450 K 300 mil - 350 mil 350 mil 350 mil - - - - 250 mil 250 mil 250 mil -
francecentral 20 mil 60 K 80 mil - - - 240 mil - 240 mil - 350 mil - - - - - - - -
japaneast - - - 30 K - - 300 mil - 350 mil - 350 mil - - - - - - - -
northcentralus - - 80 mil - 150 mil 450 K 300 mil - 350 mil - - 240 mil 250 mil 240 mil 250 mil 250 mil 250 mil 250 mil 100 mil
norwayeast - - 150 mil - - - - - 350 mil - - - - - - - - - -
southafricanorth - - - - - - - - 350 mil - - - - - - - - - -
southcentralus - - 80 mil - 150 mil 450 K 240 mil - 240 mil - - - - - - - - - -
southindia - - 150 mil - - - 300 mil - 350 mil - 350 mil - - - - - - - -
swedencentral 40 mil 80 mil 150 mil 30 K - - 300 mil 240 mil 350 mil - 350 mil 240 mil 250 mil 240 mil 250 mil 250 mil 250 mil 250 mil 100 mil
switzerlandnorth 40 mil 80 mil - 30 K - - 300 mil - 350 mil - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - 250 mil - 250 mil 250 mil 250 mil 250 mil -
uksouth - - 80 mil - - - 240 mil - 350 mil - 350 mil - - - - - - - -
westeurope - - - - - - 240 mil - 240 mil - - - - - - - - - -
westus - - 80 mil 30 K 150 mil 450 K 300 mil - 350 mil - - - - - - - - - -
westus3 - - 80 mil - 150 mil 450 K - - 350 mil - 350 mil - - - - - - - -

1 K = 1000 TPM (Tokens por Minuto). A relação entre TPM e RPM (Solicitações por Minuto) é definida atualmente como 6 RPM por 1000 TPM.

Os valores para GPT-4o na tabela acima representam valores de cota padrão que estão disponíveis para todos os clientes. Os clientes corporativos têm alocações de cota muito maiores.

limites de taxa gpt-4o

gpt-4o introduz níveis de limite de taxa com limites mais altos para alguns tipos de cliente.

padrão global gpt-4o

Observação

No momento, o tipo de implantação de modelo padrão global está na versão prévia pública.

Camada Limite de cota em tokens por minuto (TPM) Solicitações por minuto
Contrato Enterprise 10 M 60 K
Padrão 450 K 2,7 K

M = milhão | K = mil

padrão gpt-4o

Camada Limite de cota em tokens por minuto (TPM) Solicitações por minuto
Contrato Enterprise 1 M 6 mil
Padrão 150 mil 900

M = milhão | K = mil

Camadas de uso

As implantações de padrão global usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes que mantém altos níveis de uso podem obter mais variabilidade na latência de resposta.

O limite de uso determina o nível de uso acima do qual os clientes podem obter maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas e em todas as regiões para um determinado locatário.

Padrão e padrão global do GPT-4o

Modelar Camadas de serviço por mês
GPT-4o 1,5 bilhão de tokens

Práticas recomendadas gerais para permanecer dentro dos limites da taxa

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:

  • Implemente a lógica de repetição no seu aplicativo.
  • Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
  • Teste padrões distintos de aumento de carga.
  • Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos para as cotas e limites padrão

As solicitações de aumento de cota podem ser enviadas na página Cotas do Estúdio de OpenAI do Azure. Observe que, devido à demanda esmagadora, as solicitações de aumento de cota estão sendo aceitas e serão preenchidas na ordem em que forem recebidas. Será dada prioridade aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação poderá ser negada se esta condição não for atendida.

Para outros limites de taxa, envie uma solicitação de serviço .

Próximas etapas

Explore como gerenciar cotas para suas implantações do OpenAI do Azure. Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.