Cotas e limites do Serviço OpenAI do Azure

Artigo
06/04/2024

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do OpenAI do Azure nos serviços de IA do Azure.

Referência de cotas e limites

As seções a seguir fornecem um guia rápido para as cotas e os limites padrão que se aplicam ao OpenAI do Azure:

Nome do limite	Valor do limite
Recursos do OpenAI por região na assinatura do Azure	30
Limites de cota DALL-E 2 padrão	2 solicitações simultâneas
Limites de cota DALL-E 3 padrão	Duas unidades de capacidade (seis solicitações por minuto)
Máximo de tokens de prompt por solicitação	Varia de acordo com o modelo. Para saber mais, confira Modelos do Serviço OpenAI do Azure
Máximo de ajuste de implantações de modelo	5
Número total de trabalhos de treinamento por recurso	100
Máximo de trabalhos de treinamento simultâneos em execução por recurso	1
Máximo de trabalhos de treinamento na fila	20
Máximo de arquivos por recurso (ajuste fino)	50
Tamanho total de todos os arquivos por recurso (ajuste fino)	1 GB
Tempo máximo do trabalho de treinamento (o trabalho falhará se ele for excedido)	720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (nº de épocas)	2 bilhões
Tamanho máximo de todos os arquivos por upload (OpenAI do Azure em seus dados)	16 MB
Número máximo ou entradas na matriz com `/embeddings`	2048
Número máximo de mensagens de `/chat/completions`	2048
Número máximo de funções de `/chat/completions`	128
Número máximo de ferramentas de `/chat completions`	128
Número máximo de unidades de taxa de transferência Provisionadas por implantação	100.000
Máximo de arquivos por Assistente/thread	20
Tamanho máximo do arquivo para Assistentes e ajuste fino	512 MB
Limite de token de assistentes	Limite de token de 2.000.000

Limites de cota regional

A cota padrão para modelos varia de acordo com o modelo e a região. Os limites da cota padrão estão sujeitos a alterações.

A cota para implantações padrão é descrita em termos de TPM (Tokens por Minuto).

Region	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o - GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 – ajuste fino	Davinci-002	Davinci-002 – ajuste fino	GPT-35-Turbo – ajuste fino	GPT-35-Turbo-1106 – ajuste fino	GPT-35-Turbo-0125 – ajuste fino	GPT-4 - finetune
australiaeast	40 mil	80 mil	80 mil	30 K	-	-	300 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-
canadaeast	40 mil	80 mil	80 mil	-	-	-	300 mil	-	350 mil	350 mil	350 mil	-	-	-	-	-	-	-	-
eastus	-	-	80 mil	-	150 mil	450 K	240 mil	240 mil	240 mil	350 mil	350 mil	-	-	-	-	-	-	-	-
eastus2	-	-	80 mil	-	150 mil	450 K	300 mil	-	350 mil	350 mil	350 mil	-	-	-	-	250 mil	250 mil	250 mil	-
francecentral	20 mil	60 K	80 mil	-	-	-	240 mil	-	240 mil	-	350 mil	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	-	-	300 mil	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-
northcentralus	-	-	80 mil	-	150 mil	450 K	300 mil	-	350 mil	-	-	240 mil	250 mil	240 mil	250 mil	250 mil	250 mil	250 mil	100 mil
norwayeast	-	-	150 mil	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80 mil	-	150 mil	450 K	240 mil	-	240 mil	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 mil	-	-	-	300 mil	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-
swedencentral	40 mil	80 mil	150 mil	30 K	-	-	300 mil	240 mil	350 mil	-	350 mil	240 mil	250 mil	240 mil	250 mil	250 mil	250 mil	250 mil	100 mil
switzerlandnorth	40 mil	80 mil	-	30 K	-	-	300 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	250 mil	-	250 mil	250 mil	250 mil	250 mil	-
uksouth	-	-	80 mil	-	-	-	240 mil	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240 mil	-	240 mil	-	-	-	-	-	-	-	-	-	-
westus	-	-	80 mil	30 K	150 mil	450 K	300 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80 mil	-	150 mil	450 K	-	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-

1 K = 1000 TPM (Tokens por Minuto). A relação entre TPM e RPM (Solicitações por Minuto) é definida atualmente como 6 RPM por 1000 TPM.

Os valores para GPT-4o na tabela acima representam valores de cota padrão que estão disponíveis para todos os clientes. Os clientes corporativos têm alocações de cota muito maiores.

limites de taxa gpt-4o

gpt-4o introduz níveis de limite de taxa com limites mais altos para alguns tipos de cliente.

padrão global gpt-4o

Observação

No momento, o tipo de implantação de modelo padrão global está na versão prévia pública.

Camada	Limite de cota em tokens por minuto (TPM)	Solicitações por minuto
Contrato Enterprise	10 M	60 K
Padrão	450 K	2,7 K

M = milhão | K = mil

padrão gpt-4o

Camada	Limite de cota em tokens por minuto (TPM)	Solicitações por minuto
Contrato Enterprise	1 M	6 mil
Padrão	150 mil	900

M = milhão | K = mil

Camadas de uso

As implantações de padrão global usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes que mantém altos níveis de uso podem obter mais variabilidade na latência de resposta.

O limite de uso determina o nível de uso acima do qual os clientes podem obter maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas e em todas as regiões para um determinado locatário.

Padrão e padrão global do GPT-4o

Modelar	Camadas de serviço por mês
`GPT-4o`	1,5 bilhão de tokens

Práticas recomendadas gerais para permanecer dentro dos limites da taxa

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:

Implemente a lógica de repetição no seu aplicativo.
Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
Teste padrões distintos de aumento de carga.
Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos para as cotas e limites padrão

As solicitações de aumento de cota podem ser enviadas na página Cotas do Estúdio de OpenAI do Azure. Observe que, devido à demanda esmagadora, as solicitações de aumento de cota estão sendo aceitas e serão preenchidas na ordem em que forem recebidas. Será dada prioridade aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação poderá ser negada se esta condição não for atendida.

Para outros limites de taxa, envie uma solicitação de serviço .

Próximas etapas

Explore como gerenciar cotas para suas implantações do OpenAI do Azure. Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.

Compartilhar via