Cotas e limites do Serviço OpenAI do Azure
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do OpenAI do Azure nos serviços de IA do Azure.
Referência de cotas e limites
As seções a seguir fornecem um guia rápido para as cotas e os limites padrão que se aplicam ao OpenAI do Azure:
Nome do limite | Valor do limite |
---|---|
Recursos do OpenAI por região na assinatura do Azure | 30 |
Limites de cota DALL-E 2 padrão | 2 solicitações simultâneas |
Limites de cota DALL-E 3 padrão | Duas unidades de capacidade (seis solicitações por minuto) |
Máximo de tokens de prompt por solicitação | Varia de acordo com o modelo. Para saber mais, confira Modelos do Serviço OpenAI do Azure |
Máximo de ajuste de implantações de modelo | 5 |
Número total de trabalhos de treinamento por recurso | 100 |
Máximo de trabalhos de treinamento simultâneos em execução por recurso | 1 |
Máximo de trabalhos de treinamento na fila | 20 |
Máximo de arquivos por recurso (ajuste fino) | 50 |
Tamanho total de todos os arquivos por recurso (ajuste fino) | 1 GB |
Tempo máximo do trabalho de treinamento (o trabalho falhará se ele for excedido) | 720 horas |
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (nº de épocas) | 2 bilhões |
Tamanho máximo de todos os arquivos por upload (OpenAI do Azure em seus dados) | 16 MB |
Número máximo ou entradas na matriz com /embeddings |
2048 |
Número máximo de mensagens de /chat/completions |
2048 |
Número máximo de funções de /chat/completions |
128 |
Número máximo de ferramentas de /chat completions |
128 |
Número máximo de unidades de taxa de transferência Provisionadas por implantação | 100.000 |
Máximo de arquivos por Assistente/thread | 20 |
Tamanho máximo do arquivo para Assistentes e ajuste fino | 512 MB |
Limite de token de assistentes | Limite de token de 2.000.000 |
Limites de cota regional
A cota padrão para modelos varia de acordo com o modelo e a região. Os limites da cota padrão estão sujeitos a alterações.
A cota para implantações padrão é descrita em termos de TPM (Tokens por Minuto).
Region | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 – ajuste fino | Davinci-002 | Davinci-002 – ajuste fino | GPT-35-Turbo – ajuste fino | GPT-35-Turbo-1106 – ajuste fino | GPT-35-Turbo-0125 – ajuste fino | GPT-4 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 mil | 80 mil | 80 mil | 30 K | - | - | 300 mil | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 mil | 80 mil | 80 mil | - | - | - | 300 mil | - | 350 mil | 350 mil | 350 mil | - | - | - | - | - | - | - | - |
eastus | - | - | 80 mil | - | 150 mil | 450 K | 240 mil | 240 mil | 240 mil | 350 mil | 350 mil | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 mil | - | 150 mil | 450 K | 300 mil | - | 350 mil | 350 mil | 350 mil | - | - | - | - | 250 mil | 250 mil | 250 mil | - |
francecentral | 20 mil | 60 K | 80 mil | - | - | - | 240 mil | - | 240 mil | - | 350 mil | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | - | 300 mil | - | 350 mil | - | 350 mil | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 mil | - | 150 mil | 450 K | 300 mil | - | 350 mil | - | - | 240 mil | 250 mil | 240 mil | 250 mil | 250 mil | 250 mil | 250 mil | 100 mil |
norwayeast | - | - | 150 mil | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 mil | - | 150 mil | 450 K | 240 mil | - | 240 mil | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 mil | - | - | - | 300 mil | - | 350 mil | - | 350 mil | - | - | - | - | - | - | - | - |
swedencentral | 40 mil | 80 mil | 150 mil | 30 K | - | - | 300 mil | 240 mil | 350 mil | - | 350 mil | 240 mil | 250 mil | 240 mil | 250 mil | 250 mil | 250 mil | 250 mil | 100 mil |
switzerlandnorth | 40 mil | 80 mil | - | 30 K | - | - | 300 mil | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 mil | - | 250 mil | 250 mil | 250 mil | 250 mil | - |
uksouth | - | - | 80 mil | - | - | - | 240 mil | - | 350 mil | - | 350 mil | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | - | 240 mil | - | 240 mil | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 mil | 30 K | 150 mil | 450 K | 300 mil | - | 350 mil | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 mil | - | 150 mil | 450 K | - | - | 350 mil | - | 350 mil | - | - | - | - | - | - | - | - |
1 K = 1000 TPM (Tokens por Minuto). A relação entre TPM e RPM (Solicitações por Minuto) é definida atualmente como 6 RPM por 1000 TPM.
Os valores para GPT-4o na tabela acima representam valores de cota padrão que estão disponíveis para todos os clientes. Os clientes corporativos têm alocações de cota muito maiores.
limites de taxa gpt-4o
gpt-4o
introduz níveis de limite de taxa com limites mais altos para alguns tipos de cliente.
padrão global gpt-4o
Observação
No momento, o tipo de implantação de modelo padrão global está na versão prévia pública.
Camada | Limite de cota em tokens por minuto (TPM) | Solicitações por minuto |
---|---|---|
Contrato Enterprise | 10 M | 60 K |
Padrão | 450 K | 2,7 K |
M = milhão | K = mil
padrão gpt-4o
Camada | Limite de cota em tokens por minuto (TPM) | Solicitações por minuto |
---|---|---|
Contrato Enterprise | 1 M | 6 mil |
Padrão | 150 mil | 900 |
M = milhão | K = mil
Camadas de uso
As implantações de padrão global usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes que mantém altos níveis de uso podem obter mais variabilidade na latência de resposta.
O limite de uso determina o nível de uso acima do qual os clientes podem obter maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas e em todas as regiões para um determinado locatário.
Padrão e padrão global do GPT-4o
Modelar | Camadas de serviço por mês |
---|---|
GPT-4o |
1,5 bilhão de tokens |
Práticas recomendadas gerais para permanecer dentro dos limites da taxa
Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:
- Implemente a lógica de repetição no seu aplicativo.
- Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
- Teste padrões distintos de aumento de carga.
- Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.
Como solicitar aumentos para as cotas e limites padrão
As solicitações de aumento de cota podem ser enviadas na página Cotas do Estúdio de OpenAI do Azure. Observe que, devido à demanda esmagadora, as solicitações de aumento de cota estão sendo aceitas e serão preenchidas na ordem em que forem recebidas. Será dada prioridade aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação poderá ser negada se esta condição não for atendida.
Para outros limites de taxa, envie uma solicitação de serviço .
Próximas etapas
Explore como gerenciar cotas para suas implantações do OpenAI do Azure. Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.