Kuota dan batas Azure OpenAI Service

Artikel
05/22/2024

Artikel ini berisi referensi cepat dan deskripsi terperinci tentang kuota dan batasan untuk Azure OpenAI di layanan Azure AI.

Referensi kuota dan batas

Bagian berikut ini memberi Anda panduan cepat untuk kuota dan batas default yang berlaku untuk Azure OpenAI:

Nama Batas	Nilai Batas
Sumber daya OpenAI per wilayah per langganan Azure	30
Batas kuota DALL-E 2 default	2 permintaan bersamaan
Batas kuota DALL-E 3 default	2 unit kapasitas (6 permintaan per menit)
Token prompt maksimum per permintaan	Bervariasi per model. Untuk informasi selengkapnya, lihat Model Layanan Azure OpenAI
Maks penyebaran model yang disesuaikan	5
Jumlah total pekerjaan pelatihan per sumber daya	100
Maks pekerjaan pelatihan yang berjalan secara simultan per sumber daya	1
Maks pekerjaan pelatihan yang diantrekan	20
File Maks per sumber daya (penyempurnaan)	50
Ukuran total semua file per sumber daya (penyempurnaan)	1 GB
Waktu kerja pelatihan maksimum (pekerjaan akan gagal jika terlampaui)	720 jam
Ukuran pekerjaan pelatihan maks (token dalam file pelatihan) x (# dari epoch)	2 Miliar
Ukuran maksimum semua file per unggahan (Azure OpenAI pada data Anda)	16 MB
Jumlah maksimum atau input dalam array dengan `/embeddings`	2048
Jumlah `/chat/completions` maksimum pesan	2048
Jumlah `/chat/completions` maksimum fungsi	128
Jumlah maksimum `/chat completions` alat	128
Jumlah maksimum unit throughput yang disediakan per penyebaran	100.000
File maks per Asisten/utas	20
Ukuran file maksimum untuk Asisten & penyempurnaan	512 MB
Batas token asisten	Batas token 2.000.000

Batas kuota regional

Kuota default untuk model bervariasi menurut model dan wilayah. Batas kuota default dapat berubah.

Kuota untuk penyebaran standar dijelaskan dalam hal Tokens-Per-Menit (TPM).

Wilayah	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	40 K	80 K	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-
eastus	-	-	80 K	-	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K
FranceCentral	20 K	60 K	80 K	-	240 K	-	240 K	-	350 K	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	150 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-
swedencentral	40 K	80 K	150 K	30 K	300 K	240 K	350 K	-	350 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	40 K	80 K	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	80 K	-	240 K	-	350 K	-	350 K	-	-	-	-	-	-	-
westeurope	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-

1 K = 1000 Token Per Menit (TPM). Hubungan antara TPM dan Requests Per Minute (RPM) saat ini didefinisikan sebagai 6 RPM per 1000 TPM.

batas laju gpt-4o

gpt-4o memperkenalkan tingkat batas tarif dengan batas yang lebih tinggi untuk jenis pelanggan tertentu.

gpt-4o standar global

Catatan

Jenis penyebaran model standar global saat ini dalam pratinjau publik.

Tingkat	Batas Kuota dalam token per menit (TPM)	Permintaan per menit
Perjanjian Enterprise	10 M	60 K
Default	450 K	2,7 K

M = juta | K = ribu

standar gpt-4o

Tingkat	Batas Kuota dalam token per menit (TPM)	Permintaan per menit
Perjanjian Enterprise	1 M	6 K
Default	150 K	900

M = juta | K = ribu

Praktik terbaik umum untuk tetap dalam batas tarif

Untuk meminimalkan masalah yang terkait dengan batas tarif, ada baiknya menggunakan teknik berikut:

Terapkan logika coba lagi di aplikasi Anda.
Hindari perubahan ekstrem dalam beban kerja. Tingkatkan beban kerja secara bertahap.
Uji pola peningkatan beban yang berbeda.
Tingkatkan kuota yang ditetapkan ke penyebaran Anda. Pindahkan kuota dari penyebaran lain, jika perlu.

Cara meminta peningkatan ke kuota dan batas default

Permintaan penambahan kuota dapat dikirimkan dari halaman Kuota Azure OpenAI Studio. Harap dicatat bahwa karena permintaan yang luar biasa, permintaan peningkatan kuota diterima dan akan diisi dalam urutan yang mereka terima. Prioritas akan diberikan kepada pelanggan yang menghasilkan lalu lintas yang menggunakan alokasi kuota yang ada, dan permintaan Anda dapat ditolak jika kondisi ini tidak terpenuhi.

Untuk batas tarif lainnya, kirimkan permintaan layanan.

Langkah berikutnya

Jelajahi cara mengelola kuota untuk penyebaran Azure OpenAI Anda. Pelajari selengkapnya tentang model yang mendasari yang mendukung Azure OpenAI.

Share via