Share via


프로비전된 처리량 단위 온보딩

이 문서에서는 PTU(프로비전된 처리량 단위)에 온보딩하는 프로세스를 안내합니다. 초기 온보딩을 완료하면 PTU 시작 가이드를 참조하는 것이 좋습니다.

참고 항목

PTU(프로비전된 처리량 단위)는 Azure OpenAI의 표준 할당량과 다르며 기본적으로 사용할 수 없습니다. 이 서비스에 대해 자세히 알아보려면 Microsoft 계정 팀에 문의하세요.

PTU(프로비전된 처리량 단위)를 사용하는 경우

잘 정의되고 예측 가능한 처리량 요구 사항이 있는 경우 종량제에서 프로비전된 처리량으로 전환하는 것을 고려해야 합니다. 일반적으로 이는 애플리케이션이 프로덕션 준비가 되었거나 이미 프로덕션에 배포되었으며 예상 트래픽을 이해하고 있을 때 발생합니다. 이를 통해 사용자는 필요한 용량을 정확하게 예측하고 예기치 못한 비용이 청구되는 것을 방지할 수 있습니다.

일반적인 PTU 시나리오

  • 프로덕션 준비가 완료되었거나 프로덕션 중인 애플리케이션입니다.
  • 애플리케이션에는 예측 가능한 용량/사용량 예상 결과치가 있습니다.
  • 애플리케이션에는 실시간/대기 시간에 중요한 요구 사항이 있습니다.

참고 항목

함수 호출 및 에이전트 사용 사례에서 토큰 사용량은 가변적일 수 있습니다. 워크로드를 PTU로 마이그레이션하기 전에 예상되는 TPM(분당 토큰) 사용량을 자세히 이해해야 합니다.

크기 조정 및 예측: 프로비전된 관리 전용

워크로드에 필요한 프로비전된 처리량 또는 PTU의 적절한 양을 결정하는 것은 성능 및 비용을 최적화하는 데 필수적인 단계입니다. 이 섹션에서는 Azure OpenAI 용량 계획 도구를 사용하는 방법을 설명합니다. 이 도구는 워크로드 요구 사항을 충족하는 데 필요한 PTU의 예상 비용을 제공합니다.

프로비전된 처리량 및 비용 예측

워크로드에 대한 빠른 예측값을 얻으려면 Azure OpenAI Studio에서 Capacity Planner를 엽니다. Capacity Planner는 관리>할당량>프로비전됨 아래에 표시됩니다.

프로비전됨 옵션 및 Capacity Planner는 특적 지역의 할당량 창에서만 사용할 수 있습니다. 이 옵션이 표시되지 않는 경우 할당량 지역을 스웨덴 중부로 설정하면 이 옵션을 사용할 수 있습니다. 워크로드에 따라 다음 매개 변수를 입력합니다.

입력 설명
모델 사용하려는 OpenAI 모델입니다. 예: GPT-4
버전 사용하려는 모델의 버전(예: 0614)입니다.
프롬프트 토큰 각 호출에 대한 프롬프트의 토큰 수입니다.
생성 토큰 각 호출에서 모델이 생성한 토큰 수입니다.
분당 최고 호출 분당 호출 수로 측정된 엔드포인트에 대한 최대 동시 로드입니다.

필요한 세부 정보를 입력한 후 계산을 선택하여 시나리오에 대해 제안된 PTU를 확인합니다.

Azure OpenAI Studio 방문 페이지 스크린샷.

참고 항목

Capacity Planner는 간단한 입력 기준에 따른 예상값입니다. 용량을 결정하는 가장 정확한 방법은 사용 사례의 대표적 워크로드를 사용하여 배포를 벤치마킹하는 것입니다.

프로비전된 처리량 구매 모델 이해

사용량에 따라 요금이 청구되는 Azure 서비스와 달리, Azure OpenAI 프로비전된 처리량 기능은 재생 가능한 월별 약정으로 구매됩니다. 이 약정이 있는 경우 생성 시 및 매월 갱신할 때마다 구독에 비용이 청구됩니다. 프로비전된 처리량에 온보딩하는 경우 프로비전된 배포를 만들려는 각 Azure OpenAI 리소스에 대한 약정을 만들어야 합니다. 이러한 방식으로 구매한 CPU는 해당 리소스에 배포를 만들 때 사용할 수 있습니다.

약정을 통해 구매할 수 있는 총 CPU 수는 구독에 할당된 프로비전된 처리량 할당량의 크기로 제한됩니다. 다음 표에서는 PTU(프로비전된 처리량 할당량) 및 프로비전된 처리량 약정의 다른 특성을 비교합니다.

항목 할당량 약정
목적 프로비전된 배포를 만들 수 있는 권한을 부여하고 사용할 수 있는 용량의 상한을 제공합니다. 프로비전된 처리량 용량에 대한 차량 구매
수명 부여된 후 5일 이내에 약정을 통해 구매하지 않으면 구독에서 할당량이 제거될 수 있습니다. 최소 기간은 1개월이며 고객이 선택할 수 있는 자동 갱신 동작이 있습니다. 약정은 취소할 수 없으며 활성 상태인 동안 새 리소스로 전환할 수 없습니다.
범위 할당량은 구독 및 지역과 관련이 있으며 모든 Azure OpenAI 리소스에서 공유됩니다. 약정은 Azure OpenAI 리소스의 특성이며 해당 리소스 내의 배포로 범위가 지정됩니다. 구독에는 리소스 수만큼 활성 약정이 포함될 수 있습니다.
세분성 할당량은 모델 제품군(예: GPT-4)별로 부여되지만 제품군 내에서 모델 버전 간에 공유할 수 있습니다. 약정은 모델 또는 버전별로 다르지 않습니다. 예를 들어 리소스의 1000 PTU 약정은 GPT-4 및 GPT-35-Turbo의 배포를 포함할 수 있습니다.
용량 보장 할당량이 있다고 해서 배포를 만들 때 용량을 사용할 수 있다고 보장되지는 않습니다. 확정된 CPU를 포함하는 용량 가용성은 약정이 활성 상태인 동안 보장됩니다.
증가/감소 약정 갱신 날짜와 관계없이 언제든지 새 할당량을 요청하고 승인할 수 있습니다. 약정에 포함되는 CPU 수는 언제든지 늘릴 수 있지만 갱신할 때만 줄일 수 있습니다.

할당량과 약정은 둘 다 구독 내의 배포 만들기에 영향을 미칩니다. 프로비전된 배포를 만들려면 다음 두 가지 조건을 충족해야 합니다.

  • 원하는 지역 및 구독 내에서 원하는 모델에 할당량을 사용할 수 있어야 합니다. 즉, 모델에 대한 구독/지역 전체 제한을 초과할 수 없습니다.
  • 배포를 만드는 리소스에서 약정돈 PTU를 사용할 수 있어야 합니다. (배포에 할당하는 용량은 유료임)

약정 속성 및 청구 모델

약정에는 여러 속성이 포함됩니다.

속성 설명 설정하는 경우
Azure OpenAI 리소스 약정을 호스팅하는 리소스 약정 만들기
약정된 PTU 약정에 포함되는 PTU 수입니다. 처음에는 약정을 만들 때 설정되며 언제든지 늘릴 수 있지만 줄일 수는 없습니다.
용어 약정 기간입니다. 약정은 생성 날짜로부터 1개월 후에 만료됩니다. 갱신 정책은 다음에 수행되는 일을 정의합니다. 약정 만들기
만료 날짜 약정의 만료 날짜입니다. 이 만료 시간은 자정(UTC)입니다. 처음에는 생성부터 30일 후입니다. 그러나 약정이 갱신되면 만료 날짜가 변경됩니다.
갱신 정책 만료 시 수행할 작업에 대해서는 다음 세 가지 옵션이 있습니다.

- 자동 갱신: 새로운 약정 기간이 현재 CPU 수로 30일 더 연장됩니다.
- 다른 설정을 사용한 자동 갱신: 이 설정은 갱신 시 약정된 CPU 수를 줄일 수 있다는 점을 제외하고 자동 갱신과 동일합니다.
- 자동 갱신 안 함: 만료 시 약정이 종료되고 갱신되지 않습니다.
처음에 약정을 만들 때 설정되며 언제든지 변경할 수 있습니다.

약정 요금

프로비전된 처리량 약정은 다음 경우에 Azure 구독에 대해 요금을 생성합니다.

  • 약정을 만들 때. 요금은 현재 월별 PTU 속도 및 약정된 CPU 수에 따라 계산됩니다. 청구서에 선불로 한 번의 요금이 청구됩니다.

  • 약정을 갱신할 때. 갱신 정책이 자동 갱신으로 설정된 경우 새 기간에 약정된 CPU에 따라 새 월별 요금이 생성됩니다. 이 요금은 청구서에 단일 선불 요금으로 표시됩니다.

  • 새 PTU가 기존 약정에 추가될 때. 요금은 약정에 추가된 PTU 수를 기준으로 계산되며 기존 약정 기간이 끝날 때까지 시간별로 비례 배분됩니다. 예를 들어, 300PTU가 해당 기간의 정확히 중간에 900PTU의 기존 약정에 추가되는 경우 추가 시 150PTU(300PTU가 약정 만료 날짜로 비례 배분한 크기)에 대한 요금이 부과됩니다. 약정이 갱신되면 다음 달의 요금은 새로운 PTU의 총 1,200PTU에 대한 요금이 됩니다.

리소스에 배포된 PTU 수가 리소스 약정에 포함되는 한 약정 요금만 표시됩니다. 그러나 리소스에 배포된 CPU 수가 리소스의 약정된 PTU보다 크면 초과 PTU 요금은 시간당 초과분으로 청구됩니다. 일반적으로 이 초과분이 적용되는 유일한 방법은 리소스에 배포가 포함된 동안 약정이 만료되거나 갱신 시 감소되는 경우입니다. 예를 들어 300개의 PTU가 배포된 리소스에서 300PTU 약정이 만료되도록 허용된 경우 배포된 PTU에는 더 이상 약정이 적용되지 않습니다. 만료 날짜에 도달하면 300개 초과 PTU에 따라 구독에 시간당 초과분 요금이 청구됩니다.

시간당 요금은 월별 약정 요금보다 높으며 해당 요금은 며칠 이내에 월별 요금을 초과합니다. 시간당 초과분 요금은 다음 두 가지 방법 중 하나로 종료할 수 있습니다.

  • 약정된 것보다 더 많은 PTU를 사용하지 않도록 배포 삭제 또는 스케일 다운합니다.
  • 리소스에 대해 배포된 PTU를 포괄할 수 있는 새 약정을 만듭니다.

약정 구매 및 관리

약정 계획

PTU(프로비전된 처리량 단위) 할당량이 구독에 할당되었다는 확인을 받으면 대상 리소스에 대한 약정을 만들거나 기존 약정을 연장하여 배포에 할당량을 사용할 수 있도록 해야 합니다.

약정을 만들기 전에 프로비전된 배포를 사용하는 방법과 이를 호스트할 Azure OpenAI 리소스를 계획합니다. 약정 기간은 최소 1개월이며 이 기간이 끝날 때까지 크기를 줄일 수 없습니다. 또한 만든 후에는 새 리소스로 이동할 수 없습니다. 마지막으로 약정된 PTU의 합계는 할당량보다 클 수 없습니다. 리소스에서 약정된 PTU는 더 이상 약정이 만료될 때까지 다른 리소스에 대해 약정될 수 없습니다. 프로비전된 배포에 사용할 리소스와 해당 리소스에 적용하려는 용량(최소 한 달)을 명확하게 계획하면 프로비전된 처리량 설정에 대한 최적의 환경을 보장하는 데 도움이 됩니다.

예시:

  • 유효성 검사를 위해 임시 리소스에 대한 약정 및 배포를 만들지 마세요. 최소 한 달 동안 해당 리소스를 사용할 수 없습니다. 대신 최종적으로 프로덕션 리소스에서 PTU를 사용하려는 경우 처음부터 바로 해당 리소스에 대한 약정 및 테스트 배포를 만듭니다.

  • 각 모델에서 배포를 만드는 데 필요한 최소 PTU 수를 고려하면서 만들려는 배포의 수, 모델 및 크기에 따라 리소스에 약정할 PTU 수를 계산합니다.

    • 예제 1: GPT-4-32K를 배포하려면 최소 200PTU가 필요합니다. 리소스에 100PTU만 약정하는 경우 GPT-4-32K를 배포하기에 약정된 PTU가 충분하지 않습니다.

    • 예제 2: 리소스에 여러 배포를 만들어야 하는 경우 각 배포에 필요한 PTU를 더합니다. GPT-4의 300PTU 및 GPT-4-32K의 500PTU에 대한 배포를 호스팅하는 프로덕션 리소스에는 두 배포를 모두 포함하도록 최소 800PTU의 약정이 필요합니다.

  • 필요에 따라 PTU를 분산하거나 통합합니다. 예를 들어 배포를 지원하기 위해 필요에 따라 총 1000PTU 할당량을 리소스에 분산할 수 있습니다. 약정된 PTU의 총 수가 할당량 1000보다 작거나 같으면 단일 리소스에 약정하여 합산해서 1,000PTU까지 또는 여러 리소스(예: 개발 및 프로덕션 리소스)에 분산하여 하나 이상의 배포를 지원할 수 있습니다.

  • 계획 시 운영 요구 사항을 고려합니다. 예시:

    • 조직 차원에서 필요한 리소스 명명 규칙이 필요함
    • 여러 Azure OpenAI 리소스에서 지역당 모델을 여러 개 배포해야 하는 비즈니스 연속성 정책

프로비전된 처리량 약정 관리

프로비전된 처리량 약정은 Azure OpenAI Studio의 약정 관리 보기에서 만들기 및 관리됩니다. 할당량 창에서 약정 관리를 선택하여 이 보기로 이동할 수 있습니다.

알림이 포함된 약정 구매 UI 스크린샷.

약정 관리 보기에서는 다음과 같은 여러 작업을 수행할 수 있습니다.

  • 새 약정을 구매하거나 기존 약정을 편집합니다.
  • 구독의 모든 약정을 모니터링합니다.
  • 예기치 못한 청구가 발생할 수 있는 약정을 식별하고 조치를 취합니다.

아래 섹션에서는 이러한 작업을 안내합니다.

프로비전된 처리량 약정 구매

약정 플랜이 준비되면 다음 단계는 약정을 만드는 것입니다. 약정은 Azure OpenAI Studio를 통해 수동으로 생성되며, 약정을 만드는 사용자는 구독 수준에서 기여자 또는 Cognitive Services 기여자 역할이 있어야 합니다.

새로 만들어야 하는 각 약정에 대해 다음 단계를 수행합니다.

  1. 할당량>프로비전됨>약정 관리를 선택하여 프로비전된 처리량 구매 대화 상자를 시작합니다.

구매 대화 상자 스크린샷.

  1. 구매 약정을 선택합니다.

  2. Azure OpenAI 리소스를 선택하고 약정을 구매합니다. 리소스가 편집 가능한 기존 약정이 있는 리소스와 현재 약정이 없는 리소스로 구분되어 표시됩니다.

설정 주의
리소스 선택 프로비전된 배포를 만들 리소스를 선택합니다. 약정을 구매한 후에는 현재 약정이 만료될 때까지 다른 리소스에서 PTU를 사용할 수 없습니다.
약정 형식 선택 프로비전됨을 선택합니다. (프로비전됨은 프로비전된 관리와 동등합니다)
현재 약정되지 않은 프로비전된 할당량 이 리소스에 커밋하는 데 현재 사용할 수 있는 PTU 수입니다.
약정할 크기(PTU) 약정할 PTU 수를 선택합니다. 이 숫자는 약정 기간 동안 늘릴 수 있지만 줄일 수는 없습니다. 프로비전됨 약정 형식에 값을 50씩 입력합니다.
현재 기간의 약정 계층 약정 기간은 1개월로 설정됩니다.
갱신 설정 현재 PTU에서 자동 갱신
더 낮은 PTU에서 자동 갱신
자동 갱신 안 함
  1. 구매를 선택합니다. 확인 대화 상자가 표시됩니다. 확인한 후에는 PTU가 약정되고 이를 사용하여 프로비전된 배포를 만들 수 있습니다. |

약정 구매 UI 스크린샷.

Important

전체 기간 동안 새로운 약정 요금이 선불로 청구됩니다. 갱신 설정이 자동 갱신으로 설정된 경우 갱신 설정에 따라 각 갱신 날짜에 다시 요금이 청구됩니다.

기존 프로비전된 처리량 약정 편집

약정 관리 보기에서 기존 약정을 편집할 수도 있습니다. 기존 약정에는 두 가지 형식의 변경이 가능합니다.

  • 약정에 PTU를 추가할 수 있습니다.
  • 갱신 설정을 변경할 수 있습니다.

약정을 편집하려면 편집할 현재 약정을 선택한 다음 약정 편집을 선택합니다.

기존 약정에 프로비전된 처리량 단위 추가

기존 약정에 PTU를 추가하면 리소스 내에서 더 크거나 더 많은 배포를 만들 수 있습니다. 약정 기간 동안 언제든지 이 작업을 수행할 수 있습니다.

약정 금액이 증가한 약정 구매 UI 스크린샷.

Important

약정에 PTU를 추가하면 현재 날짜부터 기존 약정 기간 종료일까지 일할 계산된 금액으로 즉시 요금이 청구됩니다. PTU를 추가해도 약정 기간이 다시 설정되지 않습니다.

갱신 설정 변경

약정 갱신 설정은 약정 만료 날짜 이전에 언제든지 변경할 수 있습니다. 갱신 설정을 변경하려는 이유에는 약정을 자동 갱신하지 않도록 설정하여 프로비전된 처리량 사용을 종료하거나 다음 기간에 약정될 PTU 수를 줄여 프로비전된 처리량의 사용량을 줄이는 것이 포함됩니다.

Important

리소스 아래의 배포에 리소스 약정보다 더 많은 PTU가 필요하도록 약정 만료 또는 크기 감소를 허용하는 경우 초과 PTU에 대해 시간당 초과 요금이 부과됩니다. 예를 들어, 총 500PTU의 배포와 300PTU에 대한 약정이 있는 리소스는 200PTU에 대한 시간당 초과 요금을 생성합니다.

약정을 모니터링하고 예기치 못한 청구를 방지합니다.

약정 관리 창에서는 지정된 Azure 구독 내의 약정 및 PTU 사용량이 포함된 모든 리소스에 대한 구독 전체 개요를 제공합니다. 특히 중요한 관심 사항은 다음과 같습니다.

  • 커밋된 PTU, 배포된 PTU 및 사용량 – 이 수치는 약정의 크기와 배포에서 사용 중인 양을 제공합니다. 커밋된 PTU를 모두 사용하여 투자를 최대화합니다.
  • 만료 정책 및 날짜 - 만료 날짜와 정책은 약정이 만료되는 시기와 만료되면 어떻게 되는지 알려 줍니다. 자동 갱신으로 설정된 약정은 갱신 날짜에 청구 이벤트를 생성합니다. 만료되는 약정의 경우 시간당 초과 요금 청구를 방지하려면 만료 날짜 전에 이러한 리소스에서 배포를 삭제해야 합니다. 약정에 대한 현재 갱신 설정입니다.
  • 경고 - 사용되지 않은 약정, 초과 청구로 이어질 수 있는 구성 등 중요한 조건에 대한 경고입니다. 약정이 만료되고 배포가 아직 존재하지만 시간별 청구로 전환된 경우와 같은 상황으로 인해 초과 청구가 발생할 수 있습니다.

일반적인 약정 관리 시나리오

프로비전된 처리량 사용 중단

프로비전된 처리량의 사용을 종료하고 약정 만료 후 시간당 초과 요금을 방지하려면 현재 약정이 만료된 후 요금을 중지하려면 다음 두 단계를 수행해야 합니다.

  1. 모든 약정에 대해 갱신 정책을 자동 갱신 안 함으로 설정합니다.
  2. 할당량을 사용하여 프로비전된 배포를 삭제합니다.

동일한 구독/지역의 새 리소스로 약정/배포 이동

Azure OpenAI Studio에서는 배포 또는 약정을 새 리소스로 직접 이동할 수 없습니다. 대신 대상 리소스에 새 배포를 만들고 트래픽을 이동해야 합니다. 이 작업을 수행하려면 새 리소스에 대해 구매한 약정을 설정해야 합니다. 약정 금액은 30일에 대해 선불로 청구되므로 겹치는 기간 동안 새 약정과의 겹침 및 "이중 청구"를 최소화하기 위해 원래 약정 만료 시에 이러한 이동을 위한 시간이 필요합니다.

이 전환을 구현하기 위해 수행할 수 있는 두 가지 방법이 있습니다.

옵션 1: 겹치지 않는 전환

이 옵션을 사용하려면 약간의 가동 중지 시간이 필요하지만 추가 할당량이 필요하지 않으며 추가 비용이 발생하지 않습니다.

단계 주의
만료할 기존 약정에 대한 갱신 정책 설정 이렇게 하면 약정이 갱신되지 않으며 추가 요금도 발생하지 않습니다.
기존 약정이 만료되기 전에 배포 삭제 가동 중지 시간은 이 시점에서 시작되며 새 배포가 생성되고 트래픽이 이동될 때까지 지속됩니다. 만료 날짜/시간에 최대한 가깝게 삭제 시간을 지정하여 이 기간을 최소화합니다.
기존 약정이 만료된 후 새 리소스에 대한 약정 만들기 만료 후 가능한 빨리 이 단계와 다음 단계를 실행하여 가동 중지 시간을 최소화합니다.
새 리소스에 배포를 만들고 트래픽을 해당 리소스로 이동

옵션 2: 겹치는 전환

이 옵션은 기존 배포와 새 배포를 동시에 즉시 진행하므로 가동 중지 시간이 없습니다. 이 경우 새 배포를 만드는 데 할당량을 사용할 수 있어야 하며, 겹치는 배포 기간 동안 추가 비용이 발생합니다.

단계 주의
만료할 기존 약정에 대한 갱신 정책 설정 이렇게 하면 약정이 갱신되지 않으며 추가 요금도 발생하지 않습니다.
기존 약정이 만료되기 전:
1. 새 리소스에 대한 약정 만들기
2. 새 배포 만들기
3. 트래픽 전환
4. 기존 배포 삭제
기존 약정이 만료되기 전에 모든 단계에 대해 충분한 시간을 남겨 두세요. 그렇지 않으면 옵션에 대해 초과분 요금이 생성됩니다(다음 섹션 참조).

최종 단계가 예상보다 오래 걸리고 기존 약정이 만료된 후 완료되는 경우 초과분 요금을 최소화하는 세 가지 옵션을 사용할 수 있습니다.

  • 가동 중지 시간: 원래 배포를 삭제한 다음, 이동을 완료합니다.
  • 초과분 지불: 원래 배포를 유지하고 트래픽을 이동하고 배포를 삭제할 때까지 매시간 지불합니다.
  • 원래 약정을 다시 설정하여 한 번 더 갱신합니다. 이렇게 하면 알려진 비용으로 이동을 완료할 수 있습니다.

초과분에 대해 지불하고 원래 약정을 다시 설정하면 원래 만료 날짜 이후의 요금이 발생합니다. 이동을 완료하는 데 하루 또는 이틀만 필요한 경우 초과분 요금을 지불하는 것이 새로운 1개월 약정보다 저렴할 수 있습니다. 두 옵션의 비용을 비교하여 가장 저렴한 방법을 찾습니다.

배포를 새 지역 및/또는 구독으로 이동

모든 경우에 새 위치에서 사용 가능한 할당량이 필요하다는 점을 제외하고 지역 내에서 약정 및 배포를 이동하는 경우에도 동일한 방법이 적용됩니다.

기존 리소스 보기 및 편집

Azure OpenAI Studio에서 할당량>프로비전됨>약정 계층 관리를 선택하고 기존 약정의 리소스를 선택하여 보거나 변경합니다.

다음 단계