빠른 시작: 통합 벡터화(미리 보기)

아티클
05/08/2024

Important

데이터 가져오기 및 벡터화 마법사는 추가 사용 약관에 따라 공개 미리 보기로 제공됩니다. 이는 2023-10-01-Preview REST API를 대상으로 합니다.

Azure Portal에서 데이터 가져오기 및 벡터화 마법사를 사용하여 통합 벡터화(미리 보기)를 시작합니다. 이 마법사는 Azure OpenAI 텍스트 포함 모델을 호출하여 인덱싱 및 쿼리 중에 콘텐츠를 벡터화합니다.

이 미리 보기 버전의 마법사에서는 다음을 수행합니다.

원본 데이터는 기본 구문 분석 모드(BLOB당 하나의 검색 문서)를 사용하는 Blob 전용입니다.
인덱스 스키마는 구성할 수 없습니다. 원본 필드에는 content(청크 분할 및 벡터화), 제목의 경우 metadata_storage_name, 문서 키의 경우 metadata_storage_path(인덱스에서 parent_id로 표시됨)이 포함됩니다.
벡터화는 기본값으로 HNSW(Hierarchical Navigable Small Worlds) 알고리즘을 사용하는 Azure OpenAI 전용(text-embedding-ada-002)입니다.
청크는 구성할 수 없습니다. 효과적인 설정은 다음과 같습니다.
```
textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500
```

더 많은 구성 및 데이터 원본 옵션을 보려면 Python 또는 REST API를 사용해 보세요. 자세한 내용은 통합 벡터화 샘플을 참조하세요.

Azure 구독 체험 계정 만들기
모든 지역 및 모든 계층의 Azure AI 검색. 대부분의 기존 서비스는 벡터 검색을 지원합니다. 2019년 1월 이전에 만들어진 서비스의 작은 하위 집합의 경우 벡터 필드가 포함된 인덱스 만들기가 실패합니다. 이런 상황에서는 새로운 서비스를 만들어야 합니다.
text-embedding-ada-002 배포 및 API 키 또는 업로드할 수 있는 Cognitive Services OpenAI 사용자 권한이 있는 Azure OpenAI 엔드포인트 데이터. 이 미리 보기에서는 벡터라이저를 하나만 선택할 수 있으며 벡터라이저는 Azure OpenAI여야 합니다.
Azure Storage 계정, 표준 성능(범용 v2), 핫, 쿨, 콜드 액세스 계층.
텍스트 콘텐츠, 구조화되지 않은 문서만, 메타데이터를 제공하는 Blob입니다. 이 미리 보기에서는 데이터 원본이 Azure Blob이어야 합니다.
Azure Storage의 읽기 권한입니다. 액세스 키가 포함된 스토리지 연결 문자열은 스토리지 콘텐츠에 대한 읽기 권한을 제공합니다. 대신 Microsoft Entra 로그인 및 역할을 사용하는 경우 검색 서비스의 관리 ID에 Storage Blob 데이터 읽기 권한자 권한이 있는지 확인합니다.
모든 구성 요소(데이터 원본 및 포함 엔드포인트)에는 포털 노드가 액세스할 수 있도록 공용 액세스가 활성화되어 있어야 합니다. 그렇지 않으면 마법사가 실패합니다. 마법사가 실행되면 보안을 위해 여러 통합 구성 요소에서 방화벽 및 프라이빗 엔드포인트를 사용하도록 설정할 수 있습니다. 프라이빗 엔드포인트가 이미 있고 사용하지 않도록 설정할 수 없는 경우 다른 옵션은 프라이빗 엔드포인트와 동일한 가상 네트워크 내의 가상 머신에서 스크립트 또는 프로그램을 통해 해당 엔드투엔드 흐름을 실행하는 것입니다. 다음은 통합된 벡터화를 위한 Python 코드 샘플입니다. 동일한 GitHub 리포지토리에 다른 프로그래밍 언어의 샘플도 들어 있습니다.

공간 확인

많은 고객이 무료 서비스를 시작합니다. 무료 계층은 인덱스 3개, 데이터 원본 3개, 기술 세트 3개, 인덱서 3개로 제한됩니다. 시작하기 전에 추가 항목에 대한 공간이 있는지 확인합니다. 이 빠른 시작에서는 각 개체를 하나씩 만듭니다.

의미 체계 순위 지정 확인

이 마법사는 의미 체계 순위 지정을 지원하지만 기본 계층 이상 및 의미 체계 순위 지정이 이미 검색 서비스에서 사용하도록 설정된 경우에만 지원됩니다. 청구 가능 계층을 사용하는 경우 의미 체계 순위 지정이 사용하도록 설정되어 있는지 확인합니다.

샘플 데이터 준비

이 섹션에서는 이 빠른 시작에 적합한 데이터를 알려 줍니다.

Azure 계정으로 Azure Portal에 로그인하고 Azure Storage 계정으로 이동합니다.
탐색 창의 데이터 스토리지에서 컨테이너를 선택합니다.
새 컨테이너를 만든 다음 이 빠른 시작에 사용된 상태 계획 PDF 문서를 업로드합니다.
Azure Portal에서 Azure Storage 계정을 나가기 전에, 역할 기반 액세스를 원한다는 가정하에 컨테이너에 대한 Storage Blob 데이터 읽기 권한자 권한을 부여합니다. 또는 액세스 키 페이지에서 스토리지 계정에 대한 연결 문자열을 가져옵니다.

Azure OpenAI에 대한 연결 세부 정보 가져오기

마법사에는 엔드포인트, text-embedding-ada-002 배포, API 키 또는 Cognitive Services OpenAI 사용자 권한이 있는 검색 서비스 관리 ID가 필요합니다.

Azure 계정으로 Azure Portal에 로그인하고 Azure OpenAI 리소스로 이동합니다.
키 및 관리에서 엔드포인트를 복사합니다.
같은 페이지에서 키를 복사하거나 액세스 제어를 선택하여 검색 서비스 ID에 역할 멤버를 할당합니다.
모델 배포에서 배포 관리를 선택하여 Azure AI Studio를 엽니다. text-embedding-ada-002의 배포 이름을 복사합니다.

마법사 시작

시작하려면 Azure Portal에서 Azure AI 검색 서비스를 찾아 데이터 가져오기 및 벡터화 마법사를 엽니다.

Azure 계정으로 Azure Portal에 로그인하고 Azure AI 검색 서비스로 이동합니다.
개요 페이지에서 데이터 가져오기 및 벡터화를 선택합니다.

데이터에 연결

다음 단계는 검색 인덱스에 사용할 데이터 원본에 연결하는 것입니다.

데이터에 연결 탭의 데이터 가져오기 및 벡터화 마법사에서 데이터 원본 드롭다운 목록을 확장하고 Azure Blob Storage를 선택합니다.
데이터를 제공하는 Azure 구독, 스토리지 계정 및 컨테이너를 지정합니다.
연결의 경우 키가 포함된 모든 권한 연결 문자열을 제공하거나 컨테이너에 대한 Storage Blob 데이터 읽기 권한자 권한이 있는 관리 ID를 지정합니다.
삭제 검색 여부를 지정합니다.
계속하려면 다음: 벡터화 및 보강를 선택합니다.

데이터 보강 및 벡터화

이 단계에서는 청크 분할 데이터를 벡터화하는 데 사용되는 포함 모델을 지정합니다.

구독, 엔드포인트, API 키 및 모델 배포 이름을 제공합니다.
선택적으로 이진 파일 이미지(예: 검사한 문서 파일)를 해독하고 OCR을 사용하여 텍스트를 인식할 수 있습니다.
선택적으로 의미 체계 순위 지정를 추가하여 쿼리 실행이 끝날 때 결과 순위 지정을 다시 지정하여 의미 체계상 가장 관련성이 높은 일치 항목을 맨 위로 올릴 수 있습니다.
인덱서에 대한 런타임 일정을 지정합니다.
계속하려면 다음: 만들기 및 검토를 선택합니다.

마법사 실행

이 단계에서는 다음 개체를 만듭니다.

Blob 컨테이너에 대한 데이터 원본 연결입니다.
벡터 필드, 벡터라이저, 벡터 프로필, 벡터 알고리즘이 포함된 인덱스입니다. 마법사 워크플로 중에는 기본 인덱스를 설계하거나 수정하라는 메시지가 표시되지 않습니다. 인덱스는 2023-10-01-Preview 버전을 준수합니다.
청크를 위한 텍스트 분할 기술과 벡터화를 위한 AzureOpenAIEmbeddingModel이 포함된 기술 세트입니다.
필드 매핑 및 출력 필드 매핑(해당되는 경우)이 있는 인덱서입니다.

오류가 발생하면 먼저 권한을 검토합니다. Azure OpenAI에는 Cognitive Services OpenAI 사용자가 필요하고 Azure Storage에는 Storage Blob 데이터 읽기 권한자가 필요합니다. Blob은 구조화되지 않아야 합니다(청크 분할 데이터는 Blob의 "content" 속성에서 끌어옵니다).

결과 확인

검색 탐색기는 텍스트 문자열을 입력으로 받아들인 다음 벡터 쿼리 실행을 위해 텍스트를 벡터화합니다.

인덱스를 선택합니다.
필요에 따라 쿼리 옵션을 선택하고 검색 결과에서 벡터 값을 숨깁니다. 이 단계를 수행하면 검색 결과를 더 쉽게 읽을 수 있습니다.
text 벡터 쿼리 매개 변수에 벡터 쿼리에 대한 텍스트를 입력할 수 있도록 JSON 보기를 선택합니다.

이 마법사는 "벡터" 필드에 대한 벡터 쿼리를 실행하여 5개의 가장 인접한 항목을 반환하는 기본 쿼리를 제공합니다. 벡터 값을 숨기도록 선택한 경우 기본 쿼리에는 검색 결과에서 벡터 필드를 제외하는 "select" 문이 포함됩니다.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
"*" 텍스트를 "공제 금액이 가장 낮은 계획"과 같은 상태 보험 관련 질문으로 바꿉니다.
쿼리를 실행하려면 쿼리를 선택합니다.

각 문서가 원본 PDF의 일부인 5개의 일치 항목이 표시되어야 합니다. 제목 필드에는 해당 청크가 어느 PDF에서 왔는지 표시됩니다.

특정 문서의 모든 청크를 보려면 특정 PDF의 제목 필드에 필터를 추가합니다.

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

정리

Azure AI 검색은 청구 가능한 리소스입니다. 더 이상 필요하지 않은 경우 요금이 부과되지 않도록 구독에서 삭제합니다.

다음 단계

이 빠른 시작에서는 통합 벡터화에 필요한 모든 개체를 만드는 데이터 가져오기 및 벡터화 마법사를 소개했습니다. 각 단계를 자세히 살펴보려면 통합 벡터화 샘플을 사용해 보세요.

Share via