어떤 모델을 선택해야 하나요?

Important

  • 문서 인텔리전스 공개 미리 보기 릴리스에서는 현재 개발 중인 기능에 대한 조기 액세스를 제공합니다.
  • 기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.
  • 문서 인텔리전스 클라이언트 라이브러리의 공개 미리 보기 버전은 기본적으로 REST API 버전 2024-02-29-미리 보기로 설정됩니다.
  • 공개 미리 보기 버전 2024-02-29-미리 보기는 현재 다음 Azure 지역에서만 사용할 수 있습니다.
  • 미국 동부
  • 미국 서부2
  • 서유럽

이 콘텐츠의 적용 대상은 다음과 같습니다.확인 표시v4.0(미리 보기) | 이전 버전:파란색 확인 표시v3.1(GA)파란색 확인 표시v3.0(GA)

이 콘텐츠의 적용 대상은 다음과 같습니다.확인 표시v3.1(GA) | 최신 버전:보라색 확인 표시v4.0(미리 보기) | 이전 버전:파란색 확인 표시v3.0

이 콘텐츠의 적용 대상은 다음과 같습니다.확인 표시v3.0(GA) | 최신 버전:보라색 확인 표시v4.0(미리 보기)보라색 확인 표시v3.1

Azure AI 문서 인텔리전스는 애플리케이션에 지능형 문서 처리를 추가하고 워크플로를 최적화할 수 있는 다양한 모델을 지원합니다. 올바른 모델을 선택하는 것은 기업의 성공을 보장하는 데 필수적입니다. 이 문서에서는 사용 가능한 문서 인텔리전스 모델을 살펴보고 프로젝트에 가장 적합한 솔루션을 선택하는 방법에 대한 지침을 제공합니다.

다음 의사 결정 차트는 각 문서 인텔리전스 v3.0 지원 모델의 기능을 강조하고 애플리케이션의 요구 사항에 가장 적합한 모델을 선택하는 데 도움이 됩니다.

Important

지원되는 언어 텍스트와 기능별 필드 추출은 언어 지원 페이지를 확인합니다.

미리 학습된 문서 분석 모델

Document type 예시 추출할 데이터 최적의 솔루션
일반 문서. 계약서 또는 서신. 주로 서면 또는 인쇄된 텍스트 줄, 단어, 위치 및 검색된 언어를 추출하려고 합니다. OCR 모델 읽기
구조적 정보가 포함된 문서. 보고서 또는 연구. 서면 또는 인쇄된 텍스트 외에도 테이블, 선택 표시, 단락, 제목, 머리글 및 부제목과 같은 구조적 정보를 추출해야 합니다. 레이아웃 분석 모델
필드(키) 및 값 형식의 콘텐츠를 포함하는 구조화된 또는 반구조화된 문서입니다. 신용 신청서나 설문 조사와 같이 비즈니스나 업계에서 일반적으로 사용되는 표준화된 형식인 양식 또는 문서입니다. 사용자 지정 모델을 학습시킬 필요 없이 미리 빌드된 시나리오별 모델에서 다루지 않는 필드와 값을 추출할 수 있습니다. **선택적 쿼리 문자열 매개 변수 features=keyValuePairs가 사용하도록 설정된 모델 **

미리 학습된 시나리오별 모델

Document type 추출할 데이터 최적의 솔루션
미국 W-2 세금 양식 급여, 임금, 원천징수된 세금과 같은 주요 정보를 추출하려고 합니다. 미국 세금 W-2 모델
미국 세금 1098 양식 원금, 포인트 및 세금과 같은 모기지 이자 세부 정보를 추출하려고 합니다. 미국 세금 1098 양식
미국 세금 1098-E 양식 대출 및 이자 금액과 같은 학자금 대출 이자 세부 정보를 추출하려고 합니다. 미국 세금 1098-E 양식
미국 세금 1098T 양식 장학금 조정, 학생 상태 및 대출 정보와 같은 정규 장학금 세부 정보를 추출하려고 합니다. 미국 세금 1098-T 모드
미국 세금 1099(변형) 양식 1099 양식 및 해당 변형(A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)에서 정보를 추출하려고 합니다. 미국 세금 1099 양식
미국 세금 1040(변형) 양식 1040 양식 및 해당 변형(일정 1, 일정 2, 일정 3, 일정 8812, 일정 A, 일정 B, 일정 C, 일정 D, 일정 E, 일정 E, 일정 EIC, 일정 F, 일정 H, 일정 J, 일정 R, 일정 SE, 일정 선임)에서 정보를 추출하려고 합니다. 미국 세금 1040 모델
계약(당사자 간의 법적 계약) 당사자, 날짜 및 간격과 같은 계약 세부 정보를 추출하려고 합니다. 계약 모델
건강 보험 카드 또는 건강 보험 ID. 보험사, 멤버 ID, 처방 보장 범위, 그룹 번호 등 주요 정보를 추출하려고 합니다. 의료 보험 카드 모델
신용 또는 직불 카드 카드 번호 및 은행 이름과 같은 주요 정보 은행 카드를 추출하려고 합니다. 신용/직불 카드 모델
결혼 인증서 . 결혼 증명서에서 주요 정보를 추출하려고 합니다. 결혼 인증서 모델
청구서 또는 청구서. 고객 이름, 청구 주소, 미청구 금액과 같은 주요 정보를 추출하려고 합니다. 청구서 모델
영수증, 바우처 또는 단일 페이지 호텔 영수증. 가맹점명, 거래 일자, 거래 총액 등 주요 정보를 추출하고자 합니다. 영수증 모델
미국 운전면허증이나 국가별 여권과 같은 신분증(ID)입니다. 이름, 성, 생년월일, 주소 및 서명과 같은 주요 정보를 추출하려고 합니다. ID 문서(ID) 모델
미국 모기지 1003 . Uniform Residential Loan 애플리케이션에서 주요 정보를 추출하려고 합니다. 1003 양식 모델
미국 모기지 1008 . Uniform Underwriting and Transmittal 요약에서 키 정보를 추출하려고 합니다. 1008 양식 모델
미국 모기지 마감 공시 . 모기지 마감 공시 양식에서 주요 정보를 추출하려고 합니다. 모기지 마감 공시 양식 모델
구조화된 요소, 반구조화된 요소 및/또는 구조화되지 않은 요소가 포함된 혼합 형식 문서. 키-값 쌍, 선택 표시, 테이블, 서명 필드 및 사전 구축 또는 일반 문서 모델에서 추출하지 않은 선택된 영역을 추출할 수 있습니다. 사용자 지정 모델

  • 어떤 미리 학습된 모델을 사용할지 아직 확실하지 않은 경우 선택적 쿼리 문자열 매개 변수 features=keyValuePairs가 사용하도록 설정된 레이아웃 모델을 사용해 보세요.
  • 레이아웃 모델은 읽기 OCR 엔진을 통해 페이지, 표, 스타일, 텍스트, 줄, 단어, 위치 및 언어를 검색합니다.

사용자 지정 추출 모델

학습 집합 문서 예 최적의 솔루션
정적 레이아웃을 갖춘 구조화되고 일관된 문서. 설문지나 애플리케이션과 같은 구조화된 형태. 사용자 지정 템플릿 모델
정형, 반정형 및 비정형 문서. ● 구조화 → 설문 조사
● 반구조화 → 청구서
● 구조화되지 않음 → 서신
사용자 지정 신경망 모델
유사한 형식의 문서에 대해 각각 학습된 여러 모델의 컬렉션입니다. ● 공급 구매 주문서
● 장비 구매 주문서
● 가구 구매 주문서
모두 단일 모델로 구성됩니다.
구성형 사용자 지정 모델

사용자 지정 분류 모델

학습 집합 문서 예 최적의 솔루션
최소 두 가지 유형의 문서 양식, 문자 또는 문서 사용자 지정 분류 모델

다음 단계