이미지 및 텍스트 처리를 통한 AI 보강

Azure App Service
Azure Blob Storage
Azure AI Search
Azure 기능

솔루션 아이디어

이 문서는 솔루션 아이디어입니다. 잠재적인 사용 사례, 대체 서비스, 구현 고려 사항 또는 가격 책정 지침과 같은 추가 정보로 콘텐츠를 확장하려면 GitHub 피드백을 제공하여 알려 주세요.

이 문서에서는 이미지 처리, 자연어 처리 및 도메인별 데이터를 캡처하는 사용자 지정 기술을 사용하여 텍스트 및 이미지 문서를 보강하는 솔루션을 제시합니다. AI 보강을 통한 Azure Cognitive Search는 관련 콘텐츠를 대규모로 식별하고 탐색하는 데 도움이 될 수 있습니다. 이 솔루션은 AI 보강을 사용하여 원래의 복잡하고 구조화되지 않은 JFK 암살 기록(JFK 파일) 데이터 세트에서 의미를 추출합니다.

아키텍처

Diagram that shows Azure Cognitive Search architecture to convert unstructured into structured data.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

위의 다이어그램은 Azure Cognitive Search 기술 파이프라인을 통해 구조화되지 않은 JFK 파일 데이터 세트를 전달하여 구조화되고 인덱싱 가능한 데이터를 생성하는 프로세스를 보여 줍니다.

  1. 문서 및 이미지와 같은 Azure Blob Storage의 구조화되지 않은 데이터는 Azure Cognitive Search로 수집됩니다.
  2. 문서 크래킹 단계는 데이터에서 이미지와 텍스트를 추출한 다음 콘텐츠를 보강하여 인덱싱 프로세스를 시작합니다. 이 프로세스에서 발생하는 보강 단계는 선택한 기술의 데이터 및 형식에 따라 다릅니다.
  3. Computer Vision 및 Language Service API를 기반으로 하는 기본 제공 기술은 이미지 OCR(광학 인식), 이미지 분석, 텍스트 번역, 엔터티 인식 및 전체 텍스트 검색을 포함한 AI 보강을 지원합니다.
  4. 사용자 지정 기술은 더 복잡한 AI 모델 또는 서비스가 필요한 시나리오를 지원합니다. 예를 들면 Forms Recognizer, Azure Machine Learning 모델 및 Azure Functions가 있습니다.
  5. 보강 프로세스 후 인덱서는 보강되고 인덱스가 생성된 문서가 포함된 검색 인덱스에 출력을 저장합니다. 전체 텍스트 쿼리 및 기타 쿼리 양식에서 이 인덱스를 사용할 수 있습니다.
  6. 보강된 문서는 지식 저장소로 프로젝션할 수도 있으며 지식 마이닝 또는 데이터 과학과 같은 다운스트림 앱에서 사용할 수 있습니다.
  7. 쿼리는 검색 인덱스의 풍부한 콘텐츠에 액세스합니다. 인덱스는 사용자 지정 분석기, 유사 항목 검색 쿼리, 필터 및 쿼리 관련성을 조정하기 위한 점수 매기기 프로필을 지원합니다.
  8. Blob Storage 또는 Azure Table Storage에 연결하는 모든 애플리케이션은 지식 저장소에 액세스할 수 있습니다.

구성 요소

Azure Cognitive Search는 다른 Azure 구성 요소와 함께 작동하여 이 솔루션을 제공합니다.

Azure Cognitive Search는 이 솔루션에서 콘텐츠를 인덱스화하고 사용자 환경을 강화합니다. Azure Cognitive Search는 사전 빌드된 인지 기술을 콘텐츠에 적용할 수 있으며 확장성 메커니즘은 특정 보강 변환을 위한 사용자 지정 기술을 추가할 수 있습니다.

Azure Computer Vision

Azure Computer Vision텍스트 인식을 사용하여 이미지에서 텍스트 정보를 추출하고 인식합니다. Read API는 최신 OCR 인식 모델을 사용하며 크고 텍스트가 많은 문서와 노이즈가 많은 이미지에 최적화되어 있습니다.

레거시 OCR API는 대용량 문서에 최적화되어 있지 않지만 더 많은 언어를 지원합니다. OCR 결과는 검사 및 이미지 품질에 따라 다를 수 있습니다. 현재 솔루션 아이디어는 OCR을 사용하여 hOCR 형식으로 데이터를 생성합니다.

Azure Cognitive Service for Language

Azure Cognitive Service for LanguageNER(명명된 엔터티 인식), 핵심 구 추출전체 텍스트 검색과 같은 텍스트 분석 기능을 사용하여 구조화되지 않은 문서에서 텍스트 정보를 추출합니다.

Azure Storage

Azure Blob Storage는 HTTPS를 통해 전 세계 어디에서나 액세스할 수 있는 데이터용 REST 기반 개체 스토리지입니다. Blob Storage를 사용하여 세상에 공개적으로 표시하거나 애플리케이션 데이터를 비공개적으로 저장할 수 있습니다. Blob Storage는 텍스트나 그래픽과 같은 대량의 구조화되지 않은 데이터에 이상적입니다.

Azure Table Storage는 가용성, 확장성, 구조화 또는 반구조화 NoSQL 데이터를 클라우드에 저장합니다.

Azure 기능

Azure Functions는 인프라를 명시적으로 프로비전하거나 관리할 필요 없이 이벤트 트리거 코드의 작은 조각을 실행할 수 있는 서버리스 컴퓨팅 서비스입니다. 이 솔루션은 Azure Functions 메서드를 사용하여 CIA Cryptonyms 목록을 JFK 암살 기록에 사용자 지정 기술로 적용합니다.

Azure App Service

이 솔루션 아이디어는 또한 Azure App Service에서 독립형 웹앱을 빌드하여 인덱스를 테스트, 시연, 검색하고 보강되고 인덱스가 생성된 문서의 연결을 탐색합니다.

시나리오 정보

구조화되지 않은 대규모 데이터 세트에는 타자기 및 손으로 쓴 메모, 사진 및 다이어그램, 표준 검색 솔루션이 구문 분석할 수 없는 기타 구조화되지 않은 데이터가 포함될 수 있습니다. JFK 암살 기록에는 1963년 JFK 암살에 대한 CIA 조사에 관한 34,000페이지 이상의 문서가 포함되어 있습니다.

JFK Files 샘플 프로젝트온라인 데모는 특정 Azure Cognitive Search 사용 사례를 보여 줍니다. 이 솔루션 아이디어는 모든 시나리오에 대한 프레임워크 또는 확장 가능한 아키텍처가 아니라 일반적인 지침과 예를 제공하기 위한 것입니다. 코드 프로젝트 및 데모는 추출된 이미지에 대한 공용 웹 사이트 및 공개적으로 읽을 수 있는 스토리지 컨테이너를 만들므로 비공용 데이터에 이 솔루션을 사용하면 안 됩니다.

Azure Cognitive Search의 AI 보강은 이미지, Blob 및 JFK 파일과 같은 기타 구조화되지 않은 데이터 원본에서 검색 가능하고 인덱싱 가능한 텍스트를 추출하고 향상시킬 수 있습니다. AI 보강은 Cognitive Services Computer VisionCognitive Service for Language API의 선행 학습된 기계 학습 기술 집합을 사용합니다. 또한 CIA Cryptonyms와 같은 도메인별 데이터에 대한 특수 처리를 추가하기 위해 사용자 지정 기술을 만들고 첨부할 수 있습니다. 그런 다음 Azure Cognitive Search는 해당 컨텍스트를 인덱싱하고 검색할 수 있습니다.

이 솔루션의 Azure Cognitive Search 기술은 다음 범주에 속합니다.

  • 이미지를 처리합니다. 기본 제공된 텍스트 추출이미지 분석 기술에는 개체 및 얼굴 감지, 태그 및 캡션 생성, 유명인 및 랜드마크 식별이 포함됩니다. 이러한 기술은 Azure Cognitive Search의 쿼리 기능을 사용하여 쿼리 가능한 이미지 콘텐츠의 텍스트 표현을 만듭니다. 문서 크래킹은 텍스트가 아닌 원본에서 텍스트 콘텐츠를 추출하거나 만드는 과정입니다.

  • 자연어 처리. 엔터티 인식, 언어 인식, 핵심 구 추출과 같은 기본 제공 기술은 구조화되지 않은 텍스트를 인덱스의 검색 및 필터링 가능한 필드에 매핑합니다.

  • 사용자 지정 기술은 Azure Cognitive Search를 확장하여 특정 보강 변환을 콘텐츠에 적용합니다. 사용자 지정 웹 API 기술을 통해 사용자 지정 기술에 대한 인터페이스를 지정합니다.

잠재적인 사용 사례

  • 검색 및 데이터 과학 앱에서 구조화되지 않은 텍스트 및 이미지 콘텐츠의 가치와 유용성을 높입니다.
  • 사용자 지정 기술을 사용하여 오픈 소스, 타사 또는 자사 코드를 인덱싱 파이프라인에 통합합니다.
  • 검사한 JPG, PNG 또는 비트맵 문서를 전체 텍스트로 검사할 수 있습니다.
  • 이미지와 텍스트가 결합된 PDF의 경우 표준 PDF 텍스트 추출보다 더 나은 결과를 생성합니다. 일부 검사 및 네이티브 PDF 형식은 Azure Cognitive Search에서 올바르게 구문 분석되지 않을 수 있습니다.
  • 더 큰 구조화되지 않은 또는 반구조화된 문서에 숨겨져 있는 본질적으로 의미 있는 원시 콘텐츠 또는 컨텍스트에서 새로운 정보를 만듭니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 이 문서를 처음에 작성한 기여자는 다음과 같습니다.

보안 주체 작성자:

비공용 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계

이 솔루션에 대한 자세한 정보

제품 설명서 읽기:

학습 경로를 시도합니다.

관련 아키텍처 및 지침을 참조하세요.