Azure 및 CluedIn을 사용하여 마스터 데이터 관리

Azure Data Factory
Azure SQL Database
Azure Synapse Analytics
Azure Monitor

이CluedIn 아키텍처는 수집되는 데이터의 품질에 대한 메트릭을 비즈니스에 제공하고, 더러운 데이터를 지능적으로 감지하고, 데이터 엔지니어 및 데이터 관리자가 정리할 준비를 합니다. 독점적인 유사 논리 기계 학습 알고리즘은 비즈니스 사용자와 큐레이터가 데이터에 레이블을 지정하고 시스템에 시간이 지남에 따라 데이터 품질 문제를 식별, 수정, 방지하도록 교육하는 데 도움이 됩니다.

아키텍처

Diagram showing CluedIn architectural structure and data flow.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

CluedIn 솔루션은 AKS(Azure Kubernetes Service)의 Kubernetes 클러스터에서 실행되는 다양한 기능 계층으로 구성됩니다. .NET Core 마이크로 서비스 애플리케이션의 조합은 데이터 수집, 스트리밍 데이터 처리, 큐, 사용자 인터페이스와 같은 고유한 함수를 처리합니다.

  1. CluedIn 크롤링 계층은 Azure Data Factory 커넥터를 통해 Azure SQL DB, Azure Cosmos DB, PostgreSQL, Salesforce 데이터베이스와 같은 고객 클라우드 원본에서 데이터를 수집합니다.

    CluedIn은 SAP, Oracle, IBM, Hadoop과 같은 온-프레미스 액세스 가능 시스템에서 입력을 받거나 온-프레미스 에이전트를 사용하여 비공용 데이터를 크롤링할 수 있습니다.

  2. 엔터프라이즈 서비스 버스는 관리 엔드포인트용 포트 5672 및 15672를 통해 연결됩니다. 크롤러는 버스에 데이터를 보내고 처리 계층은 포트 5672를 통해 버스의 데이터를 사용합니다.

  3. 트랜잭션 로그 계층은 처리 계층의 결과를 가져옵니다.

  4. 지속성 계층에서 데이터베이스는 트랜잭션 로그의 데이터를 사용하고 이를 유지하여 여러 데이터 저장소에서 최종 일관성을 제공합니다. 모든 저장소는 HA(고가용성) 모드로 실행됩니다.

    데이터 가상화와 달리 CluedIn 지속성 계층은 원본 데이터의 일부를 수집하고 데이터의 가장 높은 충실도 버전과 해당 구조를 유지합니다. 이 높은 충실도는 CluedIn Data Fabric이 모든 형식 또는 모델에서 데이터에 대한 비즈니스 요청을 처리할 수 있음을 의미합니다.

  5. 데이터 추상화 계층은 각 저장소의 포트를 통해 다른 데이터 저장소에 연결됩니다.

  6. 데이터 액세스는 포트 443을 통한 GraphQL, REST, WebSockets 호출을 통해 진행됩니다. GraphQL 및 REST는 끌어오기 모델을 사용하고 WebSocket은 푸시 모델을 사용합니다.

    CluedIn은 제한 및 CSRF(교차 사이트 요청 위조) 방지를 통해 데이터 액세스를 보호합니다.

  7. CluedIn ASP.NET Core 웹 애플리케이션은 포트 443을 통해 REST 및 GraphQL 호출의 조합을 통해 통신합니다.

    브라우저에서 애플리케이션으로의 모든 통신은 단일 퍼블릭 IP 주소만 필요한 수신 정의 집합을 사용합니다. 프로덕션 환경에서 모든 통신은 SSL(보안 소켓 계층)을 통해 실행됩니다.

  8. CluedIn 애플리케이션은 인사이트를 생성하기 위해 Power BI 및 Azure Synapse Analytics와 같은 분석 서비스에 정리되고 처리된 데이터를 제공합니다. 시스템은 모든 데이터를 백업하고 SQL 또는 Redis 데이터베이스에 저장합니다.

구성 요소

CluedIn은 컨테이너화된 애플리케이션을 배포하고 관리하기 위한 고가용성, 보안, 완전 관리형 Kubernetes 서비스인 AKS(Azure Kubernetes Service)에서 실행됩니다. AKS는 서버리스 Kubernetes, 통합 CI/CD, 엔터프라이즈급 보안 및 거버넌스를 제공합니다.

CluedIn은 다음을 비롯한 많은 데이터베이스 원본 및 서비스를 사용하고 지원합니다.

  • Azure SQL Database는 항상 최신 상태이며 요청 시 리소스 크기를 자동으로 스케일링할 수 있는 관리형 관계형 클라우드 데이터베이스 서비스입니다.
  • Azure SQL Managed Instance는 기존 SQL Server 애플리케이션과의 광범위한 SQL Server 엔진 호환성을 위해 사용됩니다. SQL Managed Instance는 탄력적 스케일링, 통합 관리, 클라우드 청구 모델과 같은 Azure 클라우드 이점을 온-프레미스 데이터베이스 인프라에 제공합니다.
  • Azure Cosmos DB는 최신 앱을 개발하기 위한 완전 관리형 비관계형 NoSQL 서버리스 데이터베이스입니다.
  • Azure Data Lake는 스케일링 가능한 데이터 스토리지 및 분석 서비스입니다.
  • Azure Data Factory는 데이터를 대규모로 수집, 준비, 변환하기 위한 완전 관리형 서버리스 데이터 통합 솔루션입니다. CluedIn은 90개 이상의 기본 제공 Data Factory 커넥터를 사용하여 Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow, 모든 Azure 데이터 서비스와 같은 원본에서 데이터를 가져옵니다.

CluedIn은 다음을 비롯한 많은 분석 앱 및 서비스에 처리되고 관리되는 데이터를 제공합니다.

  • Azure Databricks는 빠르고 쉬우며 협업이 가능한 Apache Spark 기반 분석 서비스입니다.
  • Azure Synapse Analytics는 엔터프라이즈 데이터 웨어하우징과 빅 데이터 분석을 결합한 무제한 분석 서비스입니다.
  • Log Analytics는 Azure Monitor 로그 데이터에서 쿼리를 편집, 실행, 분석하는 Azure Portal 도구입니다.
  • Azure Cognitive Services는 지능형 앱을 빌드하기 위한 포괄적인 AI 서비스 및 인식 API 제품군입니다.
  • Power BI는 대화형 시각화와 비즈니스 인텔리전스를 사용하기 쉬운 보고서 만들기 인터페이스와 결합하는 Microsoft 비즈니스 분석 서비스입니다.

시나리오 정보

최신 엔터프라이즈 기업은 데이터에 많은 프로세스와 프로젝트를 기반으로 하지만 원시 데이터는 소비를 위해 준비해야 합니다. 고급 분석에서 기계 학습에 이르는 데이터 사용 사례에는 모두 유사한 데이터 준비 프로세스와 주의가 필요합니다.

  1. 데이터 프로젝트는 데이터 검색부터 시작하여 데이터가 어디에 있는지, 어떤 시스템을 사용하는지 결정합니다.
  2. 그런 다음, 데이터 통합은 여러 데이터 원본을 통합 또는 연결된 데이터 집합으로 통합합니다.
  3. 다음 단계는 머신이 균일하고 일관되며 충실도가 높은 방식으로 데이터를 처리할 수 있도록 데이터를 정규화, 표준화, 조화, 정리하는 것입니다.
  4. 마지막으로 비즈니스 요구 사항에 맞게 데이터를 쉽게 사용할 수 있어야 합니다.

이러한 프로세스 중에 거버넌스는 명확한 소유권, 전체 추적 가능성, 데이터 원본과 처리와 사용에 대한 감사 내역을 사용하여 데이터 제어 및 개인 정보 보호를 보장해야 합니다.

CluedIn 플랫폼은 이러한 데이터 관리 프로세스와 핵심을 일관된 엔드투엔드 MDM(마스터 데이터 관리) 솔루션으로 캡슐화합니다. CluedIn은 클래식 ETL(추출, 변환, 로드) 또는 ELT(추출, 로드, 변환) 모델보다 더 나은 결과를 생성하는 최종 연결이라는 데이터 통합 기술을 사용합니다. 최종 연결은 GraphQL 쿼리를 사용하여 여러 사일로 처리된 데이터 원본에서 데이터를 원활하게 혼합합니다.

최종 연결을 사용하면 다른 시스템에 진입하거나 로드할 때 데이터가 조인되거나 혼합되지 않습니다. 대신 CluedIn은 데이터를 있는 그대로 로드하고 메타데이터를 사용하여 레코드에 태그를 지정합니다. 결국 동일한 태그가 있는 레코드는 그래프에서 관계를 병합하거나 작성합니다.

이 정교한 데이터 병합 기술은 데이터 기반 솔루션의 기초를 제공합니다. CluedIn Data Fabric은 데이터를 정리, 준비, 모델, 제어, 보강, 중복 제거, 카탈로그하는 파이프라인에 통합하여 비즈니스 용도로 쉽게 사용할 수 있고 액세스할 수 있도록 합니다.

CluedIn은 수집되는 데이터의 품질에 대한 메트릭을 비즈니스에 제공하고, 더러운 데이터를 지능적으로 감지하고, 데이터 엔지니어 및 데이터 관리자가 정리할 준비를 합니다. 독점적인 유사 논리 기계 학습 알고리즘은 비즈니스 사용자와 큐레이터가 데이터에 레이블을 지정하고 시스템에 시간이 지남에 따라 데이터 품질 문제를 식별, 수정, 방지하도록 교육하는 데 도움이 됩니다.

CluedIn에는 안전하고 자신 있게 데이터를 사용할 수 있도록 엔터프라이즈급 거버넌스가 포함되어 있습니다. CluedIn은 정리되고 관리되는 데이터를 Power BI, Azure Databricks, Azure Synapse Analytics 또는 Azure Cognitive Services와 같은 분석 시스템으로 직접 스트리밍하여 나머지 비즈니스에서 쉽게 사용할 수 있도록 할 수 있습니다. 자동 스케일링에 대한 기본 지원은 Azure의 기능을 활용하여 가장 큰 데이터 워크로드에 스케일링 가능한 환경을 제공합니다.

잠재적인 사용 사례

단일 데이터 보기 빌드

  • CluedIn의 의미 체계 모델링으로 인해 기존의 접근 방식에 비해 마스터 데이터의 단일 보기를 훨씬 쉽게 만들 수 있습니다. CluedIn의 고객은 CluedIn을 사용하여 가장 중요한 비즈니스 데이터에 대한 연결되고 과거적이고 고품질의 뷰를 구축하고 있습니다. CluedIn은 사람, 회사, 공급업체, 제품과 같은 클래식 마스터 도메인의 마스터링을 지원할 뿐만 아니라 파일, 메일, 이벤트 등과 같은 구조화되지 않은 도메인에 더해 다양한 도메인을 끝없이 지원합니다. 깨끗하고, 보강되고, 관리되고, 품질 제어되고, 카탈로그된 마스터 데이터의 중앙 집중식 리포지토리가 필요한 경우 CluedIn은 사용 사례에 적합합니다.

데이터 패브릭

  • CluedIn은 2020년 Gartner Cool Vendor로, 10개, 100개, 1,000개에 달하는 데이터 원본 간에 데이터를 통합 데이터 허브로 오케스트레이션할 수 있기 때문입니다. 다양한 데이터 원본에서 데이터를 쉽게 랭글해야 하는 경우 CluedIn을 데이터 패브릭으로 사용하여 이를 달성할 수 있습니다. 이를 통해 데이터를 다운스트림 소비자로 이동하는 데이터를 사전에 정리하고 마스터할 수 있는 스트리밍 인프라를 데이터에 제공할 수 있습니다.

마스터 데이터의 정교한 병합 및 연결

  • CluedIn의 고유한 데이터 모델링 접근 방식은 그래프 데이터베이스를 활용하므로 복잡한 데이터를 병합하고 단순하게 연결할 수 있습니다. 기존의 접근 방식과 달리 CluedIn은 이 문제를 해결하기 위해 추가 기계 학습 및 그래프 분석을 추가하여 매우 높은 정밀도로 레코드를 병합, 일치, 연결합니다.

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

안정성

안정성은 애플리케이션이 고객에 대한 약속을 충족할 수 있도록 합니다. 자세한 내용은 안정성 핵심 요소 개요를 참조하세요.

  • CluedIn은 자동 일일 데이터베이스 백업을 수행하고 기본적으로 30일 동안 장기 스토리지에 유지합니다. 전체 플랫폼은 모든 하위 시스템에 대한 백업을 유지하는 중복 내결함성 스택을 기반으로 합니다. 시계 모니터링 시스템을 반올림하면 서비스가 가능한 한 오염되지 않도록 합니다. CluedIn은 인프라 중복에 대한 업계 표준 사례를 따릅니다.

  • CluedIn은 원본 버전이 아닌 데이터의 표현만 표시하고 저장합니다. CluedIn이 파괴적인 데이터 침입을 감지하면 서버에서 CluedIn 데이터를 일시적으로 초기화할 수 있습니다. 침입이 가라앉으면 CluedIn은 데이터를 다시 수집하여 원래 상태로 돌아갑니다.

  • 모든 데이터 저장소는 고가용성 모드에서 실행됩니다.

확장성

  • CluedIn은 Docker 컨테이너에서 실행되며 Kubernetes를 사용하여 애플리케이션의 다양한 부분을 호스트하고 오케스트레이션합니다. 이 아키텍처는 CluedIn이 탄력적 환경에서 잘 작동하며 필요한 크기 및 인프라로 자동으로 스케일링될 수 있음을 의미합니다.

  • 자동 스케일링에 대한 기본 지원은 Azure의 기능을 활용하여 가장 큰 데이터 워크로드에 스케일링 가능한 환경을 제공합니다.

  • 스키마 없는 그래프 모델링은 원본 데이터의 데이터 모델을 자동으로 유추합니다. 새 데이터 원본은 명시적으로 통합되지 않고 다른 모든 데이터 원본에 자동으로 연결됩니다. 데이터 원본의 수는 통합 복잡성을 증가하지 않고 무한히 스케일링할 수 있습니다.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

  • CluedIn 보안은 Azure Key Vault 보안 키 제어와 Azure Monitor 액세스 추적 및 로깅을 사용하여 Azure RBAC를 통해 다양한 서비스에 대한 액세스 권한을 부여하고 제어합니다.

  • CluedIn은 인증된 사용자 계정 외에도 SSO(Single Sign-On) 및 ID 프레임워크도 지원합니다. CluedIn 애플리케이션에 대한 요청은 사용자 ID와 상관 관계가 없는 암호화된 액세스 토큰을 사용합니다.

  • CluedIn은 여러 방화벽 및 프록시 계층 뒤에 저장된 데이터 표현을 관리하고 고유한 키 집합으로 인증합니다.

  • CluedIn은 지원되는 데이터 원본의 암호화 수준보다 강력하거나 같은 256비트 AES 암호화를 사용하여 모든 원본 데이터를 저장합니다.

  • 제한 및 CSRF 방지는 데이터 액세스를 보호합니다.

DevOps

  • CluedIn은 Azure Pipelines의 CI/CD(연속 통합 및 지속적인 업데이트) 파이프라인을 사용하여 AKS 환경에 대한 배포 및 롤링 업데이트를 처리합니다.

  • CluedIn은 단위, 통합, 기능 테스트를 지원하여 데이터가 예상대로 변환되도록 합니다. 가상화된 처리 파이프라인은 샌드박스 테스트를 위해 메모리에서 실행될 수 있습니다. 프로덕션 등급 어설션은 데이터 문제를 디버그하고 추적하는 데 도움이 될 수 있습니다.

  • 테스트 및 프로덕션 환경의 경우 CluedIn은 Kubernetes 클러스터에 CluedIn을 신속하게 설치하는 Helm 패키지 관리자 차트를 제공합니다. 완전히 스크립팅된 데이터 배포 프로세스는 설치, 테스트, 롤아웃을 지원합니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

CluedIn에 대한 가격은 개방적이고 투명합니다. 해당 웹 사이트에서 가격 책정을 볼 수 있습니다.

Azure 크기 조정 및 평가판 시작

웹 사이트에서 CluedIn의 7일 평가판을 시작할 수 있습니다. 이 평가판은 다양한 크기의 환경에 대해 미리 빌드된 Azure 추정치를 사용하여 Azure 호스팅 비용의 범위를 지정하는 데 도움이 될 수 있습니다.

시나리오 배포

  • Docker를 사용하여 개발 및 평가 목적으로 CluedIn을 배포하려면 Docker를 사용한 CluedIn을 참조하세요.

  • Kubernetes 클러스터에 CluedIn을 신속하게 설치하려면 Kubernetes를 사용한 CluedIn을 참조하세요. Helm 차트는 CluedIn 서버, 웹 사이트, 스토리지 및 큐와 같은 기타 필수 서비스를 설치합니다.

다음 단계