빅 데이터 처리를 위한 단계 이해

5분

데이터 레이크는 광범위한 빅 데이터 아키텍처에서 기본 역할을 수행합니다. 이러한 아키텍처에서는 다음을 만들 수 있습니다.

엔터프라이즈 데이터 웨어하우스입니다.
빅 데이터에 대한 고급 분석
실시간 분석 솔루션

모두 아키텍처에 공통된 빅 데이터 솔루션을 처리하는 네 가지 단계는 다음과 같습니다.

수집 - 수집 단계에서는 원본 데이터를 가져오는 데 사용되는 기술과 프로세스를 식별합니다. 이 데이터는 데이터 레이크에 저장해야 하는 파일, 로그 및 다른 형식의 비정형 데이터에서 가져올 수 있습니다. 사용되는 기술은 데이터가 전송되는 빈도에 따라 달라집니다. 예를 들어 데이터 일괄 처리 이동의 경우 Azure Synapse Analytics 또는 Azure Data Factory의 파이프라인이 사용하기에 가장 적합한 기술일 수 있습니다. 실시간 데이터 수집의 경우 HDInsight용 Apache Kafka 또는 Stream Analytics가 적절한 선택일 수 있습니다.
저장 - 저장 단계에서는 수집된 데이터를 배치할 위치를 식별합니다. Azure Data Lake Storage Gen2는 일반적으로 사용되는 빅 데이터 처리 기술과 호환되는 안전하고 확장 가능한 스토리지 솔루션을 제공합니다.
준비 및 학습 - 준비 및 학습 단계에서는 데이터 준비와 기계 학습 솔루션에 대한 모델 학습 및 채점을 수행하는 데 사용되는 기술을 식별합니다. 이 단계에서 사용되는 일반적인 기술은 Azure Synapse Analytics, Azure Databricks, Azure HDInsight 또는 Azure Machine Learning Services입니다.
모델 및 제공 - 마지막으로 모델 및 제공 단계에는 사용자에게 데이터를 제공하는 기술이 사용됩니다. 이러한 기술에는 Microsoft Power BI와 같은 시각화 도구 또는 Azure Synapse Analytics와 같은 분석 데이터 저장소가 포함될 수 있습니다. 비즈니스 요구 사항에 따라 다수의 기술을 조합하여 사용하는 경우가 많습니다.

계속

피드백