azureml-opendatasets 패키지

패키지

opendatasets

Azure Open Datasets를 데이터 프레임으로 이용하고 고객 데이터를 보강하기 위한 기능이 포함되어 있습니다.

Azure Open Datasets는 기계 학습 솔루션에 시나리오별 기능을 추가하여 보다 정확한 모델을 만들 수 있는 큐레이팅된 공개 데이터 세트입니다. 이러한 공용 데이터 집합을 필터가 적용된 Spark 및 Pandas 데이터 프레임으로 변환할 수 있습니다. 일부 데이터 집합의 경우 보강자를 사용하여 공용 데이터를 데이터와 조인할 수 있습니다. 예를 들어 경도와 위도 또는 우편 번호와 시간을 기준으로 데이터를 날씨 데이터와 결합할 수 있습니다.

Azure Open Datasets에는 기계 학습 모델을 학습시키고 예측 솔루션을 보강할 수 있도록 하는 날씨, 인구 조사, 휴일, 공공 안전 및 위치에 대한 공용 도메인 데이터가 포함되어 있습니다. Open Datasets는 Microsoft Azure의 클라우드에 있으며 Azure Machine Learning에 통합됩니다. Azure Open Datasets 작업에 대한 자세한 내용은 Create datasets with Azure Open Datasets(Azure Open Datasets로 데이터 집합 생성하기)를 참조하세요.

Azure Open Datasets에 대한 일반 정보는 Azure Open Datasets Documentation(Azure Open Datasets 설명서)을 참조하세요.

모듈

country_or_region_time_customer_data

위치 및 시간 열이 있는 고객 데이터는 이 클래스를 사용하여 래핑해야 합니다.

country_or_region_time_public_data

country_or_region 및 시간 열이 있는 퍼블릭 데이터는 이 클래스로 래핑될 수 있습니다.

country_region_data

지원되는 열 클래스와 함께 위치 데이터 작업을 위한 기능이 포함되어 있습니다.

customer_data

모든 고객 데이터의 기본 클래스를 포함합니다.

location_data

지원되는 열 클래스와 함께 위치 데이터 작업을 위한 기능이 포함되어 있습니다.

location_time_customer_data

위치 및 시간 열로 고객 데이터를 래핑하는 기능이 포함되어 있습니다.

location_time_public_data

위치 및 시간 열로 퍼블릭 데이터를 래핑하기 위한 기능을 포함합니다.

open_dataset_base

표 형식의 열린 데이터 세트에 대한 기본 클래스입니다.

public_data

퍼블릭 데이터 기본 클래스를 포함합니다.

time_data

opendatasets에서 시간 데이터 및 관련 작업을 나타내는 기능이 포함되어 있습니다.

aggregator

모든 집계자의 기본 클래스를 정의합니다.

aggregator_all

집계가 수행되지 않은 경우 모든 열을 포함하기 위한 집계를 포함합니다.

aggregator_avg

집계 평균 클래스를 포함합니다.

aggregator_max

집계 최대 클래스를 포함합니다.

aggregator_min

집계 최소 클래스를 포함합니다.

aggregator_top

집계 최상위 클래스를 포함합니다.

base_blob_info

Blob 정보 기본 클래스가 포함되어 있습니다.

blob_parquet_descriptor

Blob parquet의 설명자가 포함되어 있습니다.

dataset_partition_prep

데이터 집합 파티션 준비를 지정하는 기능이 포함되어 있습니다.

파티션 준비는 NycTlcGreen 클래스와 같은 데이터 파티션이 필요한 opendatasets 클래스를 사용할 때 자동으로 발생합니다.

pandas_data_load_limit

parquet 파일이 클 때 제한 pandas 데이터가 로드되는 방식을 제어하는 기능이 포함되어 있습니다.

이 모듈의 기능을 사용하면 parquet 파일이 너무 커서 로드할 수 없는 경우 pandas 데이터를 어떻게 로드할지 제한하는 방법을 지정할 수 있습니다.

common_weather_enricher

날씨 공용 데이터로 사용자 지정 데이터를 보강하는 기능이 포함되어 있습니다.

enricher

서로 다른 세분성 및 집계를 사용하여 데이터를 함께 조인하기 위한 제네릭 보강자 클래스를 정의합니다.

이 모듈에는 정적 함수 오버로드 get_max_date_by_granularity(max_date, granularity)가 포함되어 있습니다. 여기서 세분성은 MonthGranularity, DayGranularity 또는 HourGranularity 중 하나입니다. 이러한 정적 메서드는 지정된 세분성에 따라 최대 데이터를 반환합니다.

holiday_enricher

휴일 공용 데이터로 사용자 지정 데이터를 보강하는 기능이 포함되어 있습니다.

environ

Azure Open Datasets가 사용되는 런타임 환경 클래스를 정의합니다.

이 모듈의 클래스는 Azure Open Datasets 기능이 다양한 환경에 최적화되어 있는지 확인합니다. 일반적으로 이러한 환경 클래스를 인스턴스화하거나 구현에 대해 걱정할 필요가 없습니다. 대신 get_environ 모듈 함수를 사용하여 환경을 반환합니다.

granularity

시간과 위치에 대한 세분성 정의가 포함됩니다.

세분성은 다음과 같이 구성됩니다.

Enricher 함수로 세분성을 지정하여 세분성을 사용하여 작업합니다. 예를 들어 HolidayEnricher 클래스 메서드를 사용하여 데이터를 보강하는 경우 TimeGranularity를 메서드에 대한 입력 매개 변수로 지정합니다.

country_region_selector

국가 지역 선택기 클래스가 포함되어 있습니다.

enricher_selector

위치 및 시간 선택기에 대한 기본 클래스가 포함되어 있습니다.

EnricherSelector에는 두 가지 하위 클래스가 있습니다.

EnricherSelectorLocationClosestSelectorTimeNearestSelector의 루트 클래스입니다.

location_closest_selector

위치가 가장 가까운 선택기 클래스가 포함되어 있습니다.

time_nearest_selector

시간이 가장 가까운 선택기 클래스를 포함합니다.