azureml-opendatasets 패키지

참조

패키지

Azure Open Datasets를 데이터 프레임으로 이용하고 고객 데이터를 보강하기 위한 기능이 포함되어 있습니다.

Azure Open Datasets는 기계 학습 솔루션에 시나리오별 기능을 추가하여 보다 정확한 모델을 만들 수 있는 큐레이팅된 공개 데이터 세트입니다. 이러한 공용 데이터 집합을 필터가 적용된 Spark 및 Pandas 데이터 프레임으로 변환할 수 있습니다. 일부 데이터 집합의 경우 보강자를 사용하여 공용 데이터를 데이터와 조인할 수 있습니다. 예를 들어 경도와 위도 또는 우편 번호와 시간을 기준으로 데이터를 날씨 데이터와 결합할 수 있습니다.

Azure Open Datasets에는 기계 학습 모델을 학습시키고 예측 솔루션을 보강할 수 있도록 하는 날씨, 인구 조사, 휴일, 공공 안전 및 위치에 대한 공용 도메인 데이터가 포함되어 있습니다. Open Datasets는 Microsoft Azure의 클라우드에 있으며 Azure Machine Learning에 통합됩니다. Azure Open Datasets 작업에 대한 자세한 내용은 Create datasets with Azure Open Datasets(Azure Open Datasets로 데이터 집합 생성하기)를 참조하세요.

Azure Open Datasets에 대한 일반 정보는 Azure Open Datasets Documentation(Azure Open Datasets 설명서)을 참조하세요.

모듈

country_or_region_time_customer_data	위치 및 시간 열이 있는 고객 데이터는 이 클래스를 사용하여 래핑해야 합니다.
country_or_region_time_public_data	country_or_region 및 시간 열이 있는 퍼블릭 데이터는 이 클래스로 래핑될 수 있습니다.
country_region_data	지원되는 열 클래스와 함께 위치 데이터 작업을 위한 기능이 포함되어 있습니다.
customer_data	모든 고객 데이터의 기본 클래스를 포함합니다.
location_data	지원되는 열 클래스와 함께 위치 데이터 작업을 위한 기능이 포함되어 있습니다.
location_time_customer_data	위치 및 시간 열로 고객 데이터를 래핑하는 기능이 포함되어 있습니다.
location_time_public_data	위치 및 시간 열로 퍼블릭 데이터를 래핑하기 위한 기능을 포함합니다.
open_dataset_base	표 형식의 열린 데이터 세트에 대한 기본 클래스입니다.
public_data	퍼블릭 데이터 기본 클래스를 포함합니다.
time_data	opendatasets에서 시간 데이터 및 관련 작업을 나타내는 기능이 포함되어 있습니다.
aggregator	모든 집계자의 기본 클래스를 정의합니다.
aggregator_all	집계가 수행되지 않은 경우 모든 열을 포함하기 위한 집계를 포함합니다.
aggregator_avg	집계 평균 클래스를 포함합니다.
aggregator_max	집계 최대 클래스를 포함합니다.
aggregator_min	집계 최소 클래스를 포함합니다.
aggregator_top	집계 최상위 클래스를 포함합니다.
base_blob_info	Blob 정보 기본 클래스가 포함되어 있습니다.
blob_parquet_descriptor	Blob parquet의 설명자가 포함되어 있습니다.
dataset_partition_prep	데이터 집합 파티션 준비를 지정하는 기능이 포함되어 있습니다. 파티션 준비는 NycTlcGreen 클래스와 같은 데이터 파티션이 필요한 opendatasets 클래스를 사용할 때 자동으로 발생합니다.
pandas_data_load_limit	parquet 파일이 클 때 제한 pandas 데이터가 로드되는 방식을 제어하는 기능이 포함되어 있습니다. 이 모듈의 기능을 사용하면 parquet 파일이 너무 커서 로드할 수 없는 경우 pandas 데이터를 어떻게 로드할지 제한하는 방법을 지정할 수 있습니다.
common_weather_enricher	날씨 공용 데이터로 사용자 지정 데이터를 보강하는 기능이 포함되어 있습니다.
enricher	서로 다른 세분성 및 집계를 사용하여 데이터를 함께 조인하기 위한 제네릭 보강자 클래스를 정의합니다. 이 모듈에는 정적 함수 오버로드 `get_max_date_by_granularity(max_date, granularity)`가 포함되어 있습니다. 여기서 세분성은 MonthGranularity, DayGranularity 또는 HourGranularity 중 하나입니다. 이러한 정적 메서드는 지정된 세분성에 따라 최대 데이터를 반환합니다.
holiday_enricher	휴일 공용 데이터로 사용자 지정 데이터를 보강하는 기능이 포함되어 있습니다.
environ	Azure Open Datasets가 사용되는 런타임 환경 클래스를 정의합니다. 이 모듈의 클래스는 Azure Open Datasets 기능이 다양한 환경에 최적화되어 있는지 확인합니다. 일반적으로 이러한 환경 클래스를 인스턴스화하거나 구현에 대해 걱정할 필요가 없습니다. 대신 `get_environ` 모듈 함수를 사용하여 환경을 반환합니다.
granularity	시간과 위치에 대한 세분성 정의가 포함됩니다. 세분성은 다음과 같이 구성됩니다. LocationGranularity LocationClosestGranularity TimeGranularity HourGranularity DayGranularity MonthGranularity Enricher 함수로 세분성을 지정하여 세분성을 사용하여 작업합니다. 예를 들어 HolidayEnricher 클래스 메서드를 사용하여 데이터를 보강하는 경우 TimeGranularity를 메서드에 대한 입력 매개 변수로 지정합니다.
country_region_selector	국가 지역 선택기 클래스가 포함되어 있습니다.
enricher_selector	위치 및 시간 선택기에 대한 기본 클래스가 포함되어 있습니다. EnricherSelector에는 두 가지 하위 클래스가 있습니다. EnricherLocationSelector - 구형 거리의 기본 계산을 제공합니다. EnricherTimeSelector - `round_to` 래퍼 함수를 제공합니다. EnricherSelector는 LocationClosestSelector 및 TimeNearestSelector의 루트 클래스입니다.
location_closest_selector	위치가 가장 가까운 선택기 클래스가 포함되어 있습니다.
time_nearest_selector	시간이 가장 가까운 선택기 클래스를 포함합니다.

azureml-opendatasets 패키지

패키지

모듈

피드백

피드백

추가 리소스