azureml-opendatasets 패키지
패키지
opendatasets |
Azure Open Datasets를 데이터 프레임으로 이용하고 고객 데이터를 보강하기 위한 기능이 포함되어 있습니다. Azure Open Datasets는 기계 학습 솔루션에 시나리오별 기능을 추가하여 보다 정확한 모델을 만들 수 있는 큐레이팅된 공개 데이터 세트입니다. 이러한 공용 데이터 집합을 필터가 적용된 Spark 및 Pandas 데이터 프레임으로 변환할 수 있습니다. 일부 데이터 집합의 경우 보강자를 사용하여 공용 데이터를 데이터와 조인할 수 있습니다. 예를 들어 경도와 위도 또는 우편 번호와 시간을 기준으로 데이터를 날씨 데이터와 결합할 수 있습니다. Azure Open Datasets에는 기계 학습 모델을 학습시키고 예측 솔루션을 보강할 수 있도록 하는 날씨, 인구 조사, 휴일, 공공 안전 및 위치에 대한 공용 도메인 데이터가 포함되어 있습니다. Open Datasets는 Microsoft Azure의 클라우드에 있으며 Azure Machine Learning에 통합됩니다. Azure Open Datasets 작업에 대한 자세한 내용은 Create datasets with Azure Open Datasets(Azure Open Datasets로 데이터 집합 생성하기)를 참조하세요. Azure Open Datasets에 대한 일반 정보는 Azure Open Datasets Documentation(Azure Open Datasets 설명서)을 참조하세요. |
모듈
country_or_region_time_customer_data |
위치 및 시간 열이 있는 고객 데이터는 이 클래스를 사용하여 래핑해야 합니다. |
country_or_region_time_public_data |
country_or_region 및 시간 열이 있는 퍼블릭 데이터는 이 클래스로 래핑될 수 있습니다. |
country_region_data |
지원되는 열 클래스와 함께 위치 데이터 작업을 위한 기능이 포함되어 있습니다. |
customer_data |
모든 고객 데이터의 기본 클래스를 포함합니다. |
location_data |
지원되는 열 클래스와 함께 위치 데이터 작업을 위한 기능이 포함되어 있습니다. |
location_time_customer_data |
위치 및 시간 열로 고객 데이터를 래핑하는 기능이 포함되어 있습니다. |
location_time_public_data |
위치 및 시간 열로 퍼블릭 데이터를 래핑하기 위한 기능을 포함합니다. |
open_dataset_base |
표 형식의 열린 데이터 세트에 대한 기본 클래스입니다. |
public_data |
퍼블릭 데이터 기본 클래스를 포함합니다. |
time_data |
opendatasets에서 시간 데이터 및 관련 작업을 나타내는 기능이 포함되어 있습니다. |
aggregator |
모든 집계자의 기본 클래스를 정의합니다. |
aggregator_all |
집계가 수행되지 않은 경우 모든 열을 포함하기 위한 집계를 포함합니다. |
aggregator_avg |
집계 평균 클래스를 포함합니다. |
aggregator_max |
집계 최대 클래스를 포함합니다. |
aggregator_min |
집계 최소 클래스를 포함합니다. |
aggregator_top |
집계 최상위 클래스를 포함합니다. |
base_blob_info |
Blob 정보 기본 클래스가 포함되어 있습니다. |
blob_parquet_descriptor |
Blob parquet의 설명자가 포함되어 있습니다. |
dataset_partition_prep |
데이터 집합 파티션 준비를 지정하는 기능이 포함되어 있습니다. 파티션 준비는 NycTlcGreen 클래스와 같은 데이터 파티션이 필요한 opendatasets 클래스를 사용할 때 자동으로 발생합니다. |
pandas_data_load_limit |
parquet 파일이 클 때 제한 pandas 데이터가 로드되는 방식을 제어하는 기능이 포함되어 있습니다. 이 모듈의 기능을 사용하면 parquet 파일이 너무 커서 로드할 수 없는 경우 pandas 데이터를 어떻게 로드할지 제한하는 방법을 지정할 수 있습니다. |
common_weather_enricher |
날씨 공용 데이터로 사용자 지정 데이터를 보강하는 기능이 포함되어 있습니다. |
enricher |
서로 다른 세분성 및 집계를 사용하여 데이터를 함께 조인하기 위한 제네릭 보강자 클래스를 정의합니다. 이 모듈에는 정적 함수 오버로드 |
holiday_enricher |
휴일 공용 데이터로 사용자 지정 데이터를 보강하는 기능이 포함되어 있습니다. |
environ |
Azure Open Datasets가 사용되는 런타임 환경 클래스를 정의합니다. 이 모듈의 클래스는 Azure Open Datasets 기능이 다양한 환경에 최적화되어 있는지 확인합니다.
일반적으로 이러한 환경 클래스를 인스턴스화하거나 구현에 대해 걱정할 필요가 없습니다.
대신 |
granularity |
시간과 위치에 대한 세분성 정의가 포함됩니다. 세분성은 다음과 같이 구성됩니다. Enricher 함수로 세분성을 지정하여 세분성을 사용하여 작업합니다. 예를 들어 HolidayEnricher 클래스 메서드를 사용하여 데이터를 보강하는 경우 TimeGranularity를 메서드에 대한 입력 매개 변수로 지정합니다. |
country_region_selector |
국가 지역 선택기 클래스가 포함되어 있습니다. |
enricher_selector |
위치 및 시간 선택기에 대한 기본 클래스가 포함되어 있습니다. EnricherSelector에는 두 가지 하위 클래스가 있습니다.
EnricherSelector는 LocationClosestSelector 및 TimeNearestSelector의 루트 클래스입니다. |
location_closest_selector |
위치가 가장 가까운 선택기 클래스가 포함되어 있습니다. |
time_nearest_selector |
시간이 가장 가까운 선택기 클래스를 포함합니다. |
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기