azureml-opendatasets Pakket

Pakketten

opendatasets

Bevat functionaliteit voor het gebruik van Azure Open Datasets als dataframes en voor het verrijken van klantgegevens.

Azure Open Datasets zijn samengestelde openbare gegevenssets die u kunt gebruiken om scenariospecifieke functies toe te voegen aan machine learning-oplossingen voor nauwkeurigere modellen. U kunt deze openbare gegevenssets converteren naar Spark- en Pandas-dataframes met toegepaste filters. Voor sommige gegevenssets kunt u een verrijker gebruiken om de openbare gegevens samen te voegen met uw gegevens. U kunt uw gegevens bijvoorbeeld samenvoegen met weergegevens op basis van lengtegraad en breedtegraad of postcode en tijd.

In Azure Open Datasets zijn gegevens over het openbare domein opgenomen voor weer, volkstelling, feestdagen, openbare veiligheid en locatie waarmee u machine learning-modellen kunt trainen en voorspellende oplossingen kunt verrijken. Open gegevenssets bevinden zich in de cloud op Microsoft Azure en zijn geïntegreerd in Azure Machine Learning. Zie Gegevenssets maken met Azure Open Datasets voor meer informatie over het werken met Azure Open Datasets.

Zie Documentatie voor Azure Open Datasets voor algemene informatie over Azure Open Datasets.

Modules

country_or_region_time_customer_data

Klantgegevens met locatie- en tijdkolommen moeten worden verpakt met behulp van deze klasse.

country_or_region_time_public_data

Openbare gegevens met country_or_region- en tijdkolommen kunnen met deze klasse worden verpakt.

country_region_data

Bevat fucntionaliteit voor het werken met locatiegegevens, met ondersteunde kolomklassen.

customer_data

Bevat de basisklasse van alle klantgegevens.

location_data

Bevat functionaliteit voor het werken met locatiegegevens, met ondersteunde kolomklassen.

location_time_customer_data

Bevat functionaliteit voor het verpakken van klantgegevens met locatie- en tijdkolommen.

location_time_public_data

Bevat functionaliteit voor het verpakken van openbare gegevens met locatie- en tijdkolommen.

open_dataset_base

Basisklasse voor geopende gegevenssets in tabelvorm.

public_data

Bevat de klasse openbare gegevensbank.

time_data

Bevat functionaliteit voor het weergeven van tijdgegevens en gerelateerde bewerkingen in opendatasets.

aggregator

Definieert de basisklasse voor alle aggregators.

aggregator_all

Bevat de aggregator voor het opnemen van alle kolommen, dat wil gezegd, wanneer er geen aggregatie wordt uitgevoerd.

aggregator_avg

Bevat de gemiddelde aggregatorklasse.

aggregator_max

Bevat de aggregator max klasse.

aggregator_min

Bevat de aggregator min klasse.

aggregator_top

Bevat de topklasse van de aggregator.

base_blob_info

Bevat de blob-infobasisklasse.

blob_parquet_descriptor

Bevat de beschrijving van blob parquet.

dataset_partition_prep

Bevat functionaliteit voor het opgeven van partitievoorbereiding van gegevenssets.

Partitievoorbereiding vindt automatisch plaats wanneer u een opendatasets klasse gebruikt waarvoor een partitie met gegevens is vereist, zoals de NycTlcGreen klasse.

pandas_data_load_limit

Bevat functionaliteit om te bepalen hoe de limiet pandas gegevens laadt wanneer Parquet-bestanden groot zijn.

Met de functionaliteit van deze module kunt u opgeven hoe u het laden van pandas-gegevens wilt beperken wanneer Parquet-bestanden te groot zijn om te laden.

common_weather_enricher

Bevat functionaliteit voor het verrijken van aangepaste gegevens met openbare weergegevens.

enricher

Definieert de algemene verrijkerklasse voor het samenvoegen van gegevens met verschillende granulariteit en aggregators.

Deze module bevat overbelasting van statische functies: get_max_date_by_granularity(max_date, granularity) waarbij granulariteit een van MonthGranularity, DayGranularityof HourGranularityis. Deze statische methoden retourneren het maximum aantal gegevens op basis van de opgegeven granulariteit.

holiday_enricher

Bevat functionaliteit voor het verrijken van aangepaste gegevens met openbare feestdagengegevens.

environ

Definieert runtime-omgevingsklassen waarin Azure Open Datasets worden gebruikt.

De klassen in deze module zorgen ervoor dat de functionaliteit van Azure Open Datasets is geoptimaliseerd voor verschillende omgevingen. Over het algemeen hoeft u deze omgevingsklassen niet te instantiëren en hoeft u zich geen zorgen te maken over de implementatie ervan. Gebruik in plaats daarvan de get_environ modulefunctie om de omgeving te retourneren.

granularity

Bevat granulariteitsdefinities voor tijd en locatie.

De granulariteiten zijn als volgt ingedeeld:

U werkt met een granulariteit door deze op te geven in een verrijkingsfunctie. Wanneer u bijvoorbeeld de HolidayEnricher klassemethoden gebruikt om gegevens te verrijken, geeft u de TimeGranularity op als invoerparameter voor de methode.

country_region_selector

Bevat de landregiokiezerklasse.

enricher_selector

Bevat de basisklassen voor locatie- en tijdkiezers.

EnricherSelector bevat twee subklassen:

De EnricherSelector is de hoofdklasse van LocationClosestSelector en TimeNearestSelector.

location_closest_selector

Bevat de locatie dichtstbijzijnde selectorklasse.

time_nearest_selector

Bevat de tijd dichtstbijzijnde selectorklasse.