azureml-opendatasets Pakket
Pakketten
opendatasets |
Bevat functionaliteit voor het gebruik van Azure Open Datasets als dataframes en voor het verrijken van klantgegevens. Azure Open Datasets zijn samengestelde openbare gegevenssets die u kunt gebruiken om scenariospecifieke functies toe te voegen aan machine learning-oplossingen voor nauwkeurigere modellen. U kunt deze openbare gegevenssets converteren naar Spark- en Pandas-dataframes met toegepaste filters. Voor sommige gegevenssets kunt u een verrijker gebruiken om de openbare gegevens samen te voegen met uw gegevens. U kunt uw gegevens bijvoorbeeld samenvoegen met weergegevens op basis van lengtegraad en breedtegraad of postcode en tijd. In Azure Open Datasets zijn gegevens over het openbare domein opgenomen voor weer, volkstelling, feestdagen, openbare veiligheid en locatie waarmee u machine learning-modellen kunt trainen en voorspellende oplossingen kunt verrijken. Open gegevenssets bevinden zich in de cloud op Microsoft Azure en zijn geïntegreerd in Azure Machine Learning. Zie Gegevenssets maken met Azure Open Datasets voor meer informatie over het werken met Azure Open Datasets. Zie Documentatie voor Azure Open Datasets voor algemene informatie over Azure Open Datasets. |
Modules
country_or_region_time_customer_data |
Klantgegevens met locatie- en tijdkolommen moeten worden verpakt met behulp van deze klasse. |
country_or_region_time_public_data |
Openbare gegevens met country_or_region- en tijdkolommen kunnen met deze klasse worden verpakt. |
country_region_data |
Bevat fucntionaliteit voor het werken met locatiegegevens, met ondersteunde kolomklassen. |
customer_data |
Bevat de basisklasse van alle klantgegevens. |
location_data |
Bevat functionaliteit voor het werken met locatiegegevens, met ondersteunde kolomklassen. |
location_time_customer_data |
Bevat functionaliteit voor het verpakken van klantgegevens met locatie- en tijdkolommen. |
location_time_public_data |
Bevat functionaliteit voor het verpakken van openbare gegevens met locatie- en tijdkolommen. |
open_dataset_base |
Basisklasse voor geopende gegevenssets in tabelvorm. |
public_data |
Bevat de klasse openbare gegevensbank. |
time_data |
Bevat functionaliteit voor het weergeven van tijdgegevens en gerelateerde bewerkingen in opendatasets. |
aggregator |
Definieert de basisklasse voor alle aggregators. |
aggregator_all |
Bevat de aggregator voor het opnemen van alle kolommen, dat wil gezegd, wanneer er geen aggregatie wordt uitgevoerd. |
aggregator_avg |
Bevat de gemiddelde aggregatorklasse. |
aggregator_max |
Bevat de aggregator max klasse. |
aggregator_min |
Bevat de aggregator min klasse. |
aggregator_top |
Bevat de topklasse van de aggregator. |
base_blob_info |
Bevat de blob-infobasisklasse. |
blob_parquet_descriptor |
Bevat de beschrijving van blob parquet. |
dataset_partition_prep |
Bevat functionaliteit voor het opgeven van partitievoorbereiding van gegevenssets. Partitievoorbereiding vindt automatisch plaats wanneer u een opendatasets klasse gebruikt waarvoor een partitie met gegevens is vereist, zoals de NycTlcGreen klasse. |
pandas_data_load_limit |
Bevat functionaliteit om te bepalen hoe de limiet pandas gegevens laadt wanneer Parquet-bestanden groot zijn. Met de functionaliteit van deze module kunt u opgeven hoe u het laden van pandas-gegevens wilt beperken wanneer Parquet-bestanden te groot zijn om te laden. |
common_weather_enricher |
Bevat functionaliteit voor het verrijken van aangepaste gegevens met openbare weergegevens. |
enricher |
Definieert de algemene verrijkerklasse voor het samenvoegen van gegevens met verschillende granulariteit en aggregators. Deze module bevat overbelasting van statische functies: |
holiday_enricher |
Bevat functionaliteit voor het verrijken van aangepaste gegevens met openbare feestdagengegevens. |
environ |
Definieert runtime-omgevingsklassen waarin Azure Open Datasets worden gebruikt. De klassen in deze module zorgen ervoor dat de functionaliteit van Azure Open Datasets is geoptimaliseerd voor verschillende omgevingen.
Over het algemeen hoeft u deze omgevingsklassen niet te instantiëren en hoeft u zich geen zorgen te maken over de implementatie ervan.
Gebruik in plaats daarvan de |
granularity |
Bevat granulariteitsdefinities voor tijd en locatie. De granulariteiten zijn als volgt ingedeeld: U werkt met een granulariteit door deze op te geven in een verrijkingsfunctie. Wanneer u bijvoorbeeld de HolidayEnricher klassemethoden gebruikt om gegevens te verrijken, geeft u de TimeGranularity op als invoerparameter voor de methode. |
country_region_selector |
Bevat de landregiokiezerklasse. |
enricher_selector |
Bevat de basisklassen voor locatie- en tijdkiezers. EnricherSelector bevat twee subklassen:
De EnricherSelector is de hoofdklasse van LocationClosestSelector en TimeNearestSelector. |
location_closest_selector |
Bevat de locatie dichtstbijzijnde selectorklasse. |
time_nearest_selector |
Bevat de tijd dichtstbijzijnde selectorklasse. |
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor