opendatasets Pacchetto

Contiene funzionalità per l'utilizzo di set di dati aperti di Azure come dataframe e per l'arricchimento dei dati dei clienti.

Azure Open Datasets include set di dati pubblici curati che è possibile usare per aggiungere caratteristiche specifiche dello scenario alle soluzioni di Machine Learning e realizzare modelli più accurati. È possibile convertire questi set di dati pubblici in dataframe Spark e pandas con filtri applicati. Per alcuni set di dati, è possibile usare un arricchimento per aggiungere i dati pubblici ai dati. Ad esempio, è possibile aggiungere i dati con i dati meteo in base alla longitudine e alla latitudine o al codice postale e al tempo.

Inclusi nei set di dati aperti di Azure sono dati di dominio pubblico per meteo, censimento, festività, sicurezza pubblica e posizione che consentono di eseguire il training di modelli di Machine Learning e di arricchire le soluzioni predittive. I set di dati aperti si trovano nel cloud in Microsoft Azure e sono integrati in Azure Machine Learning. Per altre informazioni sull'uso di Set di dati aperti di Azure, vedere Creare set di dati con Set di dati aperti di Azure.

Per informazioni generali sui set di dati aperti di Azure, vedere Documentazione dei set di dati aperti di Azure.

Pacchetti

accessories

Contiene funzionalità che consentono di identificare i tipi di colonna nei dati, tra cui lat/long, zipcode e time.

aggregators

Contiene funzionalità per la definizione della modalità di aggregazione dei dati uniti.

Gli aggregatori definiscono operazioni che possono essere eseguite sul risultato dell'unione dei dati da due set di dati. Ad esempio, quando si usa una delle classi in enrichers, è possibile specificare un aggregatore come parte dell'operazione. Se non è necessaria alcuna aggregazione, usare AggregatorAll.

data

Contiene il file init per le risorse dati nel modulo publicholidays.

dataaccess

Contiene funzionalità che forniscono metodi di accesso ai file BLOB.

Quando si usa una classe del opendatasets pacchetto come la ChicagoSafety classe , le classi e le funzioni dataaccess in questo pacchetto vengono usate internamente. In generale, non è necessario usare direttamente la funzionalità nel pacchetto dataaccess.

enrichers

Contiene funzionalità per l'arricchimento e l'unione di dati da due set di dati.

In genere, gli arricchimentori uniscono i dati provenienti da origini diverse. In particolare, gli enricher consentono di unire i dati (dati dei clienti) con i dati di Azure Open Datasets o di altri set di dati pubblici.

granularities

Contiene funzionalità che definiscono le misure di tempo e distanza usate dagli enricher.

Le granularità sono misure di tempo o distanza usate per enrichers l'arricchimento dei dati (join). Esistono granularità temporali, ad esempio oraria o giornaliera, e granularità della posizione, ad esempio la distanza più vicina.

selectors

Contiene funzionalità per la selezione e l'aggiunta di dati da un set di dati del cliente con dati da un set di dati pubblico.

I selettore definiscono la logica che consente di arricchire i dati con set di dati pubblici in base alle misure di tempo e distanza. Ad esempio, con un selettore è possibile trovare dati pubblici da aggiungere ai dati in base alla posizione più vicina oppure arrotondando contemporaneamente la granularità.

Specificare i selettore durante l'uso di una delle classi nel enrichers pacchetto.

Moduli

environ

Definisce le classi di ambiente di runtime in cui vengono usati i set di dati aperti di Azure.

Le classi in questo modulo assicurano che la funzionalità Set di dati aperti di Azure sia ottimizzata per ambienti diversi. In generale, non è necessario creare un'istanza di queste classi di ambiente o preoccuparsi dell'implementazione. Usare invece la get_environ funzione module per restituire l'ambiente.

Classi

BingCOVID19Data

Rappresenta il set di dati Bing COVID-19.

Questi set di dati contengono i dati di Bing COVID-19 provenienti da più fonti attendibili e affidabili, tra cui l'Organizzazione mondiale della sanità (OMS), i Centri per il controllo e la prevenzione delle malattie (CDC), i reparti sanitari pubblici nazionali e statali, BNO News, 24/7 Wall St., e Wikipedia. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Dati DI BING COVID-19 nel catalogo dei set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

BostonSafety

Rappresenta il set di dati pubblico boston safety.

Questo set di dati contiene 311 chiamate segnalate alla città di Boston. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Boston Safety Data nel catalogo di Set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

COVID19OpenResearch

Rappresenta il set di dati open research COVID-19.

Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, modi diversi per accedere al set di dati ed esempi, vedere COVID-19 Open Research Dataset nel catalogo set di dati open di Microsoft Azure.

COVIDTrackingProject

Rappresenta il set di dati del progetto di rilevamento COVID.

Questo set di dati contiene il set di dati covid tracking Project che fornisce i numeri più recenti sui test, i casi confermati, le ospedalizzazioni e i risultati dei pazienti da ogni stato e territorio degli Stati Uniti. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, modi diversi per accedere al set di dati ed esempi, vedere Set di dati del progetto di rilevamento COVID nel catalogo dei set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

ChicagoSafety

Rappresenta il set di dati pubblico di Chicago Safety.

Questo set di dati contiene 311 richieste di servizio dalla città di Chicago, inclusi i reclami cronologici relativi al codice sanitario, i fori di pentola segnalati e i problemi di luce stradale. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, modi diversi per accedere al set di dati ed esempi, vedere Chicago Safety Data nel catalogo dei set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

CitySafety

Classe di sicurezza city: si tratta di una classe padre che può essere ereditata da ogni singola città.

Inizializzare i campi di filtro.

Diabetes

Rappresenta il set di dati pubblico Sample Diabetes.

Il set di dati Diabetes include 442 esempi con 10 funzionalità ed è quindi ottimale per iniziare a usare gli algoritmi di Machine Learning. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Esempio: Diabetes nel catalogo di Set di dati aperti di Microsoft Azure.

EcdcCOVIDCases

Rappresenta il Centro europeo per la prevenzione e il controllo delle malattie (ECDC) Covid-19 Case.

Questo set di dati contiene dal Centro europeo per la prevenzione e il controllo delle malattie (ECDC). Ogni riga/voce contiene il numero di nuovi casi segnalati al giorno e per paese/area geografica. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Centro europeo per la prevenzione e il controllo delle malattie (ECDC) Covid-19 Cases nel catalogo di Microsoft Azure Open Datasets.

Inizializzare i campi di filtro.

MNIST

Rappresenta il set di dati MNIST di cifre scritte a mano.

Il database MNIST di cifre scritte a mano ha un set di training di 60.000 esempi e un set di test di 10.000 esempi. Le dimensioni delle cifre sono state normalizzate e le cifre sono state inserite al centro in un'immagine di dimensioni fisse. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Il database MNIST di cifre scritte a mano nel catalogo dei set di dati aperti di Microsoft Azure.

Per un esempio di uso del set di dati MNIST, vedere l'esercitazione Eseguire il training dei modelli di classificazione delle immagini con i dati MNIST e scikit-learn usando Azure Machine Learning.

NoParameterOpenDatasetBase

Classe di base del lavoro degli Stati Uniti.

Inizializzare.

NoaaGfsWeather

Rappresenta il set di dati National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS).

Questo set di dati contiene dati sulle previsioni meteo orarie statunitensi di 15 giorni (ad esempio, temperatura, precipitazioni, vento) prodotti dal Global Forecast System (GFS) di National Oceanic and Atmospheric Administration (NOAA). Per informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere NOAA Global Forecast System nel catalogo di Set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

NoaaIsdWeather

Rappresenta l'ISD (National Oceanic and Atmospheric Administration) Integrated Surface Dataset (NOAA).

Questo set di dati contiene dati relativi alla cronologia meteo oraria in tutto il mondo (ad esempio temperatura, precipitazioni, vento) originati dalla National Oceanic and Atmospheric Administration (NOAA). Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, modi diversi per accedere al set di dati ed esempi, vedere NOAA Integrated Surface Data nel catalogo dei set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

NycSafety

Rappresenta il set di dati pubblico New York City Safety.

Questo set di dati contiene tutte le richieste di assistenza effettuate al numero 311 nella città di New York dal 2010 a oggi. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere New York City Safety Data nel catalogo di Microsoft Azure Open Datasets.

Inizializzare i campi di filtro.

NycTaxiBase

Classe New York Taxi: classe padre che può essere ereditata.

Inizializzare i campi di filtro.

NycTlcFhv

Rappresenta il set di dati pubblico nyc Taxi & Lim Commission.

Questo set di dati contiene For-Hire record di viaggio di Vechicle (FHV), che includono i campi che acquisisce il numero di licenza di base di invio e l'ID della posizione della zona di pick-up, ora e taxi (file di forma riportato di seguito). Questi record sono generati dagli invii dei record delle corse FHV effettuati dalle basi. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Nyc Taxi & Lim Commission - For-Hire Vehicle (FHV) trip records nel catalogo di Microsoft Azure Open Datasets.

Inizializzare i campi di filtro.

NycTlcGreen

Rappresenta il set di dati pubblico relativo alle corse in taxi verdi di NYC Taxi & Lim Commission.

I record relativi alle corse dei taxi verdi includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere NYC Taxi & Lim Commission - record di corse in taxi verdi nel catalogo di Set di dati aperti di Microsoft Azure.

Per un esempio di uso della classe NycTlcGreen, vedere l'esercitazione Usare Machine Learning automatizzato per stimare le tariffe dei taxi.

Inizializzare i campi di filtro.

NycTlcYellow

Rappresenta il set di dati pubblico delle corse in taxi di NYC & Lim Commission.

I record relativi alle corse dei taxi gialli includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere NYC Taxi & Lim Commission - record delle corse dei taxi gialli nel catalogo di Set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

OjSalesSimulated

Rappresenta il set di dati simulato Sample Orange Juice Sales.

Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, modi diversi per accedere al set di dati e esempi, vedere Esempio: DATI simulati di VENDITE DI GU nel catalogo Set di dati aperti di Microsoft Azure.

PublicHolidays

Rappresenta il set di dati pubblico festività pubbliche.

Questo set di dati contiene dati festivi in tutto il mondo generati dal pacchetto di vacanze PyPI e Wikipedia, che copre 38 paesi o aree geografiche dal 1970 al 2099. Ogni riga contiene informazioni sulle festività per una data, un paese o un'area specifica e indica se per la maggior parte delle persone è previsto il congedo retribuito. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Festività pubbliche nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

PublicHolidaysOffline

Rappresenta il set di dati pubblico Public Holidays Offline.

Per una descrizione delle righe, vedere Festività pubbliche nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

SampleDatasetBase

Rappresenta la classe Base del set di dati di esempio.

SanFranciscoSafety

Rappresenta il set di dati pubblico di San Francisco Safety.

Questo set di dati contiene chiamate al reparto incendio per il servizio e 311 casi a San Francisco. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Dati sulla sicurezza di San Francisco nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

SeattleSafety

Rappresenta il set di dati pubblico di Seattle Safety.

Questo set di dati contiene i dati di invio di Seattle Fire Department 911. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Seattle Safety Data nel catalogo Di set di dati aperti di Microsoft Azure.

Inizializzare i campi di filtro.

UsLaborCPI

Rappresenta il set di dati pubblico us Consumer Price Index public.

Il Consumer Price Index (CPI) è una misura della variazione media nel tempo dei prezzi pagati dai consumatori urbani per un paniere di beni di consumo e servizi. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, modi diversi per accedere al set di dati e esempi, vedere Us Consumer Price Index nel catalogo Di set di dati aperti di Microsoft Azure.

Inizializzare.

UsLaborEHENational

Rappresenta il set di dati pubblico delle ore di occupazione nazionali degli Stati Uniti e degli utili.

Questo set di dati contiene stime del settore relative all'occupazione, alle ore e agli utili dei lavoratori nelle Stati Uniti. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Us National Employment Hours e Guadagnare nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare.

UsLaborEHEState

Rappresenta il set di dati pubblico us State Employment Hours and Utili.

Questo set di dati contiene stime del settore relative all'occupazione, alle ore e agli utili dei lavoratori nelle Stati Uniti. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Us State Employment Hours and Earning nel catalogo Set di dati open di Microsoft Azure.

Inizializzare.

UsLaborLAUS

Rappresenta il set di dati pubblico delle statistiche locali dell'area locale degli Stati Uniti.

Questo set di dati contiene dati mensili e annuali sull'occupazione, la disoccupazione e la forza lavoro per le regioni e le divisioni di censimento, Stati, contee, aree metropolitane e molte città del Stati Uniti. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Statistiche sulla disoccupazione dell'area locale degli Stati Uniti nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare.

UsLaborLFS

Rappresenta il set di dati pubblico us Labor Force Statistics.

Questo set di dati contiene dati sulla forza lavoro nella Stati Uniti, inclusi i tassi di partecipazione alle forze di lavoro e la popolazione civile non stituzionale in base all'età, al sesso, alla razza e ai gruppi etnici. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Us Labor Force Statistics nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare.

UsLaborPPICommodity

Rappresenta il set di dati pubblico us Producer Price Index (PPI) - Materie prime.

Il Producer Price Index (PPI), ovvero l'indice dei prezzi alla produzione, è un indicatore della variazione media nel tempo dei prezzi di vendita ricevuti dai produttori nazionali per i beni prodotti. I prezzi inclusi nel PPI corrispondono ai prezzi della prima transazione commerciale per i prodotti e servizi compresi nel paniere. Questo set di dati contiene ppI per singoli prodotti e gruppi di prodotti rilasciati mensilmente. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Us Producer Price Index - Commodities nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare.

UsLaborPPIIndustry

Rappresenta il set di dati pubblico del settore us Producer Price Index (PPI).

Il Producer Price Index (PPI), ovvero l'indice dei prezzi alla produzione, è un indicatore della variazione media nel tempo dei prezzi di vendita ricevuti dai produttori nazionali per i beni prodotti. I prezzi inclusi nel PPI corrispondono ai prezzi della prima transazione commerciale per i prodotti e servizi compresi nel paniere. Questo set di dati contiene PPIs per un'ampia gamma di settori industriali dell'economia statunitense. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Us Producer Price Index - Industry nel catalogo Set di dati aperti di Microsoft Azure.

Per informazioni generali sui set di dati aperti di Azure, vedere Documentazione dei set di dati aperti di Azure.

Inizializzare.

UsPopulationCounty

Rappresenta il set di dati pubblico us Population by County.

Questo set di dati contiene la popolazione statunitense in base al sesso e alla razza per ogni contea statunitense proveniente dal censimento del 2000 e del 2010 decenniale. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Us Population by County nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare.

UsPopulationZip

Rappresenta il set di dati pubblico us Population by Zip Code.

Questo set di dati contiene la popolazione statunitense in base al sesso e alla razza per ogni codice POSTALE statunitense sorgente dal censimento decenniale 2010. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati e esempi, vedere Us Population by ZIP Code nel catalogo Set di dati aperti di Microsoft Azure.

Inizializzare.