Azure Open-gegevenssets

Verbeter de nauwkeurigheid van uw machine learning modellen met openbaar beschikbare gegevenssets. Bespaar tijd op gegevensdetectie en -voorbereiding met behulp van gecureerde gegevenssets die klaar zijn voor gebruik in machine learning projecten.

Transport

Gegevensset Beschrijving
MoetanAir: AirSim Simulation Dataset Gegevens van autonome AirSim-voertuigen die zijn gegenereerd om Simultaneous Localization and Mapping (SLAM) op te lossen.
NYC Taxi & Commission - records van gele taxiritjes De gele taxiritrecords omvatten datums/tijden voor ophalen en afleveren, locaties voor ophalen en afleveren, reisafstanden, gespecificeerde tarieven, tarieftypen, betalingstypen en door de chauffeur gerapporteerde passagiersaantallen.
NYC Taxi & Commission - groene taxiritrecords De groene taxiritrecords omvatten datums/tijden voor ophalen en afleveren, locaties voor ophalen en afleveren, reisafstanden, gespecificeerde tarieven, tarieftypen, betalingstypen en door de chauffeur gerapporteerde passagiersaantallen.
NYC Taxi & Commission - For-Hire Vehicle (FHV)-reisrecords De For-Hire voertuigritrecords bevatten het basislicentienummer voor verzending en de op haaldatum, tijd en locatie-id van de taxizone.

Status en genomics

Gegevensset Beschrijving
COVID-19 Data Lake De COVID-19 Data Lake-verzameling bevat aan COVID-19 verwante gegevenssets uit verschillende bronnen en omvat traceringsgegevens voor testen en patiëntresultaten, beleid met betrekking tot social distancing, ziekenhuiscapaciteit, mobiliteit enzovoort.
COVID-19 Open Research Dataset Een gegevensset met volledige tekst en metagegevens van wetenschappelijke artikelen over COVID-19 en het coronavirus die zijn geoptimaliseerd om te kunnen worden gelezen door computers en die beschikbaar zijn voor gebruik door de wereldwijde onderzoekscommunity.
Genomics Data Lake Genomics Data Lake biedt verschillende openbare gegevenssets die u gratis kunt openen en integreren in uw genomics-analysewerkstromen en -toepassingen. De gegevenssets bevatten genoomsequenties, variantgegevens en onderwerp-/sample-metagegevens in BAM-, FASTA-, VCF- en CSV-bestandsindelingen.

Arbeids- en economie

Gegevensset Beschrijving
Statistieken over beroepsbevolking VS US Labor Force Statistics levert beroepsbevolkingsstatistieken, beroepsbevolking, participatiegraad van de beroepsbevolking en de burgerbevolking (niet-institutioneel) op leeftijd, geslacht, ras en etnische bevolkingsgroepen. in de Verenigde Staten.
Arbeidsuren en salarissen voor VS (nationaal) Het CES-programma (Current Employment Statistics) levert gedetailleerde bedrijfstakramingen voor de werkgelegenheid, uren en inkomsten van werknemers op loonlijsten in de niet-agrarische sector in de Verenigde Staten.
Arbeidsuren en salarissen voor VS (per staat) Het CES-programma (Current Employment Statistics) levert gedetailleerde bedrijfstakramingen voor de werkgelegenheid, uren en inkomsten van werknemers op loonlijsten in de niet-agrarische sector in de Verenigde Staten.
Werkloosheidsstatistieken voor VS (lokale regio) De Amerikaanse LAUS-gegevenssets (Local Area Unemployment Statistics) leveren maandelijkse en jaarlijkse gegevens over de werkgelegenheid, werkeloosheid en beroepsbevolking voor volkstellingsregio's en -afdelingen, staten, districten, grootstedelijke gebieden en vele steden in de Verenigde Staten.
US Consumer Price Index (index van de consumentenprijzen van de V.S.) De Consumer Price Index (CPI) is een meting van de gemiddelde wijziging gedurende een bepaalde periode in de prijzen die worden betaald door stedelijke consumenten voor een pakket van consumptiegoederen en services.
US Producer Price Index (index van de producentenprijzen van de V.S.): bedrijfstak De Producer Price Index (PPI) is een meting van de gemiddelde wijziging gedurende een bepaalde periode in de verkoopprijzen die nationale producenten ontvangen voor hun uitvoer.
US Producer Price Index (index van de producentenprijzen van de V.S.): producten De Producer Price Index (PPI) is een meting van de gemiddelde wijziging gedurende een bepaalde periode in de verkoopprijzen die nationale producenten ontvangen voor hun producten.

Populatie en veiligheid

Gegevensset Beschrijving
Amerikaanse bevolking, gerangschikt op district De bevolking van de Verenigde Staten, gerangschikt op geslacht en ras voor elk Amerikaanse district. Informatie afkomstig uit de volkstellingen van 2000 en 2010. Deze gegevensset is afkomstig van het United States Census Bureau.
Amerikaanse bevolking, gerangschikt op postcode De bevolking van de Verenigde Staten, gerangschikt op geslacht en ras voor elke Amerikaanse postcode. Informatie afkomstig uit de volkstelling van 2010. Deze gegevensset is afkomstig van het United States Census Bureau.
Boston Safety Data Lees over de 311-oproepen die in de stad Boston worden gemeld. Deze gegevensset wordt in Parquet-indeling opgeslagen en wordt dagelijks bijgewerkt.
Chicago Safety Data Lees gegevens over 311-oproepen gemeld in de stad Chicago. Deze gegevensset wordt in Parquet-indeling opgeslagen en wordt dagelijks bijgewerkt.
Veiligheidsgegevens voor New York City Deze gegevensset bevat alle 311-serviceaanvragen van 2010 tot heden voor New York City. Ita € ™ opgeslagen in Parquet-indeling en dagelijks bijgewerkt.
Veiligheidsgegevens in San Francisco Oproepen aan de brandweercentrale voor service- en 311-cases in San Francisco. Deze gegevensset bevat historische records die vanaf 2015 tot heden zijn verzameld.
Veiligheidsgegevens Seattle 911-meldingen voor de brandweer van Seattle. Deze gegevensset bevat historische records die vanaf 2010 tot heden zijn verzameld en wordt dagelijks bijgewerkt.

Aanvullende en algemene gegevenssets

Gegevensset Beschrijving
Diabetes De gegevensset Diabetes bevat 442 voorbeelden met 10 functies en is daarmee ideaal om aan de slag te gaan met algoritmen voor machine learning.
Gesimuleerde gegevens over DE VERKOOP VAN BOOTS Deze gegevensset is afgeleid van de DATASET van DenK en bevat extra gesimuleerde gegevens met als doel een gegevensset op te geven waarmee u eenvoudig duizenden modellen tegelijkertijd kunt trainen op Azure Machine Learning.
MNIST-database met handgeschreven cijfers De MNIST-database met handgeschreven cijfers als een trainingsset met 60.000 voorbeelden en een testset met 10.000 voorbeelden. De grootte van de cijfers is genormaliseerd en worden gecentreerd weergegeven in een afbeelding met een vaste grootte.
Microsoft News aanbevolen gegevensset Microsoft News Dataset (MIND) is een grootschalige gegevensset voor onderzoek naar nieuwsaanbevelingen. Het fungeert als een benchmark-gegevensset voor nieuwsaanbevelingen en faciliteert onderzoek op het gebied van nieuwsaanbevelingen en aanbevelingssystemen.
Feestdagen Wereldwijde gegevens over nationale feestdagen zijn afkomstig van het PyPI-feestdagenpakket en Wikipedia, voor 38 landen of regio's tussen 1970 en 2099.
Russisch: spraak-naar-tekst openen Russisch Open STT is een grootschalige open spraak-naar-tekst-gegevensset voor de Russisch taal