Azure Open Datasets

Melhore a precisão dos seus modelos de aprendizagem automática com conjuntos de dados publicamente disponíveis. Economize tempo na descoberta e preparação de dados utilizando conjuntos de dados curados que estão prontos a ser usados em projetos de machine learning.

Transportes

Conjunto de dados Description
TartanAir: Conjunto de dados de simulação airsim Dados de veículos autónomos AirSim gerados para resolver localização e mapeamento simultâneos (SLAM).
Comissão de Táxis & Limousine - registos amarelos da viagem de táxi Os registos amarelos da viagem de táxi incluem datas/horários de recolha e entrega, locais de recolha e entrega, distâncias de viagem, tarifas, tipos de tarifas, tipos de pagamento e contagens de passageiros reportadas pelo condutor.
Comissão de Táxis & Limousine - registos de viagem de táxi verde Os registos de viagem de táxi verde incluem datas/horários de recolha e entrega, locais de recolha e entrega, distâncias de viagem, tarifas, tipos de tarifas, tipos de pagamento e contagens de passageiros reportadas pelo condutor.
Comissão de & Limousine de Táxis de NYC - registos de viagem de veículos For-Hire (FHV) Os registos de viagem For-Hire Vehicle incluem o número da licença base de despacho e a data de recolha, hora e identificação da zona de táxi.

Saúde e genómica

Conjunto de dados Description
Lago de Dados COVID-19 A coleção do Data Lake relacionada com a COVID-19 é uma coleção de conjuntos de dados relacionados com a COVID-19 provenientes de diversas origens, que abrangem dados de teste e rastreio de resultados de pacientes, política de distanciamento social, capacidade dos hospitais, mobilidade, etc.
Conjunto de dados de investigação aberta COVID-19 Um conjunto de dados de texto completo e metadados de artigos académicos sobre a COVID-19 e relacionados com o coronavírus otimizados para legibilidade automática e disponibilizados para utilização pela comunidade de investigação global.
Lago de Dados Genómica O Genomics Data Lake fornece vários conjuntos de dados públicos a que pode aceder gratuitamente e integrar-se nos seus fluxos de trabalho de análise de genómica e aplicações. Os conjuntos de dados incluem sequenciação de genomas, informações de variantes e metadados de sujeitos de experiências/exemplo nos formatos de ficheiro BAM, FASTA, VCF e CSV.

Trabalho e economia

Conjunto de dados Description
Estatísticas da Mão-de-Obra dos E.U.A. O US Labor Force Statistics fornece estatísticas de mão-de-obra, taxas de participação de mão-de-obra e de população civil não institucional por idade, género, raça e grupos étnicos. nos Estados Unidos.
Salários e Horários de Emprego a Nível Nacional nos E.U.A. O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos.
Salários e Horários de Emprego a Nível Estadual nos E.U.A. O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos.
Estatísticas de Desemprego a Nível Local nos E.U.A. Os conjuntos de dados do programa US Local Area Unemployment Statistics fornecem dados mensais e anuais relativos a emprego, desemprego e mão-de-obra para regiões e divisões do Census, estados, condados, áreas metropolitanas e muitas cidades dos Estados Unidos.
US Consumer Price Index (Índice de Preço do Consumidor dos EUA) O Índice de Preços no Consumidor (CPI) é uma medida da alteração média ao longo do tempo nos preços que os consumidores urbanos pagam para um cabaz de compras de bens e serviços de consumo.
US Producer Price Index - Industry (Índice de Preços do Produtor dos EUA - Indústria) O Índice de Preços no Produtor (IPP) é uma medida da mudança média ao longo do tempo nos preços de venda que os produtores domésticos recebem pelos seus produtos.
US Producer Price Index - Commodities (Índice de Preços do Produtor dos EUA - Matérias-primas) O Índice de Preços no Produtor (IPP) é uma medida da mudança média ao longo do tempo nos preços de venda que os produtores domésticos recebem pelos seus produtos.

População e segurança

Conjunto de dados Description
População dos EUA por Condado A população dos EUA por género e etnia de cada condado dos EUA extraída do Census de decénio de 2000 e 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos.
População dos EUA por Código Postal A população dos EUA por género e etnia de cada código postal dos EUA extraído do Census de decénio de 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos.
Dados de Segurança de Boston Ler dados relativos a chamadas ao 311 reportadas à cidade de Boston. Este conjunto de dados é armazenado no formato Parquet e atualizado diariamente.
Dados de Segurança de Chicago Ler dados relativos a chamadas ao 311 reportadas à cidade de Chicago. Este conjunto de dados é armazenado no formato Parquet e atualizado diariamente.
Dados de Segurança da Cidade de Nova Iorque Este conjunto de dados contém todos os pedidos de emergência de 311 de Nova Iorque desde 2010 até hoje. It’s armazenados em formato Parquet e atualizados diariamente.
Dados de Segurança de São Francisco Chamadas para os Bombeiros para emergências e incidentes de 311 em São Francisco. Este conjunto de dados contém registos históricos acumulados desde 2015 até ao presente.
Dados de Segurança de Seattle Despachos do 112 dos Bombeiros de Seattle. Este conjunto de dados é atualizado diariamente e contém registos históricos acumulados desde 2010 até ao presente

Conjuntos de dados suplementares e comuns

Conjunto de dados Description
Diabetes O conjunto de dados Diabetes tem 442 amostras com 10 funcionalidades, o que faz com que seja ideal para começar a trabalhar com algoritmos de aprendizagem automática.
OJ Vendas Dados Simulados Este conjunto de dados é derivado do conjunto de dados OJ da Dominick e inclui dados simulados extra com o objetivo de fornecer um conjunto de dados que facilita a formação simultaneamente de milhares de modelos em Azure Machine Learning.
Base de dados MNIST de dígitos manuscritos A base de dados MNIST de dígitos manuscritos tem um conjunto de preparação com 60 000 exemplos e um conjunto de testes com 10 000 exemplos. O tamanho dos dígitos foi normalizado e centrado numa imagem de tamanho fixo.
Conjunto de dados de recomendação do Microsoft News O Microsoft News Dataset (MIND) é um conjunto de dados em larga escala para pesquisa de recomendação de notícias. Serve como um conjunto de dados de referência para recomendação de notícias, e facilita a pesquisa em sistemas de recomendação de notícias e recomendadores.
Feriados Dados de feriados nacionais de todo o mundo obtidos com base nos pacotes de férias PyPI e na Wikipedia, abrangendo 38 países ou regiões de 1970 a 2099.
Discurso aberto russo ao texto Russian Open STT é um discurso aberto em larga escala para conjunto de dados de texto para a língua russa