Usar os conjuntos de dados de amostra no Machine Learning Studio (clássico)

APLICA-SE A:Aplica-se a. Machine Learning Studio (clássico) Não se aplica a.Azure Machine Learning

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Ao criar um workspace no Machine Learning Studio (clássico), diversos conjuntos de dados de exemplo e experimentos são incluídos por padrão. Muitos desses conjuntos de dados de exemplo são usados pelos modelos de exemplo da Galeria de IA do Azure. Outros são incluídos como exemplos de vários tipos de dados usados no aprendizado de máquina.

Alguns desses conjuntos de dados estão disponíveis no armazenamento de Blobs do Azure. A tabela a seguir fornece um link direto para esses conjuntos de dados. É possível usar esses conjuntos de dados em seus experimentos usando o módulo Importar Dados.

O restante desses conjuntos de dados de exemplo está disponível no workspace em Conjuntos de dados salvos. Você pode encontrá-lo na paleta de módulo à esquerda da tela de experimento no Machine Learning Studio (clássico). Você pode usar qualquer um desses conjuntos de dados em seu próprio teste arrastando-o para a tela do teste.

Conjunto de dados

Nome do conjunto de dados Descrição do conjunto de dados
Conjunto de dados de classificação binária de receita no recenseamento adulto Um subconjunto do banco de dados do recenseamento de 1994, usando adultos em fase de trabalho, com idade acima de 16 anos com um índice de receita ajustado de > 100.

Uso: classificar pessoas usando dados demográficos para prever se uma pessoa recebe acima de 50 mil por ano.

Pesquisa Relacionada: Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Conjunto de dados de códigos do aeroporto Códigos de aeroporto dos EUA.

Este conjunto de dados contém uma linha para cada aeroporto dos EUA, fornecendo o número de ID do aeroporto e o nome junto com a cidade do local e estado.
Dados de preço de automóvel (Brutos) Informações sobre automóveis por marca e modelo, incluindo o preço, recursos como número de cilindradas e MPG, bem como uma pontuação de risco de seguro.

A pontuação de risco é inicialmente associada com preço automático. Depois ela é ajustada ao risco real em um processo conhecido pelos atuários como valor simbólico. Um valor de +3 indica que o automóvel apresenta risco e um valor de -3 indica que ele provavelmente é seguro.

Uso: prever a pontuação de risco por recursos, usando a regressão ou a classificação multivariada.

Pesquisa relacionada: Schlimmer, J.C. (1987). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Conjunto de dados UCI de locação de bicicletas Conjunto de dados UCI Bike Rental que é baseado em dados reais da empresa Capital Bikeshare que mantém uma rede de aluguel de bicicletas em Washington DC.

O conjunto de dados possui uma linha por cada hora de cada dia em 2011 e 2012, no total de 17.379 linhas. O intervalo de aluguéis de bicicletas por hora é de 1 a 977.
Imagem RGB de Bil Gates Arquivo de imagem publicamente disponível convertido para dados CSV.

O código para converter a imagem é fornecido na página de detalhes do modelo Quantização de cores usando o clustering K-Means.
Dados de doação de sangue Um subconjunto de dados do banco de dados de doadores de sangue do Centro de Serviços de Transfusão de Sangue da Cidade de Hsin-Chu, Taiwan.

Os dados do doador incluem os meses desde a última doação e a frequência, ou o número total de doações, data da última doação e a quantidade de sangue doado.

Uso: o objetivo é prever, por meio de classificação, se o doador doou sangue em março de 2007, em que 1 indica um doador durante o período de meta e 0, um não doador.

Pesquisa Relacionada: Yeh, I.C., (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang, e Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Dados de câncer de mama Um dos três conjuntos de dados relacionados a câncer fornecidos pelo Instituto de Oncologia que aparece frequentemente na literatura de aprendizado de máquina. Ele combina informações de diagnóstico com recursos de análise de laboratório de aproximadamente 300 amostras de tecido.

Uso: classificar o tipo de câncer, com base em 9 atributos, alguns dos quais são lineares e outros, categóricos.

Pesquisa relacionada: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Recursos de câncer de mama O conjunto de dados contém informações de 102 mil regiões suspeitas (candidatas) de imagens de raios-X, cada uma descrita por 117 recursos. Os recursos são proprietários e seu significado não será revelado por criadores de conjunto de dados (Siemens Healthcare).
Informações de Câncer de Mama O conjunto de dados contém informações adicionais sobre cada região suspeita da imagem de raio-X. Cada exemplo fornece informações (por exemplo, rótulo, ID de paciente, coordenadas de patch em relação à imagem inteira) sobre o número da linha correspondente no conjunto de dados de recursos de câncer de mama. Cada paciente tem um número de exemplos. Para pacientes que têm um câncer, alguns exemplos são positivos e outros negativos. Para pacientes que não têm câncer, todos os exemplos são negativos. O conjunto de dados tem 102 mil exemplos. O conjunto de dados é tendencioso, 0,6% dos pontos são positivos e o restante é negativo. O conjunto de dados foi disponibilizado pela Siemens Healthcare.
Rótulos de apetência CRM compartilhados Rótulos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train_appetency.labels).
Rótulos de variação CRM compartilhados Rótulos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train_churn.labels).
Conjunto de dados CRM compartilhado Estes dados foram obtidos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train.data.zip).

Esse conjunto de dados contém 50 mil clientes da empresa francesa de telecomunicações Orange. Cada cliente possui 230 recursos anônimos, dos quais 190 são numéricos e 40 categóricos. Os recursos são muito esparsos.
Rótulos de vendas agregadas CRM compartilhados Rótulos do desafio de previsão de relacionamento do cliente KDD Cup 2009 (orange_large_train_upselling.labels).
Dados de regressão de eficiência de energia Uma coleção de perfis de energia simulados, com base em 12 formatos de construções diferentes. Os edifícios são diferenciados por oito recursos. O que inclui uma área envidraçada, a distribuição de área envidraçada e orientação.

Uso: usar a regressão ou a classificação para prever a classificação de eficiência de energia com base em uma das duas respostas de valor real. Para classificação de multiclasse, a variável da resposta é arredondada para o número inteiro mais próximo.

Pesquisa Relacionada: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Dados de atrasos de voo Dados de desempenho pontual do voo do passageiro obtidos da coleção de dados TranStats do Departamento de Transportes dos EUA (On-Time).

O conjunto de dados abrange o período de abril a outubro de 2013. Antes de ser carregado no Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte maneira:
  • O conjunto de dados foi filtrado para cobrir os 70 aeroportos mais movimentados dos EUA continentais.
  • Os voos cancelados foram rotulados como atrasados por mais de 15 minutos
  • Voos desviados foram retirados.
  • As seguintes colunas foram selecionadas: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Desempenho pontual de voo (Bruto) Registros de pousos e decolagens nos Estados Unidos desde outubro de 2011.

Uso: Prever atrasos nos voos.

Pesquisa relacionada: do Departamento de Transporte dos EUA https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Dados de incêndios florestais Contém dados de clima, como índices de temperatura e umidade e velocidade do vento. Os dados foram extraídos de uma área do nordeste de Portugal, combinados com os registros de incêndios florestais.

Uso: essa é uma tarefa de regressão difícil, em que o objetivo é prever a área queimada de incêndios florestais.

Pesquisa Relacionada: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

[Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos e J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponível em: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Conjunto de dados do cartão de crédito alemão UCI O conjunto de dados UCI Statlog (cartão de crédito alemão) (Statlog+German+Credit+Data), usando o arquivo german.data.

O conjunto de dados classifica pessoas, descritas como um conjunto de atributos, como baixos ou altos riscos de crédito. Cada exemplo representa uma pessoa. Há 20 recursos, ambos numéricos e categóricos, e um rótulo binário (o valor de risco de crédito). Entradas de risco de crédito alto têm o rótulo = 2, entradas de risco de crédito baixo têm o rótulo = 1. O custo de classificar incorretamente um exemplo de risco baixo como alto é 1, considerando que o custo de classificar incorretamente um exemplo de risco alto como baixo é 5.
Títulos de filmes no IMDB O conjunto de dados contém informações sobre filmes que foram classificados em tweets do Twitter: ID do filme no IMDB, nome do filme, gênero e ano de produção. Há 17 mil filmes no conjunto de dados. O conjunto de dados foi introduzido no artigo “S. Dooms, T. De Pessemier e L. Martens. MovieTweetings: um conjunto de dados de classificação de filmes coletado do Twitter. Oficina de crowdsourcing and computação humana para sistemas recomendados, CrowdRec em RecSys 2013."
Dados da íris classe dois Esse é provavelmente o banco de dados mais conhecido encontrado na literatura de reconhecimento padrão. O conjunto de dados é relativamente pequeno, contendo 50 exemplos de cada medida em pétalas das três variáveis da íris.

Uso: Prever o tipo de íris com base nas medições.

Pesquisa relacionada: Fisher, R.A. (1988). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Tweets de Filmes O conjunto de dados é uma versão estendida do conjunto de dados de Movie Tweetings. O conjunto de dados tem as classificações de 170 mil de filmes, extraídos de tweets bem estruturados no Twitter. Cada instância representa um tweet e é uma tupla: ID de usuário, ID de filme no IMDB, classificação, carimbo de data/hora, número de favoritos para este tweet e número de retweets deste tweet. O conjunto de dados foi disponibilizado por A. Said, S. Dooms, B. Loni e D. Tikk para desafio de sistemas de recomendação 2014.
Dados MPG para vários automóveis Esse conjunto de dados é uma versão um pouco modificada do conjunto de dados fornecido pela Biblioteca StatLib da Universidade de Carnegie Mellon. O conjunto de dados foi usado na exposição da Associação Estatística Americana de 1983.

Os dados listam o consumo de combustível para vários automóveis em milhas por galão. Também incluem informações como o número de cilindros, cilindradas, potência, peso total e aceleração.

Uso: prever a economia de combustível com base em três atributos discretos de múltiplos valores e cinco atributos contínuos.

Pesquisa Relacionada: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Conjunto de dados de classificação binária de diabetes da população indiana de Pima Um subconjunto de dados do Instituto Nacional de Diabetes e o banco de dados de Doenças Digestivas e Renais. O conjunto de dados foi filtrado para se concentrar nas pacientes mulheres com hereditariedade indiana de Pima. Os dados incluem registros médicos como níveis de glicose e insulina, bem como fatores do estilo de vida.

Uso: prever se o indivíduo tem diabetes (classificação binária).

Pesquisa Relacionada: Sigillito, V. (1990). UCI Machine Learning Repository https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer Science
Dados de consumidores de restaurantes Um conjunto de metadados sobre consumidores, incluindo demografia e preferências.

Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.

Pesquisa Relacionada: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Dados de recurso de restaurante Um conjunto de metadados sobre restaurantes e seus recursos, como tipo de comida, estilo de jantar e localização.

Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.

Pesquisa Relacionada: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Classificação de restaurantes Contém a classificação fornecida por usuários de restaurantes em uma escala de 0 a 2.

Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.

Pesquisa Relacionada: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Conjunto de dados multiclasses de recozimento de aço Esse conjunto de dados contém uma série de registros de avaliações de recozimento de aço. Ele contém os atributos físicos (largura, espessura, tipos – bobina, planilha, etc.) dos tipos de aço resultantes.

Uso: prever um dos dois atributos de classe numérica: resistência ou força. Você também pode analisar correlações entre os atributos.

Os graus de aço seguem um padrão definido pela SAE e outras organizações. Você está procurando um “grau” específico (a variável de classe) e deseja entender os valores necessários.

Pesquisa Relacionada: Sterling, D. & Buntine, W. (ND). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Um guia útil para graus de aço pode ser encontrado aqui: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Dados de telescópio Registro de explosões de partículas gama de alta energia com ruídos de fundo, ambos simulados usando o processo de Monte Carlo.

A intenção da simulação foi melhorar a precisão de telescópios atmosféricos Cherenkov de gama em terra. Isso é feito usando métodos estatísticos para diferenciar entre o sinal desejado (expositores de radiação de Cherenkov) e o ruído de fundo (expositores hadrônicos iniciados por raios cósmicos na atmosfera superior).

Os dados foram pré-processados para criar um conjunto elíptico com o eixo longo direcionado para o centro da câmera. As características dessa elipse, geralmente chamada de parâmetros de Hillas, estão entre os parâmetros de imagem que podem ser usados para discriminação.

Uso: prever se a imagem de um chuveiro representa ruído de fundo ou sinal.

Observações: a precisão da classificação simples não é significativa para esses dados, já que classificar um evento de fundo como sinal é pior do que classificar um evento de sinal como de fundo. Para obter uma comparação dos diferentes classificadores, deve ser usado o gráfico ROC. A probabilidade de aceitar um evento de fundo como sinal deve estar abaixo de um destes limites: 0,01, 0,02, 0,05, 0,1 ou 0,2.

Além disso, observe que o número de eventos em segundo plano (h, para expositores hadrônicos) é subestimado. Em medidas reais, a classe h ou de ruído representa a maioria dos eventos.

Pesquisa relacionada: Bock, R.K. (1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information
Conjunto de dados de clima Observações climáticas terrestres de hora em hora da NOAA (dados mesclados de 201304 para 201310).

Os dados de clima abrangem observações feitas de estações meteorológica de aeroportos, que abrangem o período de abril a outubro de 2013. Antes de ser carregado no Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte maneira:
  • As IDs da estação meteorológica foram mapeadas para as IDs do aeroporto correspondentes.
  • As estações meteorológicas não associadas aos 70 aeroportos mais movimentados foram filtradas e retiradas
  • A coluna de Data foi dividida em colunas separadas para Ano, Mês e Dia
  • As seguintes colunas foram selecionadas: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Conjunto de dados da SP 500 da Wikipédia Os dados foram extraídos do Wikipedia (https://www.wikipedia.org/), com base em artigos de cada empresa S&P 500, armazenados como dados XML.

Antes de ser carregado no Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte maneira:
  • Extraia o conteúdo do texto para cada empresa específica
  • Remova a formatação wiki
  • Remova caracteres não alfanuméricos
  • Converta todo o texto para minúsculas
  • Categorias de empresas conhecidas foram adicionadas

Observe que, para algumas empresas, um artigo não foi encontrado, assim, o número de registros é menor que 500.
direct_marketing.csv O conjunto de dados contém os dados do cliente e indicações sobre sua resposta a uma campanha de mala direta. Cada linha representa um cliente. O conjunto de dados contém nove recursos sobre dados demográficos do usuário e comportamento passado e três colunas de rótulo (visita, conversão e gasto). Visita é uma coluna binária que indica que um cliente visitou depois da campanha de marketing. Conversão indica que um cliente comprou algo. Gasto é o valor que foi gasto. O conjunto de dados foi disponibilizado por Kevin Hillstrom para análises de email MineThatData e desafio de Data Mining.
lyrl2004_tokens_test.csv Recursos de exemplos de teste no conjunto de dados de notícias Reuters RCV1-V2. O conjunto de dados tem 781 mil artigos de notícias juntamente com suas IDs (primeira coluna do conjunto de dados). Cada artigo é marcado, recebe stopwords e é interrompido. O conjunto de dados foi disponibilizado por David. D. Lewis.
lyrl2004_tokens_train.csv Recursos de exemplos de treinamento no conjunto de dados de notícias Reuters RCV1-V2. O conjunto de dados tem 23 mil artigos de notícias juntamente com suas IDs (primeira coluna do conjunto de dados). Cada artigo é marcado, recebe stopwords e é interrompido. O conjunto de dados foi disponibilizado por David. D. Lewis.
network_intrusion_detection.csv
Conjunto de dados do Concurso de Ferramentas de Mineração de Dados e Descoberta de Conhecimento KDD Cup 1999 (kddcup99.html).

O conjunto de dados foi baixado e armazenado no Armazenamento de Blobs do Azure (network_intrusion_detection.csv) e inclui os conjuntos de dados de treinamento e teste. O conjunto de dados de treinamento possui aproximadamente 126K de linhas e 43 colunas, incluindo os rótulos. Três colunas são parte das informações de rótulo e 40 colunas, consistindo de recursos numéricos e de cadeia/categóricos, estão disponíveis para o treinamento do modelo. Os dados de teste possuem aproximadamente 22,5 mil exemplos de teste com as mesmas 43 colunas que nos dados de treinamento.
rcv1-v2.topics.qrels.csv As atribuições de tópico para artigos de notícias no conjunto de dados de notícias Reuters RCV1 V2. Um artigo de notícias pode ser atribuído a vários tópicos. O formato de cada linha é "<nome do tópico><id do documento> 1". O conjunto de dados contém 2,6 milhões de atribuições de tópico. O conjunto de dados foi disponibilizado por David. D. Lewis.
student_performance.txt Estes dados vêm do desafio de avaliação de desempenho de aluno do KDD Cup 2010 (student performance evaluation). The data used is the Algebra_2008_2009 training set (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Conjunto de dados de desafio do KDD Cup 2010 Educational Data Mining Challenge. Encontre-o em downloads.jsp.

O conjunto de dados foi baixado e armazenado no Armazenamento de Blobs do Azure (student_performance.txt) e contém os arquivos de log de um sistema de aulas particulares para alunos. Os recursos fornecidos incluem a ID do problema e uma breve descrição dele, a ID do aluno, o carimbo de data/hora e quantas tentativas o aluno fez antes de solucionar o problema da maneira correta. O conjunto de dados original tem 8,9M registros; esse conjunto de dados foi reduzido para as primeiras 100 mil linhas. O conjunto de dados possui 23 colunas separadas por tabulação de vários tipos: numérico, categórico e carimbo de data/hora.

Próximas etapas