Utilize os conjuntos de dados da amostra no Azure Machine Learning Studio (clássico)

APLICA-SE A:  Aplica-se a. Machine Learning Studio (clássico)  Não se aplica a. Aprendizagem de Máquinas Azure

Quando cria um novo espaço de trabalho no Azure Machine Learning Studio (clássico), uma série de conjuntos de dados e experiências de amostra são incluídos por padrão. Muitos destes conjuntos de dados de amostra são utilizados pelos modelos de amostragem na Galeria Azure AI. Outros são incluídos como exemplos de vários tipos de dados normalmente usados na aprendizagem automática.

Alguns destes conjuntos de dados estão disponíveis no armazenamento da Azure Blob. Para estes conjuntos de dados, a tabela seguinte fornece uma ligação direta. Pode utilizar estes conjuntos de dados nas suas experiências utilizando o módulo De Dados de Importação.

Os restantes conjuntos de dados da amostra estão disponíveis no seu espaço de trabalho em Conjuntos de Dados Guardados. Você pode encontrar isso na paleta de módulos à esquerda da tela de experimentação no Machine Learning Studio (clássico). Pode utilizar qualquer um destes conjuntos de dados na sua própria experiência arrastando-o para a sua tela de experimentação.

Conjuntos de dados

Nome do conjunto de dados Descrição do conjunto de dados
Conjunto de dados de classificação binária de rendimento do rendimento do rendimento de adultos Um subconjunto da base de dados do Censos de 1994, utilizando adultos que trabalham com mais de 16 anos com um índice de rendimento ajustado de > 100.

Utilização: Classificar as pessoas que usam a demografia para prever se uma pessoa ganha mais de 50 mil por ano.

Investigação Relacionada: Kohavi, R., Becker, B., (1996). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação
Conjunto de dados de códigos de aeroporto Códigos do aeroporto dos E.U.A.

Este conjunto de dados contém uma linha para cada aeroporto dos EUA, fornecendo o número de identificação do aeroporto e o nome, juntamente com a cidade e o estado da localização.
Dados sobre os preços do automóvel (Raw) Informação sobre automóveis por marca e modelo, incluindo o preço, características como o número de cilindros e MPG, bem como uma pontuação de risco de seguro.

A pontuação de risco está inicialmente associada ao preço automóvel. É então ajustado para o risco real num processo conhecido pelos atuadores como símbolo. Um valor de +3 indica que o automóvel é arriscado, e um valor de -3 que provavelmente é seguro.

Utilização: Prever a pontuação de risco por características, utilizando a regressão ou classificação multivariada.

Investigação Relacionada: Schlimmer, J.C. (1987). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação
Conjunto de dados UCI de Aluguer de Bicicletas Conjunto de dados de aluguer de bicicletas UCI que é baseado em dados reais da empresa Capital Bikeshare que mantém uma rede de aluguer de bicicletas em Washington DC.

O conjunto de dados tem uma linha para cada hora de cada dia em 2011 e 2012, num total de 17.379 linhas. A gama de alugueres de bicicletas de hora em hora é de 1 a 977.
Imagem de Bill Gates RGB Arquivo de imagem disponível ao público convertido em dados CSV.

O código para converter a imagem é fornecido na quantização de cor utilizando a página de detalhe do modelo de clustering K-Means.
Dados de dádiva de sangue Um subconjunto de dados da base de dados de dadores de sangue do Centro de Serviços de Transfusão de Sangue de Hsin-Chu City, Taiwan.

Os dados dos dadores incluem os meses desde a última doação), e a frequência, ou o número total de doações, tempo desde a última doação, e quantidade de sangue doado.

Utilização: O objetivo é prever, através da classificação, se o dador doou sangue em março de 2007, onde 1 indica um dador durante o período-alvo, e 0 um não dador.

Investigação Relacionada: Yeh, I.C., (2008). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação

Yeh, I-Cheng, Yang, King-Jang, e Ting, Tao-Ming, "Descoberta de conhecimento no modelo RFM usando a sequência de Bernoulli, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Dados do cancro da mama Um dos três conjuntos de dados relacionados com o cancro fornecidos pelo Instituto de Oncologia que aparece frequentemente na literatura de aprendizagem automática. Combina informação de diagnóstico com características da análise laboratorial de cerca de 300 amostras de tecido.

Utilização: Classificar o tipo de cancro, com base em 9 atributos, alguns dos quais lineares e alguns são categóricos.

Investigação Relacionada: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação
Características do cancro da mama O conjunto de dados contém informações para regiões suspeitas de 102K (candidatos) de imagens de raio-X, cada uma descrita por 117 funcionalidades. As funcionalidades são proprietárias e o seu significado não é revelado pelos criadores do conjunto de dados (Siemens Healthcare).
Informação sobre o Cancro da Mama O conjunto de dados contém informações adicionais para cada região suspeita de imagem de raio-X. Cada exemplo fornece informações (por exemplo, etiqueta, ID do paciente, coordenadas de patch em relação a toda a imagem) sobre o número de linha correspondente no conjunto de dados do Cancro da Mama. Cada paciente tem vários exemplos. Para os doentes que têm cancro, alguns exemplos são positivos e alguns negativos. Para os doentes que não têm cancro, todos os exemplos são negativos. O conjunto de dados tem exemplos de 102K. O conjunto de dados é tendencioso, 0,6% dos pontos são positivos, os restantes são negativos. O conjunto de dados foi disponibilizado pela Siemens Healthcare.
Rótulos de Appetency CRM compartilhados Etiquetas do desafio de previsão da relação com o cliente KDD Cup 2009(orange_small_train_appetency.labels).
Etiquetas CRM Churn Compartilhadas Etiquetas do desafio de previsão da relação com o cliente KDD Cup 2009(orange_small_train_churn.labels).
Conjunto de dados crm compartilhado Estes dados provêm do desafio de previsão da relação com o cliente da KDD Cup 2009 (orange_small_train.data.zip).

O conjunto de dados contém 50 mil clientes da empresa francesa de telecomunicações Orange. Cada cliente tem 230 funcionalidades anonimizadas, 190 das quais numéricas e 40 são categóricas. As características são muito escassas.
Etiquetas de upselling CRM partilhadas Etiquetas do desafio de previsão da relação com o cliente KDD Cup 2009(orange_large_train_upselling.labels).
Energy-Efficiency Dados de Regressão Uma coleção de perfis de energia simulados, baseados em 12 formas diferentes de construção. Os edifícios são diferenciados por oito características. Isto inclui área de envidraçamento, distribuição de área de vidro, e orientação.

Utilização: Utilize a regressão ou a classificação para prever a classificação de eficiência energética baseada como uma de duas respostas reais valorizadas. Para a classificação multi-classes, é em torno da variável de resposta para o número mais próximo.

Investigação Relacionada: Xifara, A. & Tsanas, A. (2012). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação
Dados de atrasos de voo Dados de desempenho de voo de passageiros retirados da recolha de dados tranStats do Departamento de Transportes dos EUA(On-Time).

O conjunto de dados cobre o período de tempo April-October 2013. Antes de ser enviado para o Azure Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte forma:
  • O conjunto de dados foi filtrado para cobrir apenas os 70 aeroportos mais movimentados dos EUA
  • Voos cancelados foram rotulados como atrasados por mais de 15 minutos
  • Voos desviados foram filtrados
  • Foram selecionadas as seguintes colunas: Ano, Mês, DiaofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelado
Desempenho do voo a tempo (Raw) Registos de chegadas e partidas de aviões nos Estados Unidos a partir de outubro de 2011.

Utilização: Prever atrasos de voo.

Investigação Relacionada: Do Departamento de Transportes dos https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time EUA.
Dados dos incêndios florestais Contém dados meteorológicos, como índices de temperatura e humidade e velocidade do vento. Os dados são recolhidos de uma zona do nordeste de Portugal, aliada a registos de incêndios florestais.

Utilização: Trata-se de uma tarefa de regressão difícil, onde o objetivo é prever a área ardida dos incêndios florestais.

Investigação Relacionada: Cortez, P., & Morais, A. (2008). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação

[Cortez e Morais, 2007] P. Cortez e A. Morais. Uma abordagem de mineração de dados para prever incêndios florestais usando dados meteorológicos. Em J. Neves, M.F. Santos e J. Machado Eds., Novas Tendências em Inteligência Artificial, Procedimentos da 13ª EPIA 2007 - Conferência Portuguesa de Inteligência Artificial, dezembro, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponível em: http://www.dsi.uminho.pt/~pcortez/fires.pdf .
Conjunto de dados do Cartão de Crédito Alemão UCI O conjunto de dados da UCI Statlog (Cartão de Crédito Alemão)(Statlog+German+Credit+Data),utilizando o ficheiro german.data.

O conjunto de dados classifica as pessoas, descritas por um conjunto de atributos, como riscos de crédito baixos ou elevados. Cada exemplo representa uma pessoa. Existem 20 características, tanto numéricas como categóricas, e uma etiqueta binária (o valor do risco de crédito). As entradas de alto risco de crédito têm etiqueta = 2, entradas de baixo risco de crédito têm etiqueta = 1. O custo de classificar mal um exemplo de baixo risco como elevado é 1, enquanto o custo de classificação errada de um exemplo de alto risco como baixo é 5.
Títulos de filme do IMDB O conjunto de dados contém informações sobre filmes que foram classificados em tweets do Twitter: ID filme IMDB, nome do filme, género e ano de produção. Há filmes de 17K no conjunto de dados. O conjunto de dados foi introduzido no artigo "S. Dooms, T. De Pessemier e L. Martens. MovieTweetings: um conjunto de dados de classificação de filme recolhidos do Twitter. Workshop de Crowdsourcing e Computação Humana para Sistemas Recomendadores, CrowdRec na RecSys 2013."
Iris dois dados de classe Esta é talvez a base de dados mais conhecida da literatura de reconhecimento de padrões. O conjunto de dados é relativamente pequeno, contendo 50 exemplos cada uma das medições de pétalas de três variedades de íris.

Utilização: Prever o tipo de íris a partir das medições.

Investigação Relacionada: Fisher, R.A. (1988). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação
Tweets de cinema O conjunto de dados é uma versão estendida do conjunto de dados do Movie Tweetings. O conjunto de dados tem classificações de 170K para filmes, extraídos de tweets bem estruturados no Twitter. Cada instância representa um tweet e é um tuple: ID do utilizador, ID de filme IMDB, classificação, timetamp, número de favoritos para este tweet, e número de retweets deste tweet. O conjunto de dados foi disponibilizado por A. Said, S. Dooms, B. Loni e D. Tikk para o Recommender Systems Challenge 2014.
Dados do MPG para vários automóveis Este conjunto de dados é uma versão ligeiramente modificada do conjunto de dados fornecido pela biblioteca StatLib da Universidade Carnegie Mellon. O conjunto de dados foi usado na Exposição da Associação Estatística Americana de 1983.

Os dados listam o consumo de combustível para vários automóveis em milhas por galão. Inclui também informações como o número de cilindros, deslocação do motor, potência, peso total e aceleração.

Utilização: Prever a economia de combustível com base em três atributos discretos multivalorizados e cinco atributos contínuos.

Investigação Relacionada: StatLib, Universidade Carnegie Mellon, (1993). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação
Conjunto de dados de classificação binária de diabetes pima indianos Um subconjunto de dados do Instituto Nacional de Diabetes e Doenças Digestivas e Renais. O conjunto de dados foi filtrado para se concentrar em pacientes femininos da herança indiana de Pima. Os dados incluem dados médicos, como os níveis de glicose e insulina, bem como fatores de estilo de vida.

Utilização: Prever se o sujeito tem diabetes (classificação binária).

Investigação Relacionada: Sigillito, V. (1990). UCI Machine Learning Repository https://archive.ics.uci.edu/ml ". Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação
Dados do cliente do restaurante Um conjunto de metadados sobre clientes, incluindo demografia e preferências.

Utilização: Utilize este conjunto de dados, em combinação com os outros dois conjuntos de dados do restaurante, para treinar e testar um sistema de recomendadores.

Investigação Relacionada: Bache, K. e Lichman, M. (2013). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação.
Dados de recursos de restaurante Um conjunto de metadados sobre restaurantes e suas características, como tipo de comida, estilo de jantar e localização.

Utilização: Utilize este conjunto de dados, em combinação com os outros dois conjuntos de dados do restaurante, para treinar e testar um sistema de recomendadores.

Investigação Relacionada: Bache, K. e Lichman, M. (2013). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação.
Classificações de restaurantes Contém classificações dadas pelos utilizadores a restaurantes numa escala de 0 a 2.

Utilização: Utilize este conjunto de dados, em combinação com os outros dois conjuntos de dados do restaurante, para treinar e testar um sistema de recomendadores.

Investigação Relacionada: Bache, K. e Lichman, M. (2013). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação.
Conjunto de dados multi-classes de 10 000 de aço Este conjunto de dados contém uma série de registos de ensaios de reciclagem de aço. Contém os atributos físicos (largura, espessura, tipo (bobina, folha, etc.) dos tipos de aço resultantes.

Utilização: Prever qualquer um dos dois atributos da classe numérica; dureza ou força. Também pode analisar correlações entre atributos.

As notas de aço seguem um padrão definido, definido pela SAE e outras organizações. Procura uma 'nota' específica (a variável de classe) e quer entender os valores necessários.

Investigação Relacionada: Sterling, D. & Buntine, W. (NA). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação

Um guia útil para as qualidades de aço pode ser encontrado aqui: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Dados do telescópio Registo de explosões de partículas gama de alta energia juntamente com ruído de fundo, ambos simulados usando um processo de Monte Carlo.

A intenção da simulação era melhorar a precisão dos telescópios gama cherenkov atmosféricos terrestres. Isto é feito usando métodos estatísticos para diferenciar entre o sinal desejado (duches de radiação Cherenkov) e o ruído de fundo (chuveiros hadrónicos iniciados por raios cósmicos na atmosfera superior).

Os dados foram pré-processados para criar um cluster alongado com o longo eixo é orientado para o centro da câmara. As características desta elipse (muitas vezes chamadas de parâmetros Hillas) estão entre os parâmetros de imagem que podem ser usados para a discriminação.

Utilização: Preveja se a imagem de um chuveiro representa sinal ou ruído de fundo.

Notas: A precisão simples da classificação não faz sentido para estes dados, uma vez que classificar um evento de fundo como sinal é pior do que classificar um evento de sinal como pano de fundo. Para comparar diferentes classificadores, o gráfico ROC deve ser utilizado. A probabilidade de aceitar um evento de fundo como sinal deve ser inferior a um dos seguintes limiares: 0.01, 0.02, 0.05, 0.1 ou 0.2.

Além disso, note que o número de eventos de fundo (h, para chuveiros hadrónicos) é subestimado. Em medições reais, a classe h ou ruído representa a maioria dos eventos.

Investigação Relacionada: Bock, R.K. (1995). Repositório de Aprendizagem automática da https://archive.ics.uci.edu/ml UCI. Irvine, CA: Universidade da Califórnia, Escola de Informação
Conjunto de dados meteorológicos Observações meteorológicas por hora da NOAA(dados fundidos de 201304 a 201310).

Os dados meteorológicos cobrem observações feitas a partir de estações meteorológicas do aeroporto, abrangendo o período April-October 2013. Antes de ser enviado para o Azure Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte forma:
  • Os IDs da estação meteorológica foram mapeados para os iDs do aeroporto correspondentes
  • Estações meteorológicas não associadas aos 70 aeroportos mais movimentados foram filtradas
  • A coluna Date foi dividida em colunas separadas de ano, mês e dia
  • Foram selecionadas as seguintes colunas: AirportID, Ano, Mês, Dia, Tempo, TimeZone, SkyCondition, Visibilidade, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, Hourciply, Alprettime, Alpretertime, Alpretertime,
Conjunto de dados Wikipedia SP 500 Os dados são derivados da Wikipédia ( https://www.wikipedia.org/ ) com base em artigos de cada empresa S&P 500, armazenados como dados XML.

Antes de ser enviado para o Azure Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte forma:
  • Extrair conteúdo de texto para cada empresa específica
  • Remover formatação wiki
  • Remover caracteres não alfanuméricos
  • Converter todo o texto em minúsculas
  • Categorias conhecidas da empresa foram adicionadas

Note-se que para algumas empresas não foi possível encontrar um artigo, pelo que o número de registos é inferior a 500.
direct_marketing.csv O conjunto de dados contém dados do cliente e indicações sobre a sua resposta a uma campanha de correio eletrónico direto. Cada linha representa um cliente. O conjunto de dados contém nove funcionalidades sobre a demografia do utilizador e o comportamento passado, e três colunas de etiquetas (visita, conversão e gasto). A visita é uma coluna binária que indica que um cliente visitou após a campanha de marketing. A conversão indica que um cliente comprou algo. Gastar é o montante que foi gasto. O conjunto de dados foi disponibilizado por Kevin Hillstrom para MineThatData E-Mail Analytics e Data Mining Challenge.
lyrl2004_tokens_test.csv Características dos exemplos de teste no conjunto de dados de notícias RCV1-V2 Reuters. O conjunto de dados tem artigos de notícias 781K juntamente com os seus IDs (primeira coluna do conjunto de dados). Cada artigo é tokenizado, stopworded, e stemmed. O conjunto de dados foi disponibilizado por David. D. O Lewis.
lyrl2004_tokens_train.csv Características dos exemplos de treino no conjunto de dados de notícias RCV1-V2 Reuters. O conjunto de dados tem artigos de notícias 23K juntamente com os seus IDs (primeira coluna do conjunto de dados). Cada artigo é tokenizado, stopworded, e stemmed. O conjunto de dados foi disponibilizado por David. D. O Lewis.
network_intrusion_detection.csv
Dataset da KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

O conjunto de dados foi descarregado e armazenado no armazenamento de Azure Blob (network_intrusion_detection.csv) e inclui conjuntos de dados de treino e teste. O conjunto de dados de formação tem aproximadamente 126K linhas e 43 colunas, incluindo as etiquetas. Três colunas fazem parte da informação do rótulo, e 40 colunas, compostas por características numéricas e de cordas/categóricas, estão disponíveis para treinar o modelo. Os dados do teste têm aproximadamente 22,5K exemplos de teste com as mesmas 43 colunas que nos dados de treino.
rcv1-v2.topics.qrels.csv Atribuições de tópicos para artigos noticiosos no conjunto de dados de notícias RCV1-V2 Reuters. Um artigo de notícias pode ser atribuído a vários tópicos. O formato de cada linha é " < documento de nome tópico > < > id 1". O conjunto de dados contém atribuições de tópicos de 2,6M. O conjunto de dados foi disponibilizado por David. D. O Lewis.
student_performance.txt Estes dados provêm do desafio de avaliação do desempenho dos alunos da KDD Cup 2010(avaliação do desempenho dos alunos). Os dados utilizados são o conjunto de treino Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Álgebra I 2008-2009. Challenge dataset da KDD Cup 2010 Educational Data Mining Challenge. Encontre-o em downloads.jsp.

O conjunto de dados foi descarregado e armazenado no armazenamento de Azure Blob (student_performance.txt) e contém ficheiros de registo de um sistema de tutoria de estudantes. As funcionalidades fornecidas incluem identificação de problemas e sua breve descrição, identificação do aluno, timetamp, e quantas tentativas o aluno fez antes de resolver o problema da maneira correta. O conjunto de dados original tem registos de 8,9M; este conjunto de dados foi reduzido para as primeiras linhas de 100K. O conjunto de dados tem 23 colunas separadas por separados de vários tipos: numérica, categórica e horatamp.

Passos seguintes