Usar os conjuntos de valores de exemplo no Azure Machine Learning Studio (clássico)Use the sample datasets in Azure Machine Learning Studio (classic)

Quando você cria um novo espaço de trabalho no Azure Machine Learning Studio (clássico), vários testes de exemplo e experimentos são incluídos por padrão.When you create a new workspace in Azure Machine Learning Studio (classic), a number of sample datasets and experiments are included by default. Muitos desses conjuntos de dados de exemplo são usados pelos modelos de exemplo da Galeria de IA do Azure.Many of these sample datasets are used by the sample models in the Azure AI Gallery. Outros são incluídos como exemplos de vários tipos de dados usados no aprendizado de máquina.Others are included as examples of various types of data typically used in machine learning.

Alguns desses conjuntos de dados estão disponíveis no armazenamento de Blobs do Azure.Some of these datasets are available in Azure Blob storage. A tabela a seguir fornece um link direto para esses conjuntos de dados.For these datasets, the following table provides a direct link. Você pode usar esses conjuntos de dados em seus experimentos usando o módulo importar data .You can use these datasets in your experiments by using the Import Data module.

O restante desses conjuntos de dados de exemplo está disponível no workspace em Conjuntos de dados salvos.The rest of these sample datasets are available in your workspace under Saved Datasets. Você pode encontrar isso na paleta de módulo à esquerda da tela do experimento no Machine Learning Studio (clássico).You can find this in the module palette to the left of the experiment canvas in Machine Learning Studio (classic). Você pode usar qualquer um desses conjuntos de dados em seu próprio teste arrastando-o para a tela do teste.You can use any of these datasets in your own experiment by dragging it to your experiment canvas.

Conjunto de dadosDatasets

Nome do conjunto de dadosDataset name Descrição do conjunto de dadosDataset description
Conjunto de dados de classificação binária de receita no recenseamento adultoAdult Census Income Binary Classification dataset Um subconjunto do banco de dados do recenseamento de 1994, usando adultos em fase de trabalho, com idade acima de 16 anos com um índice de receita ajustado de > 100.A subset of the 1994 Census database, using working adults over the age of 16 with an adjusted income index of > 100.

Uso: classificar pessoas usando dados demográficos para prever se uma pessoa recebe acima de 50 mil por ano. Usage: Classify people using demographics to predict whether a person earns over 50K a year.

Pesquisa relacionada: Kohavi, R., Becker, B., (1996). Related Research: Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Conjunto de dados de códigos do aeroportoAirport Codes Dataset Códigos de aeroporto dos EUA.U.S. airport codes.

Este conjunto de dados contém uma linha para cada aeroporto dos EUA, fornecendo o número de ID do aeroporto e o nome junto com a cidade do local e estado.This dataset contains one row for each U.S. airport, providing the airport ID number and name along with the location city and state.

Dados de preço de automóvel (Brutos)Automobile price data (Raw) Informações sobre automóveis por marca e modelo, incluindo o preço, recursos como número de cilindradas e MPG, bem como uma pontuação de risco de seguro.Information about automobiles by make and model, including the price, features such as the number of cylinders and MPG, as well as an insurance risk score.

A pontuação de risco é inicialmente associada com preço automático.The risk score is initially associated with auto price. Depois ela é ajustada ao risco real em um processo conhecido pelos atuários como valor simbólico.It is then adjusted for actual risk in a process known to actuaries as symboling. Um valor de +3 indica que o automóvel apresenta risco e um valor de -3 indica que ele provavelmente é seguro.A value of +3 indicates that the auto is risky, and a value of -3 that it is probably safe.

Uso: prever a pontuação de risco por recursos, usando a regressão ou a classificação multivariada. Usage: Predict the risk score by features, using regression or multivariate classification.

Pesquisa relacionada: Schlimmer, J.C. Related Research: Schlimmer, J.C. (1987).(1987). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Conjunto de dados UCI de locação de bicicletasBike Rental UCI dataset Conjunto de dados UCI Bike Rental que é baseado em dados reais da empresa Capital Bikeshare que mantém uma rede de aluguel de bicicletas em Washington DC.UCI Bike Rental dataset that is based on real data from Capital Bikeshare company that maintains a bike rental network in Washington DC.

O conjunto de dados possui uma linha por cada hora de cada dia em 2011 e 2012, no total de 17.379 linhas.The dataset has one row for each hour of each day in 2011 and 2012, for a total of 17,379 rows. O intervalo de aluguéis de bicicletas por hora é de 1 a 977.The range of hourly bike rentals is from 1 to 977.

Imagem RGB de Bil GatesBill Gates RGB Image Arquivo de imagem publicamente disponível convertido para dados CSV.Publicly available image file converted to CSV data.

O código para converter a imagem é fornecido na página de detalhes do modelo Quantização de cores usando o clustering K-Means.The code for converting the image is provided in the Color quantization using K-Means clustering model detail page.

Dados de doação de sangueBlood donation data Um subconjunto de dados do banco de dados de doadores de sangue do Centro de Serviços de Transfusão de Sangue da Cidade de Hsin-Chu, Taiwan.A subset of data from the blood donor database of the Blood Transfusion Service Center of Hsin-Chu City, Taiwan.

Os dados do doador incluem os meses desde a última doação e a frequência, ou o número total de doações, data da última doação e a quantidade de sangue doado.Donor data includes the months since last donation), and frequency, or the total number of donations, time since last donation, and amount of blood donated.

Uso: o objetivo é prever, por meio de classificação, se o doador doou sangue em março de 2007, em que 1 indica um doador durante o período de meta e 0, um não doador. Usage: The goal is to predict via classification whether the donor donated blood in March 2007, where 1 indicates a donor during the target period, and 0 a non-donor.

Pesquisa relacionada: Yeh, I.C., (2008). Related Research: Yeh, I.C., (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang, e Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018 Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018

Dados de câncer de mamaBreast cancer data Um dos três conjuntos de dados relacionados a câncer fornecidos pelo Instituto de Oncologia que aparece frequentemente na literatura de aprendizado de máquina.One of three cancer-related datasets provided by the Oncology Institute that appears frequently in machine learning literature. Ele combina informações de diagnóstico com recursos de análise de laboratório de aproximadamente 300 amostras de tecido.Combines diagnostic information with features from laboratory analysis of about 300 tissue samples.

Uso: classificar o tipo de câncer, com base em 9 atributos, alguns dos quais são lineares e outros, categóricos. Usage: Classify the type of cancer, based on 9 attributes, some of which are linear and some are categorical.

Pesquisa relacionada: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. Related Research: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995).(1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Recursos de câncer de mamaBreast Cancer Features O conjunto de dados contém informações de 102 mil regiões suspeitas (candidatas) de imagens de raios-X, cada uma descrita por 117 recursos.The dataset contains information for 102K suspicious regions (candidates) of X-ray images, each described by 117 features. Os recursos são proprietários e seu significado não será revelado por criadores de conjunto de dados (Siemens Healthcare).The features are proprietary and their meaning is not revealed by the dataset creators (Siemens Healthcare).
Informações de Câncer de MamaBreast Cancer Info O conjunto de dados contém informações adicionais sobre cada região suspeita da imagem de raio-X.The dataset contains additional information for each suspicious region of X-ray image. Cada exemplo fornece informações (por exemplo, rótulo, ID de paciente, coordenadas de patch em relação à imagem inteira) sobre o número da linha correspondente no conjunto de dados de recursos de câncer de mama.Each example provides information (for example, label, patient ID, coordinates of patch relative to the whole image) about the corresponding row number in the Breast Cancer Features dataset. Cada paciente tem um número de exemplos.Each patient has a number of examples. Para pacientes que têm um câncer, alguns exemplos são positivos e outros negativos.For patients who have a cancer, some examples are positive and some are negative. Para pacientes que não têm câncer, todos os exemplos são negativos.For patients who don't have a cancer, all examples are negative. O conjunto de dados tem 102 mil exemplos.The dataset has 102K examples. O conjunto de dados é tendencioso, 0,6% dos pontos são positivos e o restante é negativo.The dataset is biased, 0.6% of the points are positive, the rest are negative. O conjunto de dados foi disponibilizado pela Siemens Healthcare.The dataset was made available by Siemens Healthcare.
Rótulos de apetência CRM compartilhadosCRM Appetency Labels Shared Rótulos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train_appetency.labels).Labels from the KDD Cup 2009 customer relationship prediction challenge (orange_small_train_appetency.labels).
Rótulos de variação CRM compartilhadosCRM Churn Labels Shared Rótulos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train_churn.labels).Labels from the KDD Cup 2009 customer relationship prediction challenge (orange_small_train_churn.labels).
Conjunto de dados CRM compartilhadoCRM Dataset Shared Estes dados foram obtidos do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train.data.zip).This data comes from the KDD Cup 2009 customer relationship prediction challenge (orange_small_train.data.zip).

Esse conjunto de dados contém 50 mil clientes da empresa francesa de telecomunicações Orange.The dataset contains 50K customers from the French Telecom company Orange. Cada cliente possui 230 recursos anônimos, dos quais 190 são numéricos e 40 categóricos.Each customer has 230 anonymized features, 190 of which are numeric and 40 are categorical. Os recursos são muito esparsos.The features are very sparse.

Rótulos de vendas agregadas CRM compartilhadosCRM Upselling Labels Shared Rótulos do desafio de previsão de relacionamento do cliente KDD Cup 2009 (orange_large_train_upselling.labels).Labels from the KDD Cup 2009 customer relationship prediction challenge (orange_large_train_upselling.labels).
Dados de regressão de eficiência de energiaEnergy-Efficiency Regression data Uma coleção de perfis de energia simulados, com base em 12 formatos de construções diferentes.A collection of simulated energy profiles, based on 12 different building shapes. Os edifícios são diferenciados por oito recursos.The buildings are differentiated by eight features. O que inclui uma área envidraçada, a distribuição de área envidraçada e orientação.This includes glazing area, the glazing area distribution, and orientation.

Uso: usar a regressão ou a classificação para prever a classificação de eficiência de energia com base em uma das duas respostas de valor real. Usage: Use either regression or classification to predict the energy-efficiency rating based as one of two real valued responses. Para classificação de multiclasse, a variável da resposta é arredondada para o número inteiro mais próximo.For multi-class classification, is round the response variable to the nearest integer.

Pesquisa relacionada: Xifara, A. & Tsanas, A. (2012). Related Research: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Dados de atrasos de vooFlight Delays Data Dados de desempenho no horário do vôo em tempo hábil obtidos da coleta de dados TranStats do departamento de transporte dos EUA (no momento).Passenger flight on-time performance data taken from the TranStats data collection of the U.S. Department of Transportation (On-Time).

O conjunto de dados abrange o período de abril a outubro de 2013.The dataset covers the time period April-October 2013. Antes de carregar para a versão clássica do Azure Machine Learning Studio, o conjunto de um foi processado da seguinte maneira:Before uploading to the classic version of Azure Machine Learning Studio, the dataset was processed as follows:

  • O conjunto de dados foi filtrado para cobrir os 70 aeroportos mais movimentados dos EUA continentais.The dataset was filtered to cover only the 70 busiest airports in the continental US
  • Os voos cancelados foram rotulados como atrasados por mais de 15 minutosCanceled flights were labeled as delayed by more than 15 minutes
  • Voos desviados foram retirados.Diverted flights were filtered out
  • As seguintes colunas foram selecionadas: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, CancelledThe following columns were selected: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Desempenho pontual de voo (Bruto)Flight on-time performance (Raw) Registros de pousos e decolagens nos Estados Unidos desde outubro de 2011.Records of airplane flight arrivals and departures within United States from October 2011.

Uso: prever atrasos nos voos. Usage: Predict flight delays.

Pesquisa relacionada: do Departamento de Transporte dos EUA https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time. Related Research: From US Dept. of Transportation https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.

Dados de incêndios florestaisForest fires data Contém dados de clima, como índices de temperatura e umidade e velocidade do vento.Contains weather data, such as temperature and humidity indices and wind speed. Os dados foram extraídos de uma área do nordeste de Portugal, combinados com os registros de incêndios florestais.The data is taken from an area of northeast Portugal, combined with records of forest fires.

Uso: essa é uma tarefa de regressão difícil, em que o objetivo é prever a área queimada de incêndios florestais. Usage: This is a difficult regression task, where the aim is to predict the burned area of forest fires.

Pesquisa relacionada: Cortez, P., & morais, A. (2008). Related Research: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

[Cortez and Morais, 2007] P. Cortez and A. Morais.[Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data.A Data Mining Approach to Predict Forest Fires using Meteorological Data. Em J. Neves, M. F.In J. Neves, M. F. Santos e J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007.Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9.APPIA, ISBN-13 978-989-95618-0-9. Disponível em: http://www.dsi.uminho.pt/~pcortez/fires.pdf.Available at: http://www.dsi.uminho.pt/~pcortez/fires.pdf.

Conjunto de dados do cartão de crédito alemão UCIGerman Credit Card UCI dataset O conjunto de dados UCI Statlog (cartão de crédito alemão) (Statlog+German+Credit+Data), usando o arquivo german.data.The UCI Statlog (German Credit Card) dataset (Statlog+German+Credit+Data), using the german.data file.

O conjunto de dados classifica pessoas, descritas como um conjunto de atributos, como baixos ou altos riscos de crédito.The dataset classifies people, described by a set of attributes, as low or high credit risks. Cada exemplo representa uma pessoa.Each example represents a person. Há 20 recursos, ambos numéricos e categóricos, e um rótulo binário (o valor de risco de crédito).There are 20 features, both numerical and categorical, and a binary label (the credit risk value). Entradas de risco de crédito alto têm o rótulo = 2, entradas de risco de crédito baixo têm o rótulo = 1.High credit risk entries have label = 2, low credit risk entries have label = 1. O custo de classificar incorretamente um exemplo de risco baixo como alto é 1, considerando que o custo de classificar incorretamente um exemplo de risco alto como baixo é 5.The cost of misclassifying a low risk example as high is 1, whereas the cost of misclassifying a high risk example as low is 5.

Títulos de filmes no IMDBIMDB Movie Titles O conjunto de dados contém informações sobre filmes que foram classificados em tweets do Twitter: ID de filme no IMDB, nome e gênero do filme e ano de produção.The dataset contains information about movies that were rated in Twitter tweets: IMDB movie ID, movie name, genre, and production year. Há 17 mil filmes no conjunto de dados.There are 17K movies in the dataset. O conjunto de dados foi introduzido no artigo “S.The dataset was introduced in the paper "S. Dooms, T. De Pessemier e L. Martens.Dooms, T. De Pessemier and L. Martens. MovieTweetings: um conjunto de dados de classificação de filmes coletado do Twitter.MovieTweetings: a Movie Rating Dataset Collected From Twitter. Oficina de crowdsourcing and computação humana para sistemas recomendados, CrowdRec em RecSys 2013."Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013."
Dados da íris classe doisIris two class data Esse é provavelmente o banco de dados mais conhecido encontrado na literatura de reconhecimento padrão.This is perhaps the best known database to be found in the pattern recognition literature. O conjunto de dados é relativamente pequeno, contendo 50 exemplos de cada medida em pétalas das três variáveis da íris.The dataset is relatively small, containing 50 examples each of petal measurements from three iris varieties.

Uso: prever o tipo de íris com base nas medições. Usage: Predict the iris type from the measurements.

Pesquisa relacionada: Fisher, R.A. Related Research: Fisher, R.A. (1988).(1988). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Tweets de FilmesMovie Tweets O conjunto de dados é uma versão estendida do conjunto de dados de Movie Tweetings.The dataset is an extended version of the Movie Tweetings dataset. O conjunto de dados tem as classificações de 170 mil de filmes, extraídos de tweets bem estruturados no Twitter.The dataset has 170K ratings for movies, extracted from well-structured tweets on Twitter. Cada instância representa um tweet e é uma tupla: ID de usuário, ID de filme do IMDB, classificação, carimbo de data/hora, número de favoritos para este tweet e número de retweets desse tweet.Each instance represents a tweet and is a tuple: user ID, IMDB movie ID, rating, timestamp, number of favorites for this tweet, and number of retweets of this tweet. O conjunto de dados foi disponibilizado por A. Said, S. Dooms, B. Loni e D. Tikk para desafio de sistemas de recomendação 2014.The dataset was made available by A. Said, S. Dooms, B. Loni and D. Tikk for Recommender Systems Challenge 2014.
Dados MPG para vários automóveisMPG data for various automobiles Esse conjunto de dados é uma versão um pouco modificada do conjunto de dados fornecido pela Biblioteca StatLib da Universidade de Carnegie Mellon.This dataset is a slightly modified version of the dataset provided by the StatLib library of Carnegie Mellon University. O conjunto de dados foi usado na exposição da Associação Estatística Americana de 1983.The dataset was used in the 1983 American Statistical Association Exposition.

Os dados listam o consumo de combustível para vários automóveis em milhas por galão.The data lists fuel consumption for various automobiles in miles per gallon. Também incluem informações como o número de cilindros, cilindradas, potência, peso total e aceleração.It also includes information such as the number of cylinders, engine displacement, horsepower, total weight, and acceleration.

Uso: prever a economia de combustível com base em três atributos discretos de múltiplos valores e cinco atributos contínuos. Usage: Predict fuel economy based on three multivalued discrete attributes and five continuous attributes.

Pesquisa relacionada: StatLib, Carnegie Mellon University, (1993). Related Research: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Conjunto de dados de classificação binária de diabetes da população indiana de PimaPima Indians Diabetes Binary Classification dataset Um subconjunto de dados do Instituto Nacional de Diabetes e o banco de dados de Doenças Digestivas e Renais.A subset of data from the National Institute of Diabetes and Digestive and Kidney Diseases database. O conjunto de dados foi filtrado para se concentrar nas pacientes mulheres com hereditariedade indiana de Pima.The dataset was filtered to focus on female patients of Pima Indian heritage. Os dados incluem registros médicos como níveis de glicose e insulina, bem como fatores do estilo de vida.The data includes medical data such as glucose and insulin levels, as well as lifestyle factors.

Uso: prever se o indivíduo tem diabetes (classificação binária). Usage: Predict whether the subject has diabetes (binary classification).

Pesquisa relacionada: Sigillito, V. (1990). Related Research: Sigillito, V. (1990). UCI Machine Learning Repository https://archive.ics.uci.edu/ml".UCI Machine Learning Repository https://archive.ics.uci.edu/ml". Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Dados de consumidores de restaurantesRestaurant customer data Um conjunto de metadados sobre consumidores, incluindo demografia e preferências.A set of metadata about customers, including demographics and preferences.

Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação. Usage: Use this dataset, in combination with the other two restaurant datasets, to train and test a recommender system.

Pesquisa relacionada: Bache, K. e Lichman, M. (2013). Related Research: Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.Irvine, CA: University of California, School of Information and Computer Science.

Dados de recurso de restauranteRestaurant feature data Um conjunto de metadados sobre restaurantes e seus recursos, como tipo de comida, estilo de jantar e localização.A set of metadata about restaurants and their features, such as food type, dining style, and location.

Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação. Usage: Use this dataset, in combination with the other two restaurant datasets, to train and test a recommender system.

Pesquisa relacionada: Bache, K. e Lichman, M. (2013). Related Research: Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.Irvine, CA: University of California, School of Information and Computer Science.

Classificação de restaurantesRestaurant ratings Contém a classificação fornecida por usuários de restaurantes em uma escala de 0 a 2.Contains ratings given by users to restaurants on a scale from 0 to 2.

Uso: use esse conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação. Usage: Use this dataset, in combination with the other two restaurant datasets, to train and test a recommender system.

Pesquisa relacionada: Bache, K. e Lichman, M. (2013). Related Research: Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.Irvine, CA: University of California, School of Information and Computer Science.

Conjunto de dados multiclasses de recozimento de açoSteel Annealing multi-class dataset Esse conjunto de dados contém uma série de registros de avaliações de recozimento de aço.This dataset contains a series of records from steel annealing trials. Ele contém os atributos físicos (largura, espessura, tipos – bobina, planilha, etc.) dos tipos de aço resultantes.It contains the physical attributes (width, thickness, type (coil, sheet, etc.) of the resulting steel types.

Uso: prever um dos dois atributos de classe numérica: resistência ou força. Usage: Predict any of two numeric class attributes; hardness or strength. Você também pode analisar correlações entre os atributos.You might also analyze correlations among attributes.

Os graus de aço seguem um padrão definido pela SAE e outras organizações.Steel grades follow a set standard, defined by SAE and other organizations. Você está procurando um “grau” específico (a variável de classe) e deseja entender os valores necessários.You are looking for a specific 'grade' (the class variable) and want to understand the values needed.

Pesquisa relacionada: Esterlina, D. & Buntine, W. (NA). Related Research: Sterling, D. & Buntine, W. (NA). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer ScienceIrvine, CA: University of California, School of Information and Computer Science

Um guia útil para graus de aço pode ser encontrado aqui: https://otk-sitecore-prod-v2-cdn.azureedge.net/-/media/from-sharepoint/documents/product/outokumpu-steel-grades-properties-global-standards.pdf A useful guide to steel grades can be found here: https://otk-sitecore-prod-v2-cdn.azureedge.net/-/media/from-sharepoint/documents/product/outokumpu-steel-grades-properties-global-standards.pdf

Dados de telescópioTelescope data Registro de explosões de partículas gama de alta energia com ruídos de fundo, ambos simulados usando o processo de Monte Carlo.Record of high energy gamma particle bursts along with background noise, both simulated using a Monte Carlo process.

A intenção da simulação foi melhorar a precisão de telescópios atmosféricos Cherenkov de gama em terra.The intent of the simulation was to improve the accuracy of ground-based atmospheric Cherenkov gamma telescopes. Isso é feito usando métodos estatísticos para diferenciar entre o sinal desejado (expositores de radiação de Cherenkov) e o ruído de fundo (expositores hadrônicos iniciados por raios cósmicos na atmosfera superior).This is done by using statistical methods to differentiate between the desired signal (Cherenkov radiation showers) and background noise (hadronic showers initiated by cosmic rays in the upper atmosphere).

Os dados foram pré-processados para criar um conjunto elíptico com o eixo longo direcionado para o centro da câmera.The data has been pre-processed to create an elongated cluster with the long axis is oriented towards the camera center. As características dessa elipse, geralmente chamada de parâmetros de Hillas, estão entre os parâmetros de imagem que podem ser usados para discriminação.The characteristics of this ellipse (often called Hillas parameters) are among the image parameters that can be used for discrimination.

Uso: prever se a imagem de um chuveiro representa ruído de fundo ou sinal. Usage: Predict whether image of a shower represents signal or background noise.

Observações: a precisão da classificação simples não é significativa para esses dados, já que classificar um evento de fundo como sinal é pior do que classificar um evento de sinal como de fundo. Notes: Simple classification accuracy is not meaningful for this data, since classifying a background event as signal is worse than classifying a signal event as background. Para obter uma comparação dos diferentes classificadores, deve ser usado o gráfico ROC.For comparison of different classifiers, the ROC graph should be used. A probabilidade de aceitar um evento de fundo como sinal deve estar abaixo de um destes limites: 0,01, 0,02, 0,05, 0,1 ou 0,2.The probability of accepting a background event as signal must be below one of the following thresholds: 0.01, 0.02, 0.05, 0.1, or 0.2.

Além disso, observe que o número de eventos em segundo plano (h, para expositores hadrônicos) é subestimado.Also, note that the number of background events (h, for hadronic showers) is underestimated. Em medidas reais, a classe h ou de ruído representa a maioria dos eventos.In real measurements, the h or noise class represents the majority of events.

Pesquisa relacionada: Bock, R.K. Related Research: Bock, R.K. (1995).(1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml.UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of InformationIrvine, CA: University of California, School of Information

Conjunto de dados de climaWeather Dataset Observações climáticas terrestres de hora em hora da NOAA (dados mesclados de 201304 para 201310).Hourly land-based weather observations from NOAA (merged data from 201304 to 201310).

Os dados de clima abrangem observações feitas de estações meteorológica de aeroportos, que abrangem o período de abril a outubro de 2013.The weather data covers observations made from airport weather stations, covering the time period April-October 2013. Antes de carregar para a versão clássica do Azure Machine Learning Studio, o conjunto de um foi processado da seguinte maneira:Before uploading to the classic version of Azure Machine Learning Studio, the dataset was processed as follows:

  • As IDs da estação meteorológica foram mapeadas para as IDs do aeroporto correspondentes.Weather station IDs were mapped to corresponding airport IDs
  • As estações meteorológicas não associadas aos 70 aeroportos mais movimentados foram filtradas e retiradasWeather stations not associated with the 70 busiest airports were filtered out
  • A coluna de Data foi dividida em colunas separadas para Ano, Mês e DiaThe Date column was split into separate Year, Month, and Day columns
  • As seguintes colunas foram selecionadas: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, AltimeterThe following columns were selected: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Conjunto de dados da SP 500 da WikipédiaWikipedia SP 500 Dataset Os dados foram extraídos do Wikipedia (https://www.wikipedia.org/), com base em artigos de cada empresa S&P 500, armazenados como dados XML.Data is derived from Wikipedia (https://www.wikipedia.org/) based on articles of each S&P 500 company, stored as XML data.

Antes de carregar para a versão clássica do Azure Machine Learning Studio, o conjunto de um foi processado da seguinte maneira:Before uploading to the classic version of Azure Machine Learning Studio, the dataset was processed as follows:

  • Extraia o conteúdo do texto para cada empresa específicaExtract text content for each specific company
  • Remova a formatação wikiRemove wiki formatting
  • Remova caracteres não alfanuméricosRemove non-alphanumeric characters
  • Converta todo o texto para minúsculasConvert all text to lowercase
  • Categorias de empresas conhecidas foram adicionadasKnown company categories were added

Observe que, para algumas empresas, um artigo não foi encontrado, assim, o número de registros é menor que 500.Note that for some companies an article could not be found, so the number of records is less than 500.

direct_marketing.csvdirect_marketing.csv O conjunto de dados contém os dados do cliente e indicações sobre sua resposta a uma campanha de mala direta.The dataset contains customer data and indications about their response to a direct mailing campaign. Cada linha representa um cliente.Each row represents a customer. O conjunto de dados contém nove recursos sobre dados demográficos do usuário e comportamento passado e três colunas de rótulo (visita, conversão e gasto).The dataset contains nine features about user demographics and past behavior, and three label columns (visit, conversion, and spend). Visita é uma coluna binária que indica que um cliente visitou depois da campanha de marketing.Visit is a binary column that indicates that a customer visited after the marketing campaign. Conversão indica que um cliente comprou algo.Conversion indicates a customer purchased something. Gasto é o valor que foi gasto.Spend is the amount that was spent. O conjunto de dados foi disponibilizado por Kevin Hillstrom para análises de email MineThatData e desafio de Data Mining.The dataset was made available by Kevin Hillstrom for MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csvlyrl2004_tokens_test.csv Recursos de exemplos de teste no conjunto de dados de notícias Reuters RCV1-V2.Features of test examples in the RCV1-V2 Reuters news dataset. O conjunto de dados tem 781 mil artigos de notícias juntamente com suas IDs (primeira coluna do conjunto de dados).The dataset has 781K news articles along with their IDs (first column of the dataset). Cada artigo é marcado, recebe stopwords e é interrompido.Each article is tokenized, stopworded, and stemmed. O conjunto de dados foi disponibilizado por David.The dataset was made available by David. D.D. Lewis.Lewis.
lyrl2004_tokens_train.csvlyrl2004_tokens_train.csv Recursos de exemplos de treinamento no conjunto de dados de notícias Reuters RCV1-V2.Features of training examples in the RCV1-V2 Reuters news dataset. O conjunto de dados tem 23 mil artigos de notícias juntamente com suas IDs (primeira coluna do conjunto de dados).The dataset has 23K news articles along with their IDs (first column of the dataset). Cada artigo é marcado, recebe stopwords e é interrompido.Each article is tokenized, stopworded, and stemmed. O conjunto de dados foi disponibilizado por David.The dataset was made available by David. D.D. Lewis.Lewis.
network_intrusion_detection.csvnetwork_intrusion_detection.csv
Conjunto de dados do Concurso de Ferramentas de Mineração de Dados e Descoberta de Conhecimento KDD Cup 1999 (kddcup99.html).Dataset from the KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

O conjunto de dados foi baixado e armazenado no Armazenamento de Blobs do Azure (network_intrusion_detection.csv) e inclui os conjuntos de dados de treinamento e teste.The dataset was downloaded and stored in Azure Blob storage (network_intrusion_detection.csv) and includes both training and testing datasets. O conjunto de dados de treinamento possui aproximadamente 126K de linhas e 43 colunas, incluindo os rótulos.The training dataset has approximately 126K rows and 43 columns, including the labels. Três colunas são parte das informações de rótulo e 40 colunas, consistindo de recursos numéricos e de cadeia/categóricos, estão disponíveis para o treinamento do modelo.Three columns are part of the label information, and 40 columns, consisting of numeric and string/categorical features, are available for training the model. Os dados de teste possuem aproximadamente 22,5 mil exemplos de teste com as mesmas 43 colunas que nos dados de treinamento.The test data has approximately 22.5K test examples with the same 43 columns as in the training data.

rcv1-v2.topics.qrels.csvrcv1-v2.topics.qrels.csv As atribuições de tópico para artigos de notícias no conjunto de dados de notícias Reuters RCV1 V2.Topic assignments for news articles in the RCV1-V2 Reuters news dataset. Um artigo de notícias pode ser atribuído a vários tópicos.A news article can be assigned to several topics. O formato de cada linha é "<nome do tópico> <id do documento> 1".The format of each row is "<topic name> <document id> 1". O conjunto de dados contém 2,6 milhões de atribuições de tópico.The dataset contains 2.6M topic assignments. O conjunto de dados foi disponibilizado por David.The dataset was made available by David. D.D. Lewis.Lewis.
student_performance.txtstudent_performance.txt Estes dados vêm do desafio de avaliação de desempenho de aluno do KDD Cup 2010 (student performance evaluation).This data comes from the KDD Cup 2010 Student performance evaluation challenge (student performance evaluation). Os dados usados são o conjunto de treinamento Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R.The data used is the Algebra_2008_2009 training set (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010).(2010). Algebra I 2008-2009.Algebra I 2008-2009. Conjunto de dados de desafio do KDD Cup 2010 Educational Data Mining Challenge.Challenge dataset from KDD Cup 2010 Educational Data Mining Challenge. Encontre-o em downloads.jsp.Find it at downloads.jsp.

O conjunto de dados foi baixado e armazenado no Armazenamento de Blobs do Azure (student_performance.txt) e contém os arquivos de log de um sistema de aulas particulares para alunos.The dataset was downloaded and stored in Azure Blob storage (student_performance.txt) and contains log files from a student tutoring system. Os recursos fornecidos incluem a ID do problema e uma breve descrição dele, a ID do aluno, o carimbo de data/hora e quantas tentativas o aluno fez antes de solucionar o problema da maneira correta.The supplied features include problem ID and its brief description, student ID, timestamp, and how many attempts the student made before solving the problem in the right way. O conjunto de dados original tem 8,9M registros; esse conjunto de dados foi reduzido para as primeiras 100 mil linhas.The original dataset has 8.9M records; this dataset has been down-sampled to the first 100K rows. O conjunto de dados possui 23 colunas separadas por tabulação de vários tipos: numérico, categórico e carimbo de data/hora.The dataset has 23 tab-separated columns of various types: numeric, categorical, and timestamp.

Próximas etapasNext steps