Azure Machine Learning Studio におけるサンプル データセットの使用Use the sample datasets in Azure Machine Learning Studio

Azure Machine Learning Studio で新しいワークスペースを作成する場合、既定でさまざまなサンプルのデータセットと実験が含まれています。When you create a new workspace in Azure Machine Learning Studio, a number of sample datasets and experiments are included by default. これらのサンプル データセットの多くは、Azure AI ギャラリーのサンプル モデルで使用されます。Many of these sample datasets are used by the sample models in the Azure AI Gallery. その他のデータセットは、機械学習で通常使用されるさまざまなデータのサンプルとして含まれています。Others are included as examples of various types of data typically used in machine learning.

データセットの一部は、Azure Blob Storage で使用できます。Some of these datasets are available in Azure Blob storage. これらのデータセットでは、次の表に直接リンクが提供されています。For these datasets, the following table provides a direct link. これらのデータセットは、データのインポート モジュールを使用して実験で使用できます。You can use these datasets in your experiments by using the Import Data module.

これらのサンプル データセットの残りの部分は、 [Saved Datasets]/(保存されたデータセット/) の下にあるワークスペースで使用できます。The rest of these sample datasets are available in your workspace under Saved Datasets. これは、Microsoft Azure Machine Learning Studio の実験キャンバスの左側のモジュール パレットにあります。You can find this in the module palette to the left of the experiment canvas in Machine Learning Studio. 実験キャンバスにこれらのデータセットのいずれかをドラッグすると、独自の実験で使用できます。You can use any of these datasets in your own experiment by dragging it to your experiment canvas.

データセットDatasets

データセットの名前Dataset name データセットの説明Dataset description
米国国勢調査局提供の、成人収入に関する二項分類データセットAdult Census Income Binary Classification dataset 調整後の所得指数が 100 を超える就労成人男性 (16 歳以上) を対象とした、米国国勢調査局のデータベース (1994 年) のサブセットです。A subset of the 1994 Census database, using working adults over the age of 16 with an adjusted income index of > 100.

使用法:人口統計データを使用して対象の人々を分類し、個人が 1 年間に 50,000 ドル以上の年収を得られるかどうかを予測します。 Usage: Classify people using demographics to predict whether a person earns over 50K a year.

関連の研究:Kohavi, R.、Becker, B. (1996 年)。 Related Research: Kohavi, R., Becker, B., (1996). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

空港コードのデータセットAirport Codes Dataset 米国の空港コード。U.S. airport codes.

このデータセットは、米国の各空港ごとに 1 行という構成になっており、各行には、空港の ID 番号、名前、所在する都市および州が記載されています。This dataset contains one row for each U.S. airport, providing the airport ID number and name along with the location city and state.

自動車価格データ (生データ)Automobile price data (Raw) メーカー/モデル別にまとめた自動車の情報です。価格、シリンダー数、燃費、保険リスク スコアなどの情報が含まれます。Information about automobiles by make and model, including the price, features such as the number of cylinders and MPG, as well as an insurance risk score.

リスク スコアはまず車体価格に関連付けられます。The risk score is initially associated with auto price. その後、アクチュアリー (保険数理士) の間でシンボリングと呼ばれるプロセスによって、実際のリスクに対して調整されます。It is then adjusted for actual risk in a process known to actuaries as symboling. +3 は自動車のリスクが高く、-3 は高い安全性が見込まれることを示しています。A value of +3 indicates that the auto is risky, and a value of -3 that it is probably safe.

使用法:回帰または多変量分類を使用して、機能別のリスク スコアを予測します。 Usage: Predict the risk score by features, using regression or multivariate classification.

関連の研究:Schlimmer, J.C. Related Research: Schlimmer, J.C. (1987 年)。(1987). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

自転車レンタルの UCI データセットBike Rental UCI dataset UCI Bike Rental データセットを使用します。このデータセットは、ワシントン D.C. で自転車のレンタル ネットワークを管理している Capital Bikeshare 社の実際のデータに基づいています。UCI Bike Rental dataset that is based on real data from Capital Bikeshare company that maintains a bike rental network in Washington DC.

このデータセットは、2011 年と 2012 年の各日の 1 時間ごとに 1 行という構成になっており、全体で 17,379 行あります。The dataset has one row for each hour of each day in 2011 and 2012, for a total of 17,379 rows. 毎時間の自転車レンタル数の範囲は 1 ~ 977 です。The range of hourly bike rentals is from 1 to 977.

Bill Gates の RGB 画像Bill Gates RGB Image CSV データに変換された、公開の画像ファイル。Publicly available image file converted to CSV data.

画像を変換するコードは、K-平均法クラスタリングを使用した色の量子化モデルの詳細ページで提供されています。The code for converting the image is provided in the Color quantization using K-Means clustering model detail page.

献血データBlood donation data 台湾新竹市にある輸血サービス センターの献血者データベースから提供されたデータのサブセットです。A subset of data from the blood donor database of the Blood Transfusion Service Center of Hsin-Chu City, Taiwan.

献血データには、最後の献血からの経過月数、頻度、献血の合計回数、最後の献血からの経過期間、献血量が含まれます。Donor data includes the months since last donation), and frequency, or the total number of donations, time since last donation, and amount of blood donated.

使用法:目標は、2007 年 3 月に献血者が献血を実施したかどうかの分類に基づいて予測を実行することです。1 は対象期間に献血をした人、0 はしなかった人を示しています。 Usage: The goal is to predict via classification whether the donor donated blood in March 2007, where 1 indicates a donor during the target period, and 0 a non-donor.

関連の研究:Yeh, I. (2008 年)。 Related Research: Yeh, I.C., (2008). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng、Yang, King-Jang、Ting, Tao-Ming、「Knowledge discovery on RFM model using Bernoulli sequence」、Expert Systems with Applications、2008 年、https://dx.doi.org/10.1016/j.eswa.2008.07.018 Yeh, I-Cheng, Yang, King-Jang, and Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence, "Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018

乳がんデータBreast cancer data 機械学習に関する文献で頻繁に登場する腫瘍学研究所が提供した、3 つのがん関連データセットの 1 つです。One of three cancer-related datasets provided by the Oncology Institute that appears frequently in machine learning literature. 診断情報と、研究所が分析した 300 個の細胞組織サンプルの特徴が組み合わせられています。Combines diagnostic information with features from laboratory analysis of about 300 tissue samples.

使用法:がんの種類を 9 つの属性 (線形、カテゴリなど) に基づいて分類します。 Usage: Classify the type of cancer, based on 9 attributes, some of which are linear and some are categorical.

関連の研究:Wohlberg, W.H.、Street, W.N.、Mangasarian, O.L. Related Research: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995 年)。(1995). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

乳がん特徴Breast Cancer Features それぞれ 117 個の特徴によって説明される、約 102,000 件の疑わしい領域 (対象) を示す X 線画像に関する情報が含まれます。The dataset contains information for 102K suspicious regions (candidates) of X-ray images, each described by 117 features. 特徴は独占所有されており、データセット作成元 (Siemens Healthcare) は特徴の意味を公開していません。The features are proprietary and their meaning is not revealed by the dataset creators (Siemens Healthcare).
乳がん情報Breast Cancer Info データセットには、X 線画像の疑わしい領域それぞれについての追加情報が含まれています。The dataset contains additional information for each suspicious region of X-ray image. それぞれの例に、乳がんの特徴データセット内の対応する行番号について、ラベル、患者 ID、画像全体に対する患部の座標などの情報が提供されています。Each example provides information (for example, label, patient ID, coordinates of patch relative to the whole image) about the corresponding row number in the Breast Cancer Features dataset. 1 人の患者に複数の例あります。Each patient has a number of examples. がんを発症している患者については、いくつかの例は陽性で、いくつかの例は陰性です。For patients who have a cancer, some examples are positive and some are negative. がんでない患者の場合、すべての例は陰性です。For patients who don't have a cancer, all examples are negative. データセットには約 102,000 件の例が含まれています。The dataset has 102K examples. データセットには偏りがあり、陽性は全ポイントの 0.6% で、残りは陽性です。The dataset is biased, 0.6% of the points are positive, the rest are negative. データセットは Siemens Healthcare によって提供されています。The dataset was made available by Siemens Healthcare.
CRM 強い欲求ラベルの共有CRM Appetency Labels Shared KDD Cup 2009 顧客間関係の予測に関する課題のラベル (orange_small_train_appetency.labels)。Labels from the KDD Cup 2009 customer relationship prediction challenge (orange_small_train_appetency.labels).
CRM 離反ラベルの共有CRM Churn Labels Shared KDD Cup 2009 顧客間関係の予測に関する課題のラベル (orange_small_train_churn.labels)。Labels from the KDD Cup 2009 customer relationship prediction challenge (orange_small_train_churn.labels).
CRM データセットの共有CRM Dataset Shared このデータは、KDD Cup 2009 顧客関係の予測に関する課題から取得しています (orange_small_train.data.zip)。This data comes from the KDD Cup 2009 customer relationship prediction challenge (orange_small_train.data.zip).

データセットには、French Telecom company Orange の顧客 50,000 人のデータが含まれます。The dataset contains 50K customers from the French Telecom company Orange. 各顧客には匿名化された特徴が 230 あり、その中の 190 が数値で、40 がカテゴリです。Each customer has 230 anonymized features, 190 of which are numeric and 40 are categorical. 特徴はきわめて疎です。The features are very sparse.

CRM アップセリング ラベルの共有CRM Upselling Labels Shared KDD Cup 2009 顧客間関係の予測に関する課題のラベル (orange_large_train_upselling.labels)。Labels from the KDD Cup 2009 customer relationship prediction challenge (orange_large_train_upselling.labels).
エネルギー効率回帰データEnergy-Efficiency Regression data 12 種類の建物形状に基づいてシミュレーションされたエネルギー プロファイルのコレクションです。A collection of simulated energy profiles, based on 12 different building shapes. 建物は 8 種類の特徴によって区別されています。The buildings are differentiated by eight features. これには、ガラス部分、ガラス部分の配置、方向が含まれます。This includes glazing area, the glazing area distribution, and orientation.

使用法:回帰または分類を使用して、2 つの実数値のうち 1 つを応答としてエネルギー効率を評価します。 Usage: Use either regression or classification to predict the energy-efficiency rating based as one of two real valued responses. マルチクラス分類の場合、応答変数が最も近い整数に丸められます。For multi-class classification, is round the response variable to the nearest integer.

関連の研究:Xifara, A、Tsanas, A.(2012 年)。 Related Research: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

フライト遅延データFlight Delays Data 米国運輸省の TranStats データ コレクションから取得した旅客機の定時運航データ (定時)。Passenger flight on-time performance data taken from the TranStats data collection of the U.S. Department of Transportation (On-Time).

データセットには、2013 年 4 月から 10 月までの期間のデータが含まれます。The dataset covers the time period April-October 2013. Azure Machine Learning Studio にアップロードする前に、データセットは次のように処理されています。Before uploading to Azure Machine Learning Studio, the dataset was processed as follows:

  • 米国本土の混雑度が上位 70 位までの空港を含めるように、データセットをフィルター処理します。The dataset was filtered to cover only the 70 busiest airports in the continental US
  • キャンセルされたフライトは 15 分超の遅延として分類します。Canceled flights were labeled as delayed by more than 15 minutes
  • 迂回したフライトをフィルターで外します。Diverted flights were filtered out
  • 次の列が選択されています。Year、Month、DayofMonth、DayOfWeek、Carrier、OriginAirportID、DestAirportID、CRSDepTime、DepDelay、DepDel15、CRSArrTime、ArrDelay、ArrDel15、CancelledThe following columns were selected: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
定刻フライト実績 (生データ)Flight on-time performance (Raw) 2011 年 10 月の米国における航空機のフライトの発着記録です。Records of airplane flight arrivals and departures within United States from October 2011.

使用法:フライトの遅延を予測します。 Usage: Predict flight delays.

関連の研究:米国運輸省 https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time より。 Related Research: From US Dept. of Transportation https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.

森林火災データForest fires data 不快指数や風速などの気象データが含まれます。Contains weather data, such as temperature and humidity indices and wind speed. データはポルトガル北東地域から取得され、森林火災の記録と結合されます。The data is taken from an area of northeast Portugal, combined with records of forest fires.

使用法:森林火災の被害地域を予測する回帰を実行するという、難しい作業となります。 Usage: This is a difficult regression task, where the aim is to predict the burned area of forest fires.

関連の研究:Cortez, P.、Morais, A.(2008 年)。 Related Research: Cortez, P., & Morais, A. (2008). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

[Cortez and Morais、2007 年] P. Cortez、A. Morais.[Cortez and Morais, 2007] P. Cortez and A. Morais. 「A Data Mining Approach to Predict Forest Fires using Meteorological Data」A Data Mining Approach to Predict Forest Fires using Meteorological Data. J. Neves、M. F.In J. Neves, M. F. Santos and J. Machado Eds.、「New Trends in Artificial Intelligence」(第 13 回 EPIA 2007 - Portuguese Conference on Artificial Intelligence 議事録、512 から 523 ページ) 開催地: ギマランエス (ポルトガル)。2007 年。Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA,、SBN-13 978-989-95618-0-9。APPIA, ISBN-13 978-989-95618-0-9. http://www.dsi.uminho.pt/~pcortez/fires.pdf で入手可能。Available at: http://www.dsi.uminho.pt/~pcortez/fires.pdf.

ドイツのクレジット カード UCI データセットGerman Credit Card UCI dataset german.data ファイルを使用した、UCI Statlog (ドイツのクレジット カード) データセット (Statlog+German+Credit+Data)。The UCI Statlog (German Credit Card) dataset (Statlog+German+Credit+Data), using the german.data file.

データセットは、低信用リスクまたは高信用リスクとして属性のセットで表現された人々を分類します。The dataset classifies people, described by a set of attributes, as low or high credit risks. サンプルはそれぞれ人を表します。Each example represents a person. 20 の特徴があり、数値とカテゴリの両方と、二項のラベル (信用リスク値) で構成されます。There are 20 features, both numerical and categorical, and a binary label (the credit risk value). 高信用リスクのエントリにはラベル 2、低信用リスクのエントリにはラベル 1 が付きます。High credit risk entries have label = 2, low credit risk entries have label = 1. 低信用リスクのサンプルを高信用リスクとして誤って分類した場合のコストは 1 ですが、高信用リスクのサンプルを低信用リスクとして誤って分類した場合のコストは 5 です。The cost of misclassifying a low risk example as high is 1, whereas the cost of misclassifying a high risk example as low is 5.

IMDB 映画のタイトルIMDB Movie Titles このデータセットには、Twitter のツイートで評価された映画に関する情報として、IMDB 登録 ID、映画の名称、ジャンル、および制作年が含まれます。The dataset contains information about movies that were rated in Twitter tweets: IMDB movie ID, movie name, genre, and production year. 約 17,000 件の映画の情報があります。There are 17K movies in the dataset. データセットは、S.The dataset was introduced in the paper "S. Dooms, T. De Pessemier and L. Martens による論文Dooms, T. De Pessemier and L. Martens. 「MovieTweetings: a Movie Rating Dataset Collected From Twitter。MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013」で紹介されました。Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013."
あやめの 2 クラス データIris two class data パターン認識の文献でおそらく最も多く使用されているデータベースです。This is perhaps the best known database to be found in the pattern recognition literature. 3 種類のあやめの品種について 50 例の花弁を測定した、比較的小さなデータセットです。The dataset is relatively small, containing 50 examples each of petal measurements from three iris varieties.

使用法:あやめの品種を測定値から予測します。 Usage: Predict the iris type from the measurements.

関連の研究:Fisher, R.A. Related Research: Fisher, R.A. (1988 年)。(1988). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

ムービーのツイートMovie Tweets このデータセットは、ムービー ツイート データセットの拡張バージョンです。The dataset is an extended version of the Movie Tweetings dataset. Twitter で適切に構成されたツイートから抽出した、約 170,000 件の評価が含まれます。The dataset has 170K ratings for movies, extracted from well-structured tweets on Twitter. 各インスタンスは 1 つのツイートを表し、ユーザー ID、IMDB 登録 ID、評価、タイプスタンプ、このツイートのお気に入りの数、そして、このツイートのリツイートの数を組み合わせたタプルです。Each instance represents a tweet and is a tuple: user ID, IMDB movie ID, rating, timestamp, number of favorites for this tweet, and number of retweets of this tweet. データセットは、A. Said、S. Dooms、B. Loni、D. Tikk によって Recommender Systems Challenge 2014 のために提供されました。The dataset was made available by A. Said, S. Dooms, B. Loni and D. Tikk for Recommender Systems Challenge 2014.
さまざまな自動車の燃費データMPG data for various automobiles カーネギーメロン大学 StatLib 研究所が提供したデータセットを多少変更したものです。This dataset is a slightly modified version of the dataset provided by the StatLib library of Carnegie Mellon University. このデータセットは 1983 年に米国統計学会で使用された実績があります。The dataset was used in the 1983 American Statistical Association Exposition.

データには、さまざまな車体の燃料消費量がガロンあたりのマイル数で一覧表示されます。The data lists fuel consumption for various automobiles in miles per gallon. これには、シリンダー数、エンジン排気量、馬力、総重量、加速度などの情報が含まれます。It also includes information such as the number of cylinders, engine displacement, horsepower, total weight, and acceleration.

使用法:3 つの多値離散属性と 5 つの連続属性に基づいて燃費効率を予測します。 Usage: Predict fuel economy based on three multivalued discrete attributes and five continuous attributes.

関連の研究:カーネギーメロン大学 StatLib (1993 年)。 Related Research: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

ピマ族の糖尿病に関する二項分類データセットPima Indians Diabetes Binary Classification dataset 国立糖尿病・消化器・腎疾病研究所のデータベースから提供されたデータのサブセットです。A subset of data from the National Institute of Diabetes and Digestive and Kidney Diseases database. データセットはフィルタリングされ、ピマ族の女性患者だけが対象とされています。The dataset was filtered to focus on female patients of Pima Indian heritage. データには、血糖値やインスリン値などの医療データと、生活習慣要因が含まれています。The data includes medical data such as glucose and insulin levels, as well as lifestyle factors.

使用法:対象者が糖尿病にかかっているかどうかを予測します (二項分類)。 Usage: Predict whether the subject has diabetes (binary classification).

関連の研究:Sigillito, V.(1990 年)。 Related Research: Sigillito, V. (1990). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/ml"UCI Machine Learning Repository https://archive.ics.uci.edu/ml". カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

レストラン顧客データRestaurant customer data 人口統計データや嗜好など、顧客に関するメタデータのセットです。A set of metadata about customers, including demographics and preferences.

使用法:このデータセットを、レストランに関する他の 2 つのデータセットと組み合わせて使用して、レコメンダー システムの調整とテストを実施します。 Usage: Use this dataset, in combination with the other two restaurant datasets, to train and test a recommender system.

関連の研究:Bache, K.、Lichman, M.(2013 年)。 Related Research: Bache, K. and Lichman, M. (2013). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部。Irvine, CA: University of California, School of Information and Computer Science.

レストラン特徴データRestaurant feature data 料理の種類、食事スタイル、場所など、レストランとその特徴に関するメタデータのセットです。A set of metadata about restaurants and their features, such as food type, dining style, and location.

使用法:このデータセットを、レストランに関する他の 2 つのデータセットと組み合わせて使用して、レコメンダー システムの調整とテストを実施します。 Usage: Use this dataset, in combination with the other two restaurant datasets, to train and test a recommender system.

関連の研究:Bache, K.、Lichman, M.(2013 年)。 Related Research: Bache, K. and Lichman, M. (2013). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部。Irvine, CA: University of California, School of Information and Computer Science.

レストランの評価Restaurant ratings ユーザーによるレストランの評価 (0 ~ 2) が含まれます。Contains ratings given by users to restaurants on a scale from 0 to 2.

使用法:このデータセットを、レストランに関する他の 2 つのデータセットと組み合わせて使用して、レコメンダー システムの調整とテストを実施します。 Usage: Use this dataset, in combination with the other two restaurant datasets, to train and test a recommender system.

関連の研究:Bache, K.、Lichman, M.(2013 年)。 Related Research: Bache, K. and Lichman, M. (2013). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部。Irvine, CA: University of California, School of Information and Computer Science.

鉄鋼のアニール処理に関するマルチクラス データセットSteel Annealing multi-class dataset このデータセットには、鉄鋼のアニール処理試験に関する一連の記録が含まれています。This dataset contains a series of records from steel annealing trials. 幅、厚み、種類 (コイル、シートなど) など、処理後のさまざまな物理的属性も含まれます。It contains the physical attributes (width, thickness, type (coil, sheet, etc.) of the resulting steel types.

使用法:2 つの数値クラス属性 (硬度と強度) のいずれかを予測します。 Usage: Predict any of two numeric class attributes; hardness or strength. 属性間の相関関係を分析することも可能です。You might also analyze correlations among attributes.

鉄鋼のグレードは、SAE その他の機関が定義した標準に準拠します。Steel grades follow a set standard, defined by SAE and other organizations. 特定の "グレード"(クラス変数) を検索して、必要な値を把握する必要があります。You are looking for a specific 'grade' (the class variable) and want to understand the values needed.

関連の研究:Sterling, D.、Buntine, W.(年度不明)。 Related Research: Sterling, D. & Buntine, W. (NA). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報・コンピューター サイエンス学部Irvine, CA: University of California, School of Information and Computer Science

鉄鋼グレードの有用なガイドは、https://otk-sitecore-prod-v2-cdn.azureedge.net/-/media/from-sharepoint/documents/product/outokumpu-steel-grades-properties-global-standards.pdf にあります。A useful guide to steel grades can be found here: https://otk-sitecore-prod-v2-cdn.azureedge.net/-/media/from-sharepoint/documents/product/outokumpu-steel-grades-properties-global-standards.pdf

望遠鏡データTelescope data 高エネルギー ガンマ線バーストとバックグラウンド ノイズをモンテカルロ法でシミュレーションした記録です。Record of high energy gamma particle bursts along with background noise, both simulated using a Monte Carlo process.

シミュレーションの目的は大気地上チェレンコフ ガンマ望遠鏡の精度向上です。The intent of the simulation was to improve the accuracy of ground-based atmospheric Cherenkov gamma telescopes. これは、期待する信号 (チェレンコフ放射) と上層大気の宇宙線から発生するバックグラウンド ノイズ (ハドロン放射) を統計的手法によって区別することで実現します。This is done by using statistical methods to differentiate between the desired signal (Cherenkov radiation showers) and background noise (hadronic showers initiated by cosmic rays in the upper atmosphere).

データを前処理することによって、長軸がカメラの中心を向く伸長クラスターが作成されています。The data has been pre-processed to create an elongated cluster with the long axis is oriented towards the camera center. この楕円のさまざまな特性は通常 Hillas パラメーターと呼ばれ、これらが画像のパラメーターに表れることによって区別が可能になります。The characteristics of this ellipse (often called Hillas parameters) are among the image parameters that can be used for discrimination.

使用法:放射の画像が信号とバックグラウンド ノイズのどちらを表しているかを予測します。 Usage: Predict whether image of a shower represents signal or background noise.

注:バックグラウンド イベントを信号に分類することは、シグナル イベントをバックグラウンドに分類することよりも大きな悪影響を及ぼすため、シンプルな分類の正確度は、このデータでは意味を持ちません。 Notes: Simple classification accuracy is not meaningful for this data, since classifying a background event as signal is worse than classifying a signal event as background. 異なる分類子の比較には ROC グラフを使用する必要があります。For comparison of different classifiers, the ROC graph should be used. バックグラウンド イベントを信号として受信する可能性は、次のしきい値のいずれかを下回る必要があります。0.01、0.02、0.05、0.1、または 0.2。The probability of accepting a background event as signal must be below one of the following thresholds: 0.01, 0.02, 0.05, 0.1, or 0.2.

また、バックグラウンド イベントの数 (ハドロン放射の場合 h) は過小評価されます。Also, note that the number of background events (h, for hadronic showers) is underestimated. 実際の測定では、h またはノイズ クラスがイベントの大部分を占めています。In real measurements, the h or noise class represents the majority of events.

関連の研究:Bock, R.K. Related Research: Bock, R.K. (1995 年)。(1995). UCI Machine Learning リポジトリ https://archive.ics.uci.edu/mlUCI Machine Learning Repository https://archive.ics.uci.edu/ml. カリフォルニア州アーバイン:カリフォルニア大学、情報学部Irvine, CA: University of California, School of Information

天候データセットWeather Dataset NOAA の 1 時間ごとの陸上の気象観測 (2013 年 4 月から 2013 年 10 月までのデータをマージ)。Hourly land-based weather observations from NOAA (merged data from 201304 to 201310).

気象データには、2013 年 4 月から 10 月までの期間の航空気象観測所での観測が含まれます。The weather data covers observations made from airport weather stations, covering the time period April-October 2013. Azure Machine Learning Studio にアップロードする前に、データセットは次のように処理されています。Before uploading to Azure Machine Learning Studio, the dataset was processed as follows:

  • 気象観測所 ID を対応する空港 ID にマッピングします。Weather station IDs were mapped to corresponding airport IDs
  • 混雑度が上位 70 位の空港に関連付けられていない気象観測所をフィルターで外します。Weather stations not associated with the 70 busiest airports were filtered out
  • Date 列を Year、Month、Day の列に分割します。The Date column was split into separate Year, Month, and Day columns
  • 次の列が選択されています。AirportID、Year、Month、Day、Time、TimeZone、SkyCondition、Visibility、WeatherType、DryBulbFarenheit、DryBulbCelsius、WetBulbFarenheit、WetBulbCelsius、DewPointFarenheit、DewPointCelsius、RelativeHumidity、WindSpeed、WindDirection、ValueForWindCharacter、StationPressure、PressureTendency、PressureChange、SeaLevelPressure、RecordType、HourlyPrecip、AltimeterThe following columns were selected: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Wikipedia SP 500 データセットWikipedia SP 500 Dataset データは、S&P 500 企業それぞれの記事に基づいて Wikipedia (https://www.wikipedia.org/) から取得され、XML データとして格納されています。Data is derived from Wikipedia (https://www.wikipedia.org/) based on articles of each S&P 500 company, stored as XML data.

Azure Machine Learning Studio にアップロードする前に、データセットは次のように処理されています。Before uploading to Azure Machine Learning Studio, the dataset was processed as follows:

  • 特定の企業のテキスト コンテンツを抽出します。Extract text content for each specific company
  • Wiki の書式設定を削除します。Remove wiki formatting
  • 英数字以外の文字を削除します。Remove non-alphanumeric characters
  • すべてのテキストを小文字に変換します。Convert all text to lowercase
  • 既知の会社のカテゴリを追加します。Known company categories were added

いくつかの企業の記事が見つからないため、レコード数は 500 未満であることに注意してください。Note that for some companies an article could not be found, so the number of records is less than 500.

direct_marketing.csvdirect_marketing.csv 顧客データと、ダイレクト メール キャンペーンに対する顧客の反応を示す指標が含まれます。The dataset contains customer data and indications about their response to a direct mailing campaign. 1 行につき 1 件の顧客を表します。Each row represents a customer. データセットには、ユーザーの人口統計と過去の行動に関する 9 個の特徴と、3 つのラベル列 (訪問、コンバージョン、支出) が含まれます。The dataset contains nine features about user demographics and past behavior, and three label columns (visit, conversion, and spend). 訪問は、顧客がマーケティング キャンペーン後に訪問したことを示すバイナリ列です。Visit is a binary column that indicates that a customer visited after the marketing campaign. コンバージョンは、顧客が何かを購入したことを示します。Conversion indicates a customer purchased something. 支出は、使われた金額です。Spend is the amount that was spent. データセットは Kevin Hillstrom によって、MineThatData 電子メール分析とデータ マイニングの課題用に提供されています。The dataset was made available by Kevin Hillstrom for MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csvlyrl2004_tokens_test.csv RCV1-V2 Reuters ニュースのデータセットにあるテスト例の特徴。Features of test examples in the RCV1-V2 Reuters news dataset. データセットには約 781,000 本のニュース記事が、それぞれの記事の ID (データセットの最初の列) と共に含まれます。The dataset has 781K news articles along with their IDs (first column of the dataset). 各記事はトークン化され、ストップワード処理と語幹処理が行われています。Each article is tokenized, stopworded, and stemmed. データセットは DavidThe dataset was made available by David. D.D. Lewis によって提供されています。Lewis.
lyrl2004_tokens_train.csvlyrl2004_tokens_train.csv RCV1-V2 Reuters ニュースのデータセットにあるトレーニング例の特徴。Features of training examples in the RCV1-V2 Reuters news dataset. データセットには約 23,000 本のニュース記事が、それぞれの記事の ID (データセットの最初の列) と共に含まれます。The dataset has 23K news articles along with their IDs (first column of the dataset). 各記事はトークン化され、ストップワード処理と語幹処理が行われています。Each article is tokenized, stopworded, and stemmed. データセットは DavidThe dataset was made available by David. D.D. Lewis によって提供されています。Lewis.
network_intrusion_detection.csvnetwork_intrusion_detection.csv
KDD Cup 1999 ナレッジ検出とデータ マイニング ツールのコンペティションのデータセット (kddcup99.html)。Dataset from the KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

データセットは、Azure Blob Storage にダウンロードされ、格納されています (network_intrusion_detection.csv)。データセットには、トレーニングとテストの両方のデータセットが含まれます。The dataset was downloaded and stored in Azure Blob storage (network_intrusion_detection.csv) and includes both training and testing datasets. トレーニング データセットには、ラベルも含めておよそ 126,000 個の行と 43 個の列があります。The training dataset has approximately 126K rows and 43 columns, including the labels. ラベル情報の一部である 3 列と、数値、文字列、カテゴリによる特徴で構成される 40 列がモデルのトレーニングに使用できます。Three columns are part of the label information, and 40 columns, consisting of numeric and string/categorical features, are available for training the model. テスト データには約 22,500 個のテスト例があります (トレーニング データと同じ 43 列が含まれます)。The test data has approximately 22.5K test examples with the same 43 columns as in the training data.

rcv1-v2.topics.qrels.csvrcv1-v2.topics.qrels.csv RCV1-V2 Reuters ニュース データセット内のニュース記事のトピック割り当てです。Topic assignments for news articles in the RCV1-V2 Reuters news dataset. 1 つのニュース記事を複数のトピックに割り当てることができます。A news article can be assigned to several topics. 各行の形式は "<トピック名> <ドキュメント ID> 1" です。The format of each row is "<topic name> <document id> 1". データセットには、260 万件のトピック割り当てが含まれます。The dataset contains 2.6M topic assignments. データセットは DavidThe dataset was made available by David. D.D. Lewis によって提供されています。Lewis.
student_performance.txtstudent_performance.txt このデータは、KDD Cup 2010 学生の成績評価に関する課題 (学生の成績評価) から取得しています。This data comes from the KDD Cup 2010 Student performance evaluation challenge (student performance evaluation). 使用されるデータは、Algebra_2008_2009 トレーニング セット (Stamper, J.、Niculescu-Mizil, A.、Ritter, S.、Gordon, G.J.、Koedinger, K.R.The data used is the Algebra_2008_2009 training set (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010)、(2010). Algebra I 2008-2009 です。Algebra I 2008-2009. KDD Cup 2010 データ マイニングの学習課題のデータセットは、Challenge dataset from KDD Cup 2010 Educational Data Mining Challenge. downloads.jsp にあります。Find it at downloads.jsp.

データセットは、Azure Blob Storage にダウンロードされ、格納されています (student_performance.txt)。データセットには、学生のチュータリング システムのログ ファイルが含まれます。The dataset was downloaded and stored in Azure Blob storage (student_performance.txt) and contains log files from a student tutoring system. 提供される特徴には、問題 ID とその簡潔な説明、学生 ID、タイムスタンプ、学生が問題を正しい方法で解くまでにかかった回数があります。The supplied features include problem ID and its brief description, student ID, timestamp, and how many attempts the student made before solving the problem in the right way. 元のデータセットには、8,900,000 件のレコードが含まれますが、このデータセットは、最初の 100,000 行にダウンサンプリングされています。The original dataset has 8.9M records; this dataset has been down-sampled to the first 100K rows. このデータセットには、23 個のタブで区切られた、さまざまなタイプ (数値、カテゴリ、およびタイムスタンプ) の列が含まれます。The dataset has 23 tab-separated columns of various types: numeric, categorical, and timestamp.

次の手順Next steps