Úlohy strojového učení v ML.NETMachine learning tasks in ML.NET

Při sestavování modelu strojového učení nejdřív musíte definovat, co se vám doufá že k dosažení vašich dat.When building a machine learning model, you first need to define what you are hoping to achieve with your data. Díky tomu můžete zvolit správnou úlohu strojového učení pro vaši situaci.This allows you to choose the right machine learning task for your situation. V následujícím seznamu jsou popsány různé úlohy strojového učení, ze kterých si můžete vybrat, a některé běžné případy použití.The following list describes the different machine learning tasks that you can choose from and some common use cases. Další informace o výběru úlohy, která je vhodná pro váš scénář, najdete v tématu algoritmy.For more information about choosing the task that is appropriate for your scenario, see Algorithms.

Jakmile se rozhodnete, který úkol pro váš scénář funguje, musíte zvolit nejlepší algoritmus pro vyučování modelu.Once you have decided which task works for your scenario, then you need to choose the best algorithm to train your model. Dostupné algoritmy jsou uvedené v části pro každý úkol.The available algorithms are listed in the section for each task.

binární klasifikaceBinary classification

Úkol strojového učení pod dohledem , který se používá k předpovídání dvou tříd (kategorií), do kterých patří instance dat.A supervised machine learning task that is used to predict which of two classes (categories) an instance of data belongs to. Vstup klasifikačního algoritmu je sada popisných příkladů, kde je každý popisek celé číslo 0 nebo 1.The input of a classification algorithm is a set of labeled examples, where each label is an integer of either 0 or 1. Výstup binárního klasifikačního algoritmu je klasifikátor, který můžete použít k předpovědi třídy nových neoznačených instancí.The output of a binary classification algorithm is a classifier, which you can use to predict the class of new unlabeled instances. Mezi příklady scénářů binární klasifikace patří:Examples of binary classification scenarios include:

  • Princip mínění komentářů na Twitteru jako "kladné" nebo "záporné".Understanding sentiment of Twitter comments as either "positive" or "negative".
  • Diagnostikuje, jestli má pacient určitou chorobu nebo ne.Diagnosing whether a patient has a certain disease or not.
  • Rozhodování o označení e-mailu jako "spam" nebo ne.Making a decision to mark an email as "spam" or not.
  • Určení, jestli fotka obsahuje určitou položku, například pes nebo ovoce.Determining if a photo contains a particular item or not, such as a dog or fruit.

Další informace najdete v článku o binární klasifikaci v Wikipedii.For more information, see the Binary classification article on Wikipedia.

Školitele binární klasifikaceBinary classification trainers

Model binární klasifikace můžete proškolit pomocí těchto algoritmů:You can train a binary classification model using the following algorithms:

Binární vstupy a výstupy klasifikaceBinary classification inputs and outputs

Pro dosažení nejlepších výsledků s binární klasifikací musí být školicí data vyvážená (tj. stejná čísla kladných a záporných školicích dat).For best results with binary classification, the training data should be balanced (that is, equal numbers of positive and negative training data). Před školením by měly být zpracovány chybějící hodnoty.Missing values should be handled before training.

Data sloupce vstupního popisku musí být Boolean.The input label column data must be Boolean. Data ve sloupci vstupní funkce musí být vektorem s pevnou velikostí Single.The input features column data must be a fixed-size vector of Single.

Výstup učitelů má následující sloupce:These trainers output the following columns:

Název výstupního sloupceOutput Column Name Typ sloupceColumn Type PopisDescription
Score Single Nezpracované skóre, které bylo vypočítáno modelemThe raw score that was calculated by the model
PredictedLabel Boolean Předpokládaný popisek, založený na znaménku skóre.The predicted label, based on the sign of the score. Záporné skóre se mapuje na false a kladné skóre se mapuje na true.A negative score maps to false and a positive score maps to true.

klasifikace s více třídamiMulticlass classification

Úkol strojového učení pod dohledem , který se používá k předvídání třídy dat instance.A supervised machine learning task that is used to predict the class (category) of an instance of data. Vstup algoritmu klasifikace je sada příkladů s popisky.The input of a classification algorithm is a set of labeled examples. Každý popisek normálně začíná jako text.Each label normally starts as text. Pak se spustí přes TermTransform, který ho převede na klíč (číselný) typ.It is then run through the TermTransform, which converts it to the Key (numeric) type. Výstup algoritmu klasifikace je klasifikátor, který můžete použít k předpovědi třídy nových neoznačených instancí.The output of a classification algorithm is a classifier, which you can use to predict the class of new unlabeled instances. Mezi příklady scénářů klasifikace s více třídami patří:Examples of multi-class classification scenarios include:

  • Určení plemene psa jako "Siberian Husky", "zlatý spuštění metody Retriever", "Poodle" atd.Determining the breed of a dog as a "Siberian Husky", "Golden Retriever", "Poodle", etc.
  • Pochopíte recenze filmů jako "pozitivní", "neutrální" nebo "negativní".Understanding movie reviews as "positive", "neutral", or "negative".
  • Kategorizace hodnocení hotelu jako "umístění", "cena", "čistota" atd.Categorizing hotel reviews as "location", "price", "cleanliness", etc.

Další informace naleznete v článku o třídě s více třídami na Wikipedii.For more information, see the Multiclass classification article on Wikipedia.

Poznámka

Jedna sada vs všechno upgraduje libovolný postup binární klasifikace , aby fungovala u datových sad s více třídami.One vs all upgrades any binary classification learner to act on multiclass datasets. Další informace o [Wikipedii] (https://en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest).More information on [Wikipedia] (https://en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest).

Školitel klasifikace s více třídamiMulticlass classification trainers

Model klasifikace s více třídami můžete proškolit pomocí následujících školicích algoritmů:You can train a multiclass classification model using the following training algorithms:

Vstupy a výstupy s více třídami klasifikaceMulticlass classification inputs and outputs

Data sloupce vstupního popisku musí být typu Key .The input label column data must be key type. Sloupec funkce musí být vektorem pevné velikosti Single.The feature column must be a fixed size vector of Single.

Tento Trainer má následující výstup:This trainer outputs the following:

Název výstupuOutput Name TypType PopisDescription
Score vektor SingleVector of Single Skóre všech tříd.The scores of all classes. Vyšší hodnota znamená vyšší pravděpodobnost pro přechod do přidružené třídy.Higher value means higher probability to fall into the associated class. Pokud má i-th největší hodnotu, index předpokládaného popisku by byl i.If the i-th element has the largest value, the predicted label index would be i. Všimněte si, že je index založený na nule.Note that i is zero-based index.
PredictedLabel typ klíčekey type Index předpokládaného popisku.The predicted label's index. Pokud je jeho hodnota, vlastní popisek bude i-th kategorie v typu vstupního popisku s hodnotou klíče.If its value is i, the actual label would be the i-th category in the key-valued input label type.

NevýhodyRegression

Úkol strojového učení pod dohledem , který se používá k předpovědi hodnoty popisku ze sady souvisejících funkcí.A supervised machine learning task that is used to predict the value of the label from a set of related features. Popisek může být jakékoli reálné hodnoty a nepochází z konečné sady hodnot jako v rámci úloh klasifikace.The label can be of any real value and is not from a finite set of values as in classification tasks. Regresní algoritmy modelují závislost popisku na jeho souvisejících funkcích, aby určili, jak se popisek změní, protože hodnoty funkcí se mění.Regression algorithms model the dependency of the label on its related features to determine how the label will change as the values of the features are varied. Vstup regresního algoritmu je sada příkladů s popisky známých hodnot.The input of a regression algorithm is a set of examples with labels of known values. Výstupem regresního algoritmu je funkce, kterou můžete použít k předpovědi hodnoty popisku pro všechny nové sady vstupních funkcí.The output of a regression algorithm is a function, which you can use to predict the label value for any new set of input features. Mezi příklady scénářů regrese patří:Examples of regression scenarios include:

  • Předvídání cen domu na základě atributů na pracovišti, jako je počet ložnicemi, umístění nebo velikost.Predicting house prices based on house attributes such as number of bedrooms, location, or size.
  • Předvídání budoucích cen za ceny na základě historických dat a současných vývojů na trhu.Predicting future stock prices based on historical data and current market trends.
  • Předvídání prodeje produktů na základě reklamních rozpočtů.Predicting sales of a product based on advertising budgets.

Regresní školiteleRegression trainers

Regresní model můžete naučit pomocí těchto algoritmů:You can train a regression model using the following algorithms:

Regrese – vstupy a výstupyRegression inputs and outputs

Data sloupce vstupního popisku musí být Single.The input label column data must be Single.

Školitel pro tento úkol má následující výstup:The trainers for this task output the following:

Název výstupuOutput Name TypType PopisDescription
Score Single Nezpracované skóre, které model předpovídáThe raw score that was predicted by the model

ClusteringClustering

Úkol strojového učení, který není pod dohledem , který se používá k seskupení instancí dat do clusterů, které obsahují podobné charakteristiky.An unsupervised machine learning task that is used to group instances of data into clusters that contain similar characteristics. Clustering lze také použít k identifikaci relací v datové sadě, které nemůžete logicky odvodit pomocí procházení nebo jednoduchého sledování.Clustering can also be used to identify relationships in a dataset that you might not logically derive by browsing or simple observation. Vstupy a výstupy algoritmu clusteringu závisí na zvolené metodologii.The inputs and outputs of a clustering algorithm depends on the methodology chosen. Můžete provést distribuci, těžiště, připojení nebo přístup na základě hustoty.You can take a distribution, centroid, connectivity, or density-based approach. ML.NET aktuálně podporuje přístup založený na těžiště pomocí K-znamená clustering.ML.NET currently supports a centroid-based approach using K-Means clustering. Mezi příklady scénářů clusteringu patří:Examples of clustering scenarios include:

  • Porozumění segmentům hostů v hotelovém typu na základě zvyklostí a vlastností možností hotelu.Understanding segments of hotel guests based on habits and characteristics of hotel choices.
  • Identifikujte segmenty zákazníků a demografické údaje, které vám pomůžou vytvářet cílené reklamní kampaně.Identifying customer segments and demographics to help build targeted advertising campaigns.
  • Kategorizace inventáře na základě výrobních metrik.Categorizing inventory based on manufacturing metrics.

Clustering TrainerClustering trainer

Model clusteringu můžete proškolit pomocí následujícího algoritmu:You can train a clustering model using the following algorithm:

Vstupy a výstupy clusteringuClustering inputs and outputs

Data funkcí input musí být Single.The input features data must be Single. Nejsou nutné žádné popisky.No labels are needed.

Tento Trainer má následující výstup:This trainer outputs the following:

Název výstupuOutput Name TypType PopisDescription
Score vektor Singlevector of Single Vzdálenosti daného datového bodu ke všem clusterům ' centriodsThe distances of the given data point to all clusters' centriods
PredictedLabel typ klíčekey type Index nejbližšího clusteru předpokládaný modelem.The closest cluster's index predicted by the model.

Detekce anomáliíAnomaly detection

Tato úloha vytvoří model detekce anomálií pomocí hlavní komponenty pro analýzu (DPS).This task creates an anomaly detection model by using Principal Component Analysis (PCA). Detekce anomálií založená na DPS vám pomůže sestavit model ve scénářích, kdy je snadné získat školicí data z jedné třídy, jako jsou platné transakce, ale obtížně získat dostatečné vzorky cílových anomálií.PCA-Based Anomaly Detection helps you build a model in scenarios where it is easy to obtain training data from one class, such as valid transactions, but difficult to obtain sufficient samples of the targeted anomalies.

V rámci strojového učení se často používá příhlas POMOCNÍKa při analýze dat, protože odhalí vnitřní strukturu dat a vysvětluje odchylku dat.An established technique in machine learning, PCA is frequently used in exploratory data analysis because it reveals the inner structure of the data and explains the variance in the data. Funkce DPS funguje při analýze dat, která obsahují více proměnných.PCA works by analyzing data that contains multiple variables. Vyhledá korelaci mezi proměnnými a určí kombinaci hodnot, které nejlépe zachytí rozdíly ve výsledcích.It looks for correlations among the variables and determines the combination of values that best captures differences in outcomes. Tyto kombinované hodnoty funkcí slouží k vytvoření kompaktnějšího prostoru funkcí označovaného jako hlavní komponenty.These combined feature values are used to create a more compact feature space called the principal components.

Detekce anomálií zahrnuje mnoho důležitých úloh ve strojovém učení:Anomaly detection encompasses many important tasks in machine learning:

  • Identifikujte transakce, které jsou potenciálně podvodné.Identifying transactions that are potentially fraudulent.
  • Výukové modely indikující, že došlo k narušení sítě.Learning patterns that indicate that a network intrusion has occurred.
  • Hledání neobvyklých clusterů pacientů.Finding abnormal clusters of patients.
  • Kontrola hodnot zadaných do systému.Checking values entered into a system.

Vzhledem k tomu, že anomálie jsou vzácné události podle definice, může být obtížné shromáždit reprezentativní vzorek dat, který se má použít pro modelování.Because anomalies are rare events by definition, it can be difficult to collect a representative sample of data to use for modeling. Algoritmy zahrnuté v této kategorii byly obzvláště navržené pro řešení základních výzev k sestavování a školení modelů pomocí nevyvážených datových sad.The algorithms included in this category have been especially designed to address the core challenges of building and training models by using imbalanced data sets.

Trainer detekce anomáliíAnomaly detection trainer

Model detekce anomálií můžete vyškolit pomocí následujícího algoritmu:You can train an anomaly detection model using the following algorithm:

Vstupy a výstupy detekce anomáliíAnomaly detection inputs and outputs

Vstupní funkce musí být vektor Singlepevné velikosti.The input features must be a fixed-sized vector of Single.

Tento Trainer má následující výstup:This trainer outputs the following:

Název výstupuOutput Name TypType PopisDescription
Score Single Nezáporné, neohraničené skóre, které bylo vypočítáno modelem detekce anomáliíThe non-negative, unbounded score that was calculated by the anomaly detection model

PořadíRanking

Úkol hodnocení sestaví seřazení ze sady popisných příkladů.A ranking task constructs a ranker from a set of labeled examples. Tato ukázková sada se skládá ze skupin instancí, jejichž skóre se dá vyhodnotit pomocí daných kritérií.This example set consists of instance groups that can be scored with a given criteria. Popisky hodnocení jsou pro každou instanci {0, 1, 2, 3, 4}.The ranking labels are { 0, 1, 2, 3, 4 } for each instance. Klasifikátor je vyškolen pro řazení nových skupin instancí s neznámým skóre pro každou instanci.The ranker is trained to rank new instance groups with unknown scores for each instance. Seznámení s ML.NETm řazením počítačů se seznámili podle hodnocení .ML.NET ranking learners are machine learned ranking based.

Hodnocení školicích algoritmůRanking training algorithms

Model hodnocení můžete proškolit s následujícími algoritmy:You can train a ranking model with the following algorithms:

Řazení vstupů a výstupůRanking input and outputs

Vstupní datový typ popisku musí být typ Key nebo Single.The input label data type must be key type or Single. Hodnota popisku určuje relevanci, kde vyšší hodnoty označují vyšší relevanci.The value of the label determines relevance, where higher values indicate higher relevance. Pokud je popisek typem klíče , pak je index klíče hodnota významnosti, kde nejmenší index je nejméně relevantní.If the label is a key type, then the key index is the relevance value, where the smallest index is the least relevant. Pokud je popisek Single, větší hodnoty znamenají vyšší relevance.If the label is a Single, larger values indicate higher relevance.

Data funkce musí být vektorem pevné velikosti Single a sloupec vstupní skupiny řádků musí být typ Key .The feature data must be a fixed size vector of Single and input row group column must be key type.

Tento Trainer má následující výstup:This trainer outputs the following:

Název výstupuOutput Name TypType PopisDescription
Score Single Neohraničené skóre, které bylo vypočítáno modelem k určení předpovědiThe unbounded score that was calculated by the model to determine the prediction

ZákladěRecommendation

Úkol doporučení umožňuje vytvořit seznam doporučených produktů nebo služeb.A recommendation task enables producing a list of recommended products or services. ML.NET používá pro doporučení algoritmus pro filtrování a vytváření matic (MF), pokud máte historická data hodnocení produktu ve vašem katalogu.ML.NET uses Matrix factorization (MF), a collaborative filtering algorithm for recommendations when you have historical product rating data in your catalog. Máte například historická data o hodnocení filmu pro vaše uživatele a chcete doporučit další filmy, které se budou pravděpodobně sledovat.For example, you have historical movie rating data for your users and want to recommend other movies they are likely to watch next.

Algoritmy školení pro doporučeníRecommendation training algorithms

Model doporučení můžete vyškolit pomocí následujícího algoritmu:You can train a recommendation model with the following algorithm: