Vylepšení modelu ML.NET

Článek
03/12/2024

Zjistěte, jak vylepšit model ML.NET.

Opětovné zamyšlování problému

Někdy může vylepšení modelu mít nic společného s daty nebo technikami použitými k trénování modelu. Místo toho může být jen to, že se ptá špatná otázka. Zvažte pohled na problém z různých úhlů a využití dat k extrakci skrytých indikátorů a skrytých relací, aby bylo možné otázku upřesnit.

Poskytnutí dalších ukázek dat

Podobně jako u lidí se tím více trénovacích algoritmů zvýší pravděpodobnost zvýšení výkonu. Jedním ze způsobů, jak zlepšit výkon modelu, je poskytnout algoritmům více trénovacích ukázek dat. Čím více dat se učí, tím více případů dokáže správně identifikovat.

Přidání kontextu k datům

Význam jednoho datového bodu může být obtížné interpretovat. Vytváření kontextu kolem datových bodů pomáhá algoritmům a odborníkům na danou problematiku lépe rozhodovat. Například skutečnost, že dům má tři ložnice, neposkytuje dobrou indikaci jeho ceny. Pokud ale přidáte kontext a teď víte, že se nachází v sousedství na předměstí mimo hlavní metropolitní oblast, kde je průměrný věk 38, průměrný příjem domácností je 80 000 USD a školy jsou v top 20. percentilu, pak algoritmus má více informací, aby na základě svých rozhodnutí založil. Veškerý tento kontext lze do modelu strojového učení přidat jako vstup jako funkce.

Použití smysluplných dat a funkcí

I když více ukázek dat a funkcí může přispět ke zlepšení přesnosti modelu, mohou také představovat šum, protože ne všechna data a funkce jsou smysluplné. Proto je důležité pochopit, které funkce jsou ty, které nejvíce ovlivňují rozhodnutí algoritmu. Použití technik, jako je důležitost funkce permutation (PFI), může pomoct identifikovat tyto klíčové funkce, a to nejen pomoct vysvětlit model, ale také použít výstup jako metodu výběru funkcí ke snížení množství hlučných funkcí, které procházejí procesem trénování.

Další informace o použití PFI naleznete v tématu Vysvětlení předpovědí modelu pomocí Permutation Feature Důležitost.

Křížové ověření

Křížové ověření je technika trénování a vyhodnocení modelu, která rozdělí data do několika oddílů a trénuje více algoritmů v těchto oddílech. Tato technika zlepšuje odolnost modelu tím, že z trénovacího procesu vydrží data. Kromě zlepšení výkonu u nezoznaných pozorování může být v prostředích s omezenými daty efektivním nástrojem pro trénování modelů s menší datovou sadou.

Na následujícím odkazu se dozvíte , jak používat křížové ověřování v ML.NET

Ladění hyperparametrů

Trénování modelů strojového učení je iterativní a průzkumný proces. Jaký je například optimální počet clusterů při trénování modelu pomocí algoritmu K-Means? Odpověď závisí na mnoha faktorech, jako je struktura dat. Nalezení tohoto čísla by vyžadovalo experimentování s různými hodnotami pro k a následné vyhodnocení výkonu, aby bylo možné určit, která hodnota je nejlepší. Postup ladění parametrů, které vedou proces trénování k nalezení optimálního modelu, se označuje jako ladění hyperparametrů.

Volba jiného algoritmu

Úlohy strojového učení, jako je regrese a klasifikace, obsahují různé implementace algoritmů. Může se jednat o případ, že problém, který se pokoušíte vyřešit, a způsob, jakým jsou vaše data strukturovaná, neodpovídá aktuálnímu algoritmu. V takovém případě zvažte použití jiného algoritmu pro váš úkol, abyste zjistili, jestli se z vašich dat lépe učí.

Následující odkaz obsahuje další pokyny k volbě algoritmu.

Share via