Rychlý Start: vyvážení pole pomocí AI (Cartpole)
- Celková doba dokončení: 50 minut
- Aktivní čas: 5 minut
- Čas školení počítače: 45 minut
Naučte AI vyrovnávat nestabilní pole na pohybující se bázi s Bonsai předdefinovaným simulátorem a ukázkovým kódem.
Než začnete
K dokončení této ukázky musíte mít platný účet Microsoft nebo Azure a platný Bonsai pracovní prostor zřízený v Azure. Pokud potřebujete účet nebo zkušební verzi Azure, postupujte podle pokynů v tématu Microsoft account setup for Bonsai .
Krok 1: načtení Cartpole mozek
Bonsai poskytuje předbalený simulátor a vzorový kód pro problém s obráceným kyvadlem (Cartpole). Sestavení mozek:
- Sign into the Bonsai UI.
- V dialogovém okně Začínáme vyberte Cartpole ze seznamu ukázkových mozku.
- Pojmenujte svůj nový mozek (například "Cartpole demo").
- Kliknutím na vytvořit mozek načtěte vzorový mozek a simulátor.
Částečný snímek obrazovky "vytvořit mozek" se zvýrazněnou ukázkou mozku Cartpole Sample mozek.
Krok 2: Kontrola studijních programů
Bonsai Po načtení ukázkového mozku otevře uživatelské rozhraní výuky. Uživatelské rozhraní výuky obsahuje panel pro kódování a panel pro grafy. Panel kódování zobrazuje váš kód výuky (studijní plán) napsaný ve vlastním jazyce s názvem Inkling. Graf na panelu grafů představuje proces iterativního učení definovaný Inkling kódem.
Uživatelské rozhraní pro výuce bonsaje "Aria-describedby =" 50-0 "data-LINKTYPE =" relativní cestu ">
Snímek obrazovky s poznámkou Bonsai uživatelského rozhraní výuky rozdělený na tři panely (vlevo, na střed a vpravo) Levý panel zobrazuje dostupné mozku a simulátory. Středový panel je opatřen poznámkami "panel kódování" a zobrazuje vzorový kód Inkling. Pravý panel je opatřen poznámkami pomocí panelu grafů a zobrazuje výukový graf. Výukový graf má tři uzly uspořádané svisle (nahoře, uprostřed, dole). Nejvyšší uzel je označený jako ' SimState '. Prostřední uzel je označený jako "BalancePole konceptu". Dolní uzel je označený jako ' SimAction '.
Kliknutím na různé uzly v výukovém grafu zvýrazníte příslušný oddíl v ukázkovém kódu:
- Stavový uzel: zapouzdřuje informace, které jsou k dispozici pro mozek, jako spuštění simulace (pozorovatelné stavy senzorů). V případě Cartpole jsou pozorovatelné stavy senzorů aktuální polohou a rychlostí základu a aktuálním úhlem pole.
- Uzel konceptu: zapouzdření konceptu, který má mozek, zjistit podle definice vašich školicích cílů. V případě Cartpole pojem vyrovnává pole v rámci určité tolerance v rámci předdefinované oblasti. Odpovídajícími cíli Inkling je zabránit tomu, aby se převzaly pole (
avoid Fall Over) a aby se předešlo tomu, že se základní pohyb nachází mimo okraj stopy (avoid Out Of Range). - Uzel akce: zapouzdřuje sadu platných akcí, které může mozek provést v reakci na pozorovaný stav. V případě Cartpole jsou k dispozici akce, které se na stopu ukládají vlevo nebo vpravo.
Krok 3: výuka mozku
Důležité
Spuštění simulací spotřebovává prostředky Azure. Po zapsání rychlého startu se vám bude účtovat předplatné Azure přibližně 1,00 USD. Opakovaná školení nebo spuštění školení delší než doporučené budou mít za následek další náklady.
Otevřete uživatelské rozhraní pro školení a spusťte školení mozku kliknutím na zelený výukový tlačítko v panelu graf.
Uživatelské rozhraní pro školení nahrazuje panel kódování prázdným datovým panelem a zobrazuje aktualizovaný výukový graf. Při zahájení školení se Bonsai automaticky spustí loďstvo instancí simulátorů. Flotila se zobrazí v aktualizovaném grafu jako nový uzel simulátoru .
Uzel simulátoru vám ukáže:
- název simulátoru "BalancePoleSimulator".
- Celkový počet instancí simulátoru v rámci loďstva.
- celková rychlost loďstva v iteracích za sekundu.
Uživatelské rozhraní pro školení bonsaje "Aria-describedby =" 100-0 "data-LINKTYPE =" relativní cestu ">
Snímek obrazovky s Bonsai uživatelským rozhraním školení Na panelu data uživatelského rozhraní se zobrazuje příklad trendu trendu výkonu směrem nahoru. Panel grafu uživatelského rozhraní zobrazí aktualizovaný výukový graf. Výukový graf teď obsahuje uzel simulátoru nalevo od předchozích uzlů. Uzel simulátoru je připojen k uzlu SimState a uzlu SimAction. Nový uzel je označený jako simulátor BalancePoleSimulator a rozdělený do dvou oddílů. V levé části se zobrazuje počet připojených instancí simulátoru (16) a pravá část zobrazuje aktuální úroveň spokojenosti cíle (95,3%).
U každé iterace váš mozek získává skóre výkonu na základě toho, jak dobře problém vyřešil. Bonsai sestavuje průběh školení pro mozek na datovém panelu jako vykreslení pro Bonsai . Hodnoty spokojenosti jednotlivých cílů označují, jak blízko mozku dosáhlo dosažení souvisejícího cíle pro danou iteraci. Nejnovější hodnota spokojenosti celkového cíle je také uvedena v uzlu koncept grafu učebny.
V případě, že je vaše mozku lépe vyvážením pole, je potřeba, aby se vykreslení prokáže vzhůru.
Krok 4: Sledujte mozek v akci
Simulátor Cartpole zahrnuje vizualizér, abyste mohli v praxi sledovat svůj mozek. Jak funguje přes konkrétní simulaci. Vizualizaci zobrazíte tak, že přejdete dolů na panelu data.
Vizualizér vykreslí 3D model jednoduchou základnu (vozík) a pole. Základní přesun na obrazovce vlevo a vpravo v reakci na měnící se pozici pole.
Snímek obrazovky s Bonsai uživatelským rozhraním školení Panel data se posouvá dolů, aby se zobrazil prostorové vykreslování jednoduchého vyrovnaných základních vyrovnaných vzhůru.
Vizualizér také zobrazuje graf změny proměnných stavu a akcí pod vykresleným modelem. Zkuste kliknout na cart_position hodnoty a a pole_angle Sledujte, jak se poloha základního a úhlu pole mění v čase.
Krok 5: zastavení školení
Bonsai automaticky zastaví školení, když nastane jedna z následujících možností:
- Celková hodnota spokojenosti cíle dosáhne 100%.
- čáry grafu se stanou vodorovnými řádky pro předdefinovaný počet epizod.
Hodnota spokojenosti 100% znamená, že váš mozek zcela získal aktuální studijní plán. Vodorovná křivka znamená, že mozek už nezlepšuje. V případě, že se mozek po určitém počtu epizody nedokáže zlepšit NoProgressIterationLimit , Bonsai ukončí školení, aby nedocházelo k plýtvání výpočetních prostředků.
Tip
Cartpole demo mozek obvykle dosahuje optimálního výkonu v rámci 750k iterací.
Pokud chcete ukončit školení v rané fázi, klikněte v horní části panelu grafu na tlačítko červené zastavení školení .
Další kroky
Gratulujeme! Úspěšně jste provedli školení k vyvážení pole na klouzavé bázi.
Teď, když jste se seznámili se základy Cartpole mozek, zkuste přizpůsobit Inkling kód, abyste změnili své studijní záměry.