Snabbstart: Balansera en kula med AI (Moab)
- Total tid att slutföra:20 minuter
- Aktiv tid:5 minuter
- Datorträningstid:15 minuter
Lär en AI att balansera en kula i mitten av en platta med Bonsai , en fördefinierad simulator och exempelkod.
Innan du börjar
För att kunna genomföra den här demonstrationen måste du ha ett giltigt Microsoft- eller Azure-konto och en giltig Bonsai arbetsyta som har etablerats i Azure. Om du behöver ett konto eller en utvärderingsversion av Azure följer du anvisningarna i Microsoft account setup for Bonsai .
Steg 1: Läs in Moab-hjärnan
Bonsai innehåller en förpaketerad simulator och exempelkod för moab-problemet (ball balancing). Så här skapar du din hjärna:
- Sign into the Bonsai UI.
- Välj Moab i listan över demoh brains från Komma igång dialogrutan.
- Ge den nya hjärnan ett namn (till exempel "Moab Demo").
- Klicka på Skapa hjärna för att läsa in exempelh brain och simulatorn.
Partiell skärmbild av skärmen "Skapa hjärna" med Moab-exempelh brain markerad.
Steg 2: Inspektera läroplanen
Bonsai öppnar undervisningsgränssnittet när demons hjärna läses in. Användargränssnittet för undervisning innehåller en kodningspanel och en grafpanel. Kodningspanelen visar vår undervisningskod (läroplanen) skriven på ett egenutvecklat språk som heter Inkling. Grafen i grafpanelen representerar den iterativa inlärningsprocess som definieras av Inkling-koden.
Bonsai
Teaching UI" aria-describedby="50-0" data-linktype="relative-path">
Kommenterad skärmbild av användargränssnittet Bonsai för undervisning indelat i tre vågräta paneler (vänster, mitten och höger). Den vänstra panelen visar tillgängliga hjärna och simulatorer. Mittpanelen är kommenterad med "Kodningspanel" och visar exempelkoden Inkling. Den högra panelen kommenteras med "Graphing Panel" och visar en undervisningsgraf. Undervisningsdiagrammet har tre noder ordnade lodrätt (övre, mellersta, nedre). Den översta noden är märkt "ObservableState". Noden i mitten är märkt "Concept MoveToCenter". Noden längst ned är märkt "SimAction".
Om du klickar på de olika noderna i undervisningsdiagrammet markeras det relevanta avsnittet i exempelkoden:
- Tillståndsnod:kapslar in den information som är tillgänglig för hjärnan när simuleringen körs (de observerbara sensortillstånden). För Moab är de observerbara sensorlägena den aktuella positionen och hastigheten för kulan.
- Konceptnod:kapslar in det koncept som du vill att hjärnan ska lära sig enligt dina träningsmål. För Moab är konceptet att flytta en kula till ett specifikt mål. Motsvarande inveskliga mål driver kulan till mitten av tavlan och håller den där ( ) och
drive Center Of Plateundviker kanten på tavlan (avoid Fall Off Plate). - Åtgärdsnod:kapslar in uppsättningen giltiga åtgärder som hjärnan kan vidta som svar på det observerade tillståndet. För Moab justerar de tillgängliga åtgärderna lutningen (lutningen) på tavlan.
Steg 3: Träna hjärnan
Viktigt
Att köra simuleringar förbrukar Azure-resurser. Om du följer snabbstarten enligt skrivna avgifter debiteras din Azure-prenumeration cirka 0,50 USD. Upprepad träning eller att köra träningen längre än rekommenderat resulterar i ytterligare kostnader.
Öppna träningsgränssnittet och börja träna hjärnan genom att klicka på den gröna knappen Träna i grafpanelen.
Träningsgränssnittet ersätter kodningspanelen med en tom datapanel och visar en uppdaterad undervisningsgraf. När du börjar träna startar Bonsai automatiskt en vagnpark med simulatorinstanser. Vagnpark visas i den uppdaterade grafen som en ny simulatornod.
Noden Simulator visar följande:
- simulatornamnet, "MoveToCenterSimulator".
- det totala antalet simulatorinstanser i vagnpark.
- den övergripande hastigheten för vagnpark i iterationer per sekund.
Bonsai
Training UI" aria-describedby="98-0" data-linktype="relative-path">
Skärmbild av Bonsai användargränssnittet för träning. Datapanelen i användargränssnittet visar ett exempel på ett prestandadiagram som trendar uppåt. Diagrampanelen i användargränssnittet visar en uppdaterad undervisningsgraf. Undervisningsdiagrammet innehåller nu en simulatornod till vänster om de föregående noderna. Noden Simulator är ansluten till noden ObservableState och Noden SimAction. Den nya noden är märkt "Simulator MoabSim" och indelad i två delar. I det vänstra avsnittet visas antalet anslutna simulatorinstanser (15) och det högra avsnittet visar den aktuella målnöjdheten (90,8 %).
Med varje iteration får hjärnan en prestandapoäng baserat på hur väl det löste problemet. Bonsairapporterar träningsförloppet för hjärnan i datapanelen som ett Bonsai Värden för individuell målnöjdhet anger hur nära hjärnan kom att uppnå det relaterade målet för en viss iteration. Det senaste övergripande värdet för målnöjdhet rapporteras också i begreppsnoden i undervisningsdiagrammet.
Nöjdhetsritningar bör trenda uppåt när hjärnan blir bättre på att balansera kulan i mitten av tavlan.
Steg 4: Se hur hjärnan fungerar i praktiken
Moab-simulatorn innehåller en visualiserare så att du kan se hur hjärnan fungerar i praktiken. eftersom det fungerar via en viss simulering. Om du vill se visualiseringen rullar du nedåt i datapanelen.
Visualiseraren återger en 3D-modell av Moab-maskinvaran och en kula. Visualiseringen visar också:
- den uppskattade kulan (en blå pil som projiceras på tavlan).
- den uppskattade skuggkopian för kulan (en blå cirkel projiceras på tavlan under kulan).
- ett realtidsdiagram över föränderliga tillståndsvariabler.
Skärmbild av Bonsai användargränssnittet för träning. Datapanelen rullas ned för att visa en 3D-återgivning av Moab-enheten som balanserar en liten orange kula. Moab-enheten har en cirkulär brödtext med aktiveringsarmar ovanpå. En tydlig balanseringsplatta finns ovanpå armarna.
Försök att klicka på ball_x värdena ball_y och . De två linjerna ska konvergera i mitten av grafen (0,00) när kulan flyttas till mitten av tavlan.
Steg 5: Stoppa träningen
Bonsai stoppar automatiskt träningen när något av följande inträffar:
- det övergripande målnöjdhetsvärdet når 100 %
- graflinjerna blir vågräta linjer för ett fördefinierat antal träningsavsnitt.
Ett nöjdhetsvärde på 100 % innebär att hjärnan har lärt sig den aktuella läroplanen fullt ut. En vågrät ritlinje innebär att hjärnan inte längre förbättras. När en hjärna inte kan förbättras efter ett visst antal avsnitt (enligt definitionen i ), avslutar träningen för att undvika NoProgressIterationLimitBonsai att slösa beräkningsresurser.
Tips
Moab-demoh brain uppnår vanligtvis optimala prestanda inom 200 000 iterationer.
Om du vill stoppa träningen tidigt klickar du på den röda knappen Stoppa träning överst på grafpanelen.
Nästa steg
Grattis! Du har tränat en hjärna att balansera en kula i mitten av tavlan.
Nu när du förstår grunderna i Moab-hjärnan kan du prova att anpassa In mocka-koden för att ändra dina träningsmål.