Adamas Zewe | MIT naujienos
Įsivaizduokite, kad norite neštis didelę, sunkią dėžę aukštyn laiptais. Galite išskleisti pirštus ir pakelti tą dėžutę abiem rankomis, tada laikyti ją ant dilbių ir priglausti prie krūtinės, visu kūnu manipuliuodami dėžute.
Žmonės paprastai gerai manipuliuoja visu kūnu, tačiau robotai kovoja su tokiomis užduotimis. Kiekviena vieta, kur dėžė gali liesti bet kurį nešiklio pirštų, rankų ir liemens tašką, robotui reiškia kontakto įvykį, dėl kurio jis turi pagrįsti. Dėl milijardų galimų kontaktinių įvykių šios užduoties planavimas greitai tampa sunkiai įveikiamas.
Dabar MIT mokslininkai rado būdą, kaip supaprastinti šį procesą, žinomą kaip daug kontaktų turintis manipuliacijų planavimas. Jie naudoja AI metodą, vadinamą išlyginimu, kuris apibendrina daugybę kontaktinių įvykių į mažesnį sprendimų skaičių, kad net paprastas algoritmas galėtų greitai nustatyti veiksmingą roboto manipuliavimo planą.
Nors dar tik pradėtas naudoti, šis metodas potencialiai leistų gamykloms naudoti mažesnius, mobilius robotus, galinčius manipuliuoti objektais visomis rankomis ar kūnu, o ne dideles robotines rankas, kurias galima suvokti tik pirštų galiukais. Tai gali padėti sumažinti energijos sąnaudas ir sumažinti išlaidas. Be to, ši technika gali būti naudinga robotams, siunčiamiems į žvalgymo misijas į Marsą ar kitus Saulės sistemos kūnus, nes jie galėtų greitai prisitaikyti prie aplinkos naudodami tik borto kompiuterį.
„Užuot galvoję apie tai kaip apie juodosios dėžės sistemą, jei galime panaudoti tokių robotų sistemų struktūrą naudodami modelius, turime galimybę paspartinti visą bandymo priimti tokius sprendimus ir sugalvoti daug kontaktų. planus“, – sako HJ Terry Suh, elektros inžinerijos ir kompiuterių mokslų (EECS) magistrantūros studentas ir vienas iš šios technikos straipsnio autorių.
Prie Suh prisijungia vienas iš pagrindinių autorių Tao Pang, PhD ’23, Bostono Dynamics AI instituto robotas; Lujie Yang, EECS absolventas; ir vyresnysis autorius Russ Tedrake, Toyota EECS, aeronautikos ir astronautikos bei mechanikos inžinerijos profesorius ir Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) narys. Tyrimas pasirodys šią savaitę IEEE operacijos dėl robotų.
Mokymasis apie mokymąsi
Sustiprinimo mokymasis yra mašininio mokymosi technika, kai agentas, kaip ir robotas, mokosi atlikti užduotį per bandymus ir klaidas, gaudamas atlygį už priartėjimą prie tikslo. Tyrėjai teigia, kad tokio tipo mokymasis taikomas juodosios dėžės metodu, nes sistema turi išmokti viską apie pasaulį per bandymus ir klaidas.
Jis buvo veiksmingai naudojamas planuojant daug kontaktų turinčias manipuliacijas, kai robotas siekia išmokti geriausio būdo perkelti objektą nurodytu būdu.
Tačiau kadangi gali būti milijardai galimų kontaktinių taškų, kuriuos robotas turi apsvarstyti, kai nuspręs, kaip naudoti pirštus, rankas, rankas ir kūną sąveikauti su objektu, šis bandymų ir klaidų metodas reikalauja daug skaičiavimų.
„Kad iš tikrųjų būtų galima išmokti politiką, gali prireikti, kad mokymasis būtų sustiprintas milijonus metų modeliavimo metu“, – priduria Suhas.
Kita vertus, jei mokslininkai specialiai kuria fizikos modelį, naudodami savo žinias apie sistemą ir užduotį, kurią jie nori, kad robotas atliktų, šis modelis apima struktūrą apie šį pasaulį, todėl jis tampa efektyvesnis.
Tačiau fizika pagrįsti metodai nėra tokie veiksmingi kaip stiprinamasis mokymasis, kai reikia planuoti daug kontaktų turintį manipuliavimą – Suhas ir Pangas stebėjosi, kodėl.
Jie atliko išsamią analizę ir nustatė, kad metodas, žinomas kaip išlyginimas, leidžia taip gerai mokytis sustiprinimo.
Daugelis sprendimų, kuriuos gali priimti robotas, nuspręsdamas, kaip manipuliuoti objektu, nėra svarbūs didžiojoje dalykų schemoje. Pavyzdžiui, kiekvienas be galo mažas vieno piršto koregavimas, nesvarbu, ar jis liečiasi su objektu, ar ne, neturi didelės reikšmės. Išlyginus daugelį tų nesvarbių, tarpinių sprendimų vidutiniškai pašalinama ir paliekama keletas svarbių.
Sustiprinimo mokymasis netiesiogiai išlyginamas išbandant daug kontaktinių taškų ir tada apskaičiuojant svertinį rezultatų vidurkį. Remdamiesi šia įžvalga, MIT tyrėjai sukūrė paprastą modelį, kuris atlieka panašų išlyginimą, leidžiantį sutelkti dėmesį į pagrindinę roboto ir objekto sąveiką ir numatyti ilgalaikį elgesį. Jie parodė, kad šis metodas gali būti toks pat veiksmingas kaip ir mokymosi sustiprinimas kuriant sudėtingus planus.
„Jei žinote šiek tiek daugiau apie savo problemą, galite sukurti efektyvesnius algoritmus“, – sako Pang.
Laimėjęs derinys
Nors išlyginimas labai supaprastina sprendimus, likusių sprendimų paieška vis tiek gali būti sudėtinga problema. Taigi, mokslininkai sujungė savo modelį su algoritmu, kuris gali greitai ir efektyviai ieškoti visų galimų sprendimų, kuriuos galėtų priimti robotas.
Naudojant šį derinį, skaičiavimo laikas sutrumpėjo iki maždaug minutės standartiniame nešiojamajame kompiuteryje.
Pirmiausia jie išbandė savo metodą modeliavimuose, kur robotų rankoms buvo duodamos tokios užduotys kaip rašiklio perkėlimas į norimą konfigūraciją, durų atidarymas ar lėkštės paėmimas. Kiekvienu atveju jų modeliu pagrįstas metodas pasiekė tokius pat rezultatus kaip ir mokymasis, tačiau per trumpą laiką. Jie pamatė panašius rezultatus, kai išbandė savo modelį aparatinėje įrangoje ant tikrų robotų rankų.
„Tos pačios idėjos, leidžiančios manipuliuoti visu kūnu, taip pat tinka planuojant mikliais, į žmogų panašiomis rankomis. Anksčiau dauguma tyrėjų teigė, kad mokymasis pastiprinimu buvo vienintelis būdas, pritaikytas miklioms rankomis, tačiau Terry ir Tao parodė, kad perėmę šią pagrindinę (atsitiktinio) išlyginimo idėją iš sustiprinto mokymosi, jie taip pat gali priversti tradicinius planavimo metodus veikti itin gerai. “, – sako Tedrake.
Tačiau jų sukurtas modelis remiasi paprastesniu realaus pasaulio aproksimavimu, todėl negali susidoroti su labai dinamiškais judesiais, pavyzdžiui, krintančių objektų. Nors jie yra veiksmingi atliekant lėtesnes manipuliavimo užduotis, jie negali sukurti plano, kuris leistų robotui, pavyzdžiui, išmesti skardinę į šiukšlių dėžę. Ateityje mokslininkai planuoja patobulinti savo techniką, kad ji galėtų įveikti šiuos labai dinamiškus judesius.
„Jei atidžiai išstudijuosite savo modelius ir tikrai suprasite problemą, kurią bandote išspręsti, tikrai galite pasiekti tam tikrų pranašumų. Yra privalumų daryti dalykus, kurie nepatenka į juodąją dėžę“, – sako Suhas.
Šį darbą iš dalies finansuoja „Amazon“, MIT Linkolno laboratorija, Nacionalinis mokslo fondas ir „Ocado Group“.
MIT naujienos