Adamas Zewe | MIT naujienos
Kiekvienas, kuris kada nors bandė sukrauti šeimos dydžio bagažą į sedano dydžio bagažinę, žino, kad tai yra sunki problema. Robotai taip pat kovoja su tankiomis pakavimo užduotimis.
Robotui, sprendžiant pakavimo problemą, reikia laikytis daugybės suvaržymų, pvz., sukrauti bagažą, kad lagaminai neiškristų iš bagažinės, ant lengvesnių nedėti sunkūs daiktai ir susidūrimai tarp roboto rankos ir automobilio buferio. vengiama.
Kai kurie tradiciniai metodai šią problemą sprendžia nuosekliai, atspėdami dalinį sprendimą, atitinkantį vieną apribojimą vienu metu, ir tada patikrindami, ar nebuvo pažeisti kiti apribojimai. Kadangi reikia atlikti ilgą veiksmų seką ir susikrauti krūvą bagažo, šis procesas gali užtrukti nepraktiškai.
MIT mokslininkai panaudojo generatyvinio AI formą, vadinamą difuzijos modeliu, kad veiksmingiau išspręstų šią problemą. Jų metodas naudoja mašininio mokymosi modelių rinkinį, kurių kiekvienas yra išmokytas atstovauti tam tikro tipo apribojimams. Šie modeliai yra sujungti, kad būtų sukurti pasauliniai pakavimo problemos sprendimai, atsižvelgiant į visus apribojimus vienu metu.
Jų metodas galėjo sukurti efektyvius sprendimus greičiau nei kiti metodai, ir per tą patį laiką buvo sukurta daugiau sėkmingų sprendimų. Svarbu tai, kad jų technika taip pat galėjo išspręsti problemas, susijusias su naujais apribojimų deriniais ir didesniu objektų skaičiumi, kurių modeliai nematė treniruočių metu.
Dėl šio apibendrinimo jų technika gali būti naudojama mokant robotus suprasti ir patenkinti bendrus pakavimo problemų suvaržymus, tokius kaip svarbu išvengti susidūrimų arba noras, kad vienas objektas būtų šalia kito objekto. Tokiu būdu apmokyti robotai gali būti pritaikyti įvairioms sudėtingoms užduotims įvairiose aplinkose – nuo užsakymų vykdymo sandėlyje iki knygų lentynos sutvarkymo kieno nors namuose.
„Mano vizija yra priversti robotus atlikti sudėtingesnes užduotis, turinčias daug geometrinių apribojimų ir nuolatinių sprendimų, kuriuos reikia priimti – su tokiomis problemomis susiduria aptarnaujantys robotai mūsų nestruktūrizuotoje ir įvairioje žmonių aplinkoje. Naudodami galingą kompozicinės difuzijos modelių įrankį, dabar galime išspręsti šias sudėtingesnes problemas ir gauti puikių apibendrinimų rezultatų“, – sako Zhutian Yang, elektros inžinerijos ir kompiuterių mokslų magistrantūros studentas ir pagrindinis šio naujo mašininio mokymosi metodo autorius.
Tarp jos bendraautorių yra MIT absolventai Jiayuan Mao ir Yilun Du; Jiajun Wu, Stanfordo universiteto kompiuterių mokslo docentas; Joshua B. Tenenbaum, MIT Smegenų ir pažinimo mokslų katedros profesorius ir Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) narys; Tomás Lozano-Pérez, MIT kompiuterių mokslo ir inžinerijos profesorius ir CSAIL narys; ir vyresnysis autorius Leslie Kaelbling, Panasonic kompiuterių mokslo ir inžinerijos profesorius MIT ir CSAIL narys. Tyrimas bus pristatytas konferencijoje apie robotų mokymąsi.
Suvaržymo komplikacijos
Nuolatinio apribojimo pasitenkinimo problemos yra ypač sudėtingos robotams. Šios problemos atsiranda atliekant kelių etapų roboto manipuliavimo užduotis, pvz., pakuojant daiktus į dėžutę ar ruošiant pietų stalą. Jie dažnai apima tam tikrų apribojimų, įskaitant geometrinius apribojimus, pasiekimą, pavyzdžiui, roboto rankos ir aplinkos susidūrimų išvengimą; fiziniai suvaržymai, pvz., sukrauti objektus, kad jie būtų stabilūs; ir kokybiniai suvaržymai, pvz., šaukšto padėjimas į dešinę nuo peilio.
Apribojimų gali būti daug ir jie skiriasi priklausomai nuo problemų ir aplinkos, priklausomai nuo objektų geometrijos ir žmogaus nustatytų reikalavimų.
Siekdami efektyviai išspręsti šias problemas, MIT mokslininkai sukūrė mašininio mokymosi metodą, vadinamą Diffusion-CCSP. Difuzijos modeliai išmoksta generuoti naujus duomenų pavyzdžius, panašius į mokymo duomenų rinkinio pavyzdžius, pakartotinai tobulindami jų išvestį.
Norėdami tai padaryti, difuzijos modeliai išmoksta atlikti nedidelius galimo sprendimo patobulinimus. Tada, norėdami išspręsti problemą, jie pradeda nuo atsitiktinio, labai blogo sprendimo ir palaipsniui jį tobulina.
Pavyzdžiui, įsivaizduokite, kaip ant imituoto stalo atsitiktinai padedate lėkštes ir indus, kad jie fiziškai sutaptų. Dėl nesusidūrusių objektų suvaržymų jie nustums vienas kitą, o kokybiniai apribojimai nutemps lėkštę į centrą, sulygiuos salotų šakutę ir pietų šakutę ir pan.
Difuzijos modeliai puikiai tinka tokiai nuolatinio apribojimo pasitenkinimo problemai, nes kelių modelių įtaka vieno objekto pozai gali būti sudaryta taip, kad paskatintų patenkinti visus apribojimus, aiškina Yang. Kiekvieną kartą pradėdami nuo atsitiktinio pradinio spėjimo, modeliai gali gauti įvairių gerų sprendimų.
Darbas kartu
Diffusion-CCSP tyrėjai norėjo užfiksuoti apribojimų tarpusavio ryšį. Pavyzdžiui, pakuojant vienas apribojimas gali reikalauti, kad tam tikras objektas būtų šalia kito objekto, o antrasis apribojimas gali nurodyti, kur turi būti vienas iš tų objektų.
„Diffusion-CCSP“ išmoksta difuzijos modelių šeimą, po vieną kiekvienam apribojimo tipui. Modeliai mokomi kartu, todėl dalijasi žiniomis, pavyzdžiui, apie pakuojamų objektų geometriją.
Tada modeliai dirba kartu, kad surastų sprendimus, šiuo atveju objektų vietą, kurie kartu atitiktų apribojimus.
„Ne visada iš pirmo atspėjimo pasiekiame sprendimą. Tačiau kai nuolat tobulinate sprendimą ir įvyksta koks nors pažeidimas, turėtumėte rasti geresnį sprendimą. Jūs gaunate patarimų, kaip ką nors padaryti ne taip“, – sako ji.
Atskirų modelių mokymas kiekvienam apribojimo tipui ir jų derinimas, kad būtų galima prognozuoti, žymiai sumažina reikalingų mokymo duomenų kiekį, palyginti su kitais metodais.
Tačiau norint išmokyti šiuos modelius, vis tiek reikia daug duomenų, rodančių išspręstas problemas. Žmonėms tektų kiekvieną problemą išspręsti tradiciniais lėtais metodais, todėl tokių duomenų generavimo išlaidos būtų pernelyg didelės, sako Yang.
Vietoj to, mokslininkai pakeitė procesą, pirmiausia sugalvodami sprendimus. Jie naudojo greitus algoritmus, kad generuotų segmentuotas dėžutes ir kiekviename segmente sutalpintų įvairius 3D objektus, užtikrinant sandarų supakavimą, stabilias pozas ir sprendimus be susidūrimų.
„Naudojant šį procesą, modeliuojant duomenys generuojami beveik akimirksniu. Galime sukurti dešimtis tūkstančių aplinkų, kuriose žinome, kad problemos yra išsprendžiamos“, – sako ji.
Apmokyti naudojant šiuos duomenis, difuzijos modeliai veikia kartu, kad nustatytų vietas, kuriose robotas griebtuvas turi padėti objektus, kurie atlieka pakavimo užduotį ir atitinka visus apribojimus.
Jie atliko galimybių studijas, o tada demonstravo Diffusion-CCSP su tikru robotu, sprendžiančiu daugybę sudėtingų problemų, įskaitant 2D trikampių įdėjimą į dėžę, 2D formų supakavimą su erdvinių santykių apribojimais, 3D objektų sudėjimą su stabilumo apribojimais ir 3D objektų supakavimą roboto ranka.
Jų metodas daugelyje eksperimentų pranoko kitus metodus, sukurdamas daugiau veiksmingų sprendimų, kurie buvo stabilūs ir be susidūrimų.
Ateityje Yang ir jos bendradarbiai nori išbandyti Diffusion-CCSP sudėtingesnėse situacijose, pavyzdžiui, su robotais, kurie gali judėti kambaryje. Jie taip pat nori, kad „Diffusion-CCSP“ galėtų spręsti įvairių sričių problemas, nereikalaujant permokyti naujų duomenų.
„Diffusion-CCSP yra mašininio mokymosi sprendimas, pagrįstas esamais galingais generaciniais modeliais“, – sako Danfei Xu, Džordžijos technologijos instituto Interaktyviosios kompiuterijos mokyklos docentas ir NVIDIA AI tyrėjas, kuris nedalyvavo. su šiuo darbu. „Sudarydamas žinomus individualius apribojimų modelius, jis gali greitai sukurti sprendimus, kurie vienu metu tenkina kelis apribojimus. Nors tai vis dar yra ankstyvosiose kūrimo fazėse, nuolatiniai šio požiūrio patobulinimai leidžia sukurti efektyvesnes, saugesnes ir patikimesnes autonomines sistemas įvairiose programose.
Šį tyrimą iš dalies finansavo Nacionalinis mokslo fondas, Oro pajėgų Mokslinių tyrimų biuras, Karinio jūrų laivyno tyrimų biuras, MIT-IBM Watson AI laboratorija, MIT Quest for Intelligence, Smegenų, proto centras ir Machines, Boston Dynamics Dirbtinio intelekto institutas, Stanfordo į žmogų orientuoto dirbtinio intelekto institutas, Analoginiai įrenginiai, JPMorgan Chase and Co. ir Salesforce.
MIT naujienos