Andre He, Vivek Myers
Ilgametis robotų mokymosi tikslas buvo sukurti bendruosius agentus, kurie galėtų atlikti užduotis žmonėms. Natūrali kalba gali būti lengvai naudojama sąsaja, skirta žmonėms nurodyti savavališkas užduotis, tačiau sunku išmokyti robotus laikytis kalbos nurodymų. Tokie metodai kaip kalbos sąlygotos elgsenos klonavimas (LCBC) lavina politiką, kad būtų galima tiesiogiai imituoti ekspertų veiksmus, sąlygojamus kalbos, tačiau reikalaujama, kad žmonės komentuotų visas mokymo trajektorijas ir prastai apibendrintų scenas ir elgesį. Tuo tarpu naujausi tikslo sąlygoti metodai daug geriau atlieka bendrąsias manipuliavimo užduotis, tačiau nesuteikia galimybės lengvai nustatyti užduotis žmonėms. Kaip galime suderinti lengvą užduočių apibūdinimą taikant į LCBC panašų metodą ir mokymosi, kurio tikslas yra, našumo patobulinimus?
Konceptualiai, instrukcijas sekančiam robotui reikia dviejų galimybių. Jis turi įžeminti kalbos mokymą fizinėje aplinkoje, o tada sugebėti atlikti veiksmų seką, kad būtų atlikta numatyta užduotis. Šių gebėjimų nereikia mokytis nuo galo iki galo vien iš žmogaus anotuotų trajektorijų, o galima išmokti atskirai iš atitinkamų duomenų šaltinių. Vizijos kalbos duomenys iš ne robotų šaltinių gali padėti išmokti kalbos pagrindo, apibendrinant įvairias instrukcijas ir vaizdines scenas. Tuo tarpu nepažymėtos roboto trajektorijos gali būti naudojamos treniruojant robotą pasiekti konkrečias tikslo būsenas, net jei jos nesusietos su kalbos instrukcijomis.
Sąlygos dėl vizualinių tikslų (ty tikslų vaizdų) suteikia papildomos naudos mokantis politikos. Kaip užduoties specifikacijos forma, tikslai yra pageidautini, kad būtų galima keisti mastelį, nes jie gali būti laisvai generuojami retrospektyviai perženklinant (tikslu gali būti bet kokia būsena, pasiekta trajektorijoje). Tai leidžia apmokyti politiką naudojant tikslo sąlygotą elgesio klonavimą (GCBC), naudojant didelį kiekį nekontuotų ir nestruktūruotų trajektorijų duomenų, įskaitant duomenis, kuriuos savarankiškai renka pats robotas. Tikslus taip pat lengviau nustatyti, nes kaip vaizdus juos galima tiesiogiai lyginti po vieną pikselį su kitomis būsenomis.
Tačiau tikslai žmonėms yra mažiau intuityvūs nei natūrali kalba. Daugeliu atvejų vartotojui lengviau apibūdinti užduotį, kurią jis nori atlikti, nei pateikti tikslo vaizdą, dėl kurio, norint sukurti vaizdą, greičiausiai reikės atlikti užduotį. Pateikdami kalbinę sąsają, skirtą tikslo sąlygotoms strategijoms, galime sujungti tikslo ir kalbos užduočių specifikacijos stipriąsias puses, kad įgalintume bendrus robotus, kuriems būtų galima lengvai valdyti. Mūsų metodas, aptartas toliau, atskleidžia tokią sąsają, kad būtų galima apibendrinti įvairias instrukcijas ir scenas, naudojant regėjimo kalbos duomenis, ir pagerinti fizinius įgūdžius, virškinant didelius nestruktūrizuotus robotų duomenų rinkinius.
Tikslų pateikimas, skirtas tolesniam nurodymui
Mūsų požiūris, Instrukcijų sekimo tikslų reprezentacijos (GRIF)kartu moko kalbos ir tikslo sąlygojamą politiką su suderintomis užduotimis. Mūsų pagrindinė įžvalga yra ta, kad šios reprezentacijos, suderintos su kalbomis ir tikslais, leidžia efektyviai derinti mokymosi su tikslu privalumus su kalbos sąlygota politika. Tada išmokta politika gali būti apibendrinta skirtingomis kalbomis ir scenomis, kai buvo apmokyta daugiausia nepažymėtų demonstracinių duomenų.
Mes apmokėme GRIF naudodami versiją Bridge-v2 duomenų rinkinys kurioje yra 7 000 pažymėtų demonstracinių trajektorijų ir 47 000 nepažymėtų, naudojant virtuvės manipuliavimo nustatymus. Kadangi visas šio duomenų rinkinio trajektorijas žmonės turėjo anotuoti rankiniu būdu, galimybė tiesiogiai naudoti 47 tūkst. trajektorijas be anotacijų žymiai pagerina efektyvumą.
Norint mokytis iš abiejų tipų duomenų, GRIF mokomas kartu su kalbos sąlygotu elgesio klonavimu (LCBC) ir tikslo sąlygotu elgesio klonavimu (GCBC). Pažymėtame duomenų rinkinyje yra ir kalbos, ir tikslo užduoties specifikacijos, todėl mes naudojame jį kalbos ir tikslo sąlygotoms prognozėms (ty LCBC ir GCBC) prižiūrėti. Nepažymėtame duomenų rinkinyje yra tik tikslai ir jis naudojamas GCBC. Skirtumas tarp LCBC ir GCBC yra tik užduoties atvaizdavimo pasirinkimas iš atitinkamo koduotuvo, kuris perduodamas į bendrą politikos tinklą, kad būtų numatyti veiksmai.
Pasidalydami politikos tinklu, galime tikėtis patobulinimų, nes naudosime nepažymėtą duomenų rinkinį, skirtą mokymui, kurio tikslas yra. Tačiau GRIF įgalina daug stipresnį perdavimą tarp dviejų būdų, nes pripažįsta, kad kai kurios kalbos instrukcijos ir tikslo vaizdai nurodo tą patį elgesį. Visų pirma, mes išnaudojame šią struktūrą reikalaudami, kad kalbos ir tikslo reprezentacijos būtų panašios atliekant tą pačią semantinę užduotį. Darant prielaidą, kad ši struktūra galioja, nepažymėti duomenys taip pat gali būti naudingi taikant kalbos sąlygotą politiką, nes tikslo pateikimas yra artimas trūkstamos instrukcijos tikslui.
Lygiavimas per kontrastinį mokymąsi
Kadangi kalba dažnai apibūdina santykinius pokyčius, mes pasirenkame suderinti būsenos ir tikslo porų vaizdus su kalbos nurodymais (o ne tik tikslą su kalba). Empiriškai tai taip pat palengvina vaizdų išmokimą, nes jie gali praleisti daugumą informacijos vaizduose ir sutelkti dėmesį į pasikeitimą iš būsenos į tikslą.
Šią derinimo struktūrą išmokstame naudodami infoNCE tikslą pagal instrukcijas ir vaizdus iš pažymėto duomenų rinkinio. Mokome dvigubo vaizdo ir teksto kodavimo įrenginius, mokydamiesi kontrastingų kalbų ir tikslo vaizdavimo porų. Tikslas skatina didelį tos pačios užduoties atvaizdų panašumą ir mažą kitų panašumą, kai neigiami pavyzdžiai atrenkami iš kitų trajektorijų.
Naudojant naivų neigiamą atranką (vienodą nuo likusio duomenų rinkinio), išmoktos reprezentacijos dažnai ignoravo tikrąją užduotį ir tiesiog suderino instrukcijas ir tikslus, susijusius su tomis pačiomis scenomis. Norint naudoti politiką realiame pasaulyje, nelabai naudinga kalbą sieti su scena; verčiau to mums reikia norint atskirti skirtingas užduotis toje pačioje scenoje. Taigi mes naudojame griežtą neigiamų atrankos strategiją, kai iki pusės negatyvų atrenkami iš skirtingų trajektorijų toje pačioje scenoje.
Žinoma, ši kontrastinga mokymosi sąranka erzina iš anksto paruoštus regėjimo kalbos modelius, tokius kaip CLIP. Jie demonstruoja veiksmingą nulinio ir kelių kadrų apibendrinimo galimybes atliekant vizijos kalbos užduotis ir siūlo būdą įtraukti žinias iš išankstinio mokymo internetu. Tačiau dauguma regėjimo kalbos modelių yra skirti suderinti vieną statinį vaizdą su jo antrašte, nesuvokiant aplinkos pokyčių, be to, jie veikia prastai, kai reikia atkreipti dėmesį į vieną objektą netvarkingose scenose.
Norėdami išspręsti šias problemas, sukuriame mechanizmą, skirtą pritaikyti ir tiksliai suderinti CLIP, kad būtų suderinti užduočių atvaizdai. Modifikuojame CLIP architektūrą, kad ji veiktų poroje vaizdų kartu su ankstyvu suliejimu (sudaryta pagal kanalą). Pasirodo, tai yra tinkama iniciacija būsenos ir tikslo vaizdų poroms koduoti ir ypač gerai išsaugo CLIP teikiamą naudą prieš mokymą.
Robotų politikos rezultatai
Norėdami gauti pagrindinį rezultatą, mes vertiname GRIF politiką realiame pasaulyje atlikdami 15 užduočių 3 scenose. Instrukcijos parenkamos taip, kad jos būtų derinamos iš tų, kurios yra gerai pateiktos treniruočių duomenyse, ir naujos, kurioms reikalingas tam tikras kompozicijos apibendrinimas. Vienoje iš scenų taip pat yra neregėtas objektų derinys.
Mes lyginame GRIF su paprastu LCBC ir stipresnėmis bazinėmis linijomis, įkvėptomis ankstesnio darbo, pvz LangLfP ir BC-Z. LLfP atitinka bendrus mokymus su LCBC ir GCBC. BC-Z yra bendro vardo metodo pritaikymas mūsų aplinkai, kai mokomės LCBC, GCBC ir paprasto derinimo termino. Jis optimizuoja kosinuso atstumo praradimą tarp užduočių atvaizdų ir nenaudoja vaizdo kalbos išankstinio mokymo.
Politika buvo jautri dviem pagrindiniais gedimo būdais. Jie gali nesuprasti kalbos nurodymų, todėl jie bandys atlikti kitą užduotį arba neatliks jokių naudingų veiksmų. Kai kalbos pagrindas nėra tvirtas, atlikus tinkamą užduotį, politika gali net pradėti neplanuotą užduotį, nes pradinė instrukcija yra iš konteksto.
Įžeminimo gedimų pavyzdžiai
„Įdėkite grybą į metalinį puodą“
„Padėkite šaukštą ant rankšluosčio“
„Uždėkite geltoną papriką ant audinio“
„Uždėkite geltoną papriką ant audinio“
Kitas gedimo būdas yra nesugebėjimas manipuliuoti objektais. Taip gali nutikti dėl to, kad nesugriebėte, netiksliai judate arba netinkamu laiku paleidote objektus. Atkreipiame dėmesį, kad tai nėra būdingi roboto sąrankos trūkumai, nes GCBC politika, parengta pagal visą duomenų rinkinį, gali nuosekliai sėkmingai manipuliuoti. Atvirkščiai, šis gedimo režimas paprastai rodo neefektyvų duomenų panaudojimą, susijusį su tikslu.
Manipuliavimo nesėkmių pavyzdžiai
„Perkelkite papriką į kairę nuo stalo“
„įdėkite papriką į keptuvę“
„perkelk rankšluostį šalia mikrobangų krosnelės“
Lyginant pradines linijas, kiekvienas iš jų skirtingai nukentėjo nuo šių dviejų gedimo būdų. LCBC remiasi tik mažu pažymėtu trajektorijos duomenų rinkiniu, o jo prastos manipuliavimo galimybės neleidžia atlikti jokių užduočių. LLfP kartu moko paženklintų ir nepažymėtų duomenų politiką ir parodo žymiai patobulintas LCBC manipuliavimo galimybes. Jis pasiekia pagrįstų bendrų nurodymų sėkmės rodiklius, tačiau nesugeba įžeminti sudėtingesnių nurodymų. BC-Z derinimo strategija taip pat pagerina manipuliavimo galimybes, greičiausiai todėl, kad suderinimas pagerina perkėlimą tarp modalumo. Tačiau be išorinių vizijos kalbos duomenų šaltinių ji vis dar sunkiai apibendrina naujas instrukcijas.
GRIF rodo geriausią apibendrinimą, tuo pat metu turintis stiprias manipuliavimo galimybes. Jis gali pagrįsti kalbos instrukcijas ir atlikti užduotį net tada, kai scenoje galima atlikti daug skirtingų užduočių. Toliau pateikiame kai kuriuos išleidimus ir atitinkamas instrukcijas.
Politikos išleidimas iš GRIF
„perkelkite keptuvę į priekį“
„įdėkite papriką į keptuvę“
„Padėkite peilį ant purpurinio audinio“
„Padėkite šaukštą ant rankšluosčio“
Išvada
GRIF leidžia robotui panaudoti didelius kiekius nepaženklintų trajektorijų duomenų, kad išmoktų su tikslu susijusią politiką, kartu suteikdamas šios politikos „kalbinę sąsają“ per suderintas kalbos ir tikslo užduočių pateikimas. Skirtingai nuo ankstesnių kalbos ir vaizdo derinimo metodų, mūsų atvaizdai suderina būsenos pokyčius su kalba, o tai, mūsų nuomone, leidžia žymiai pagerinti standartinius CLIP stiliaus vaizdo ir kalbos derinimo tikslus. Mūsų eksperimentai rodo, kad mūsų metodas gali veiksmingai panaudoti nepažymėtas robotų trajektorijas, žymiai pagerindamas našumą, palyginti su pradinėmis linijomis ir metodais, kuriuose naudojami tik kalbos anotuoti duomenys.
Mūsų metodas turi daugybę apribojimų, į kuriuos būtų galima atsižvelgti ateityje. GRIF netinka užduotims, kuriose instrukcijose pasakoma daugiau apie tai, kaip atlikti užduotį, nei ką daryti (pvz., „Lėtai pilkite vandenį“) – tokioms kokybinėms instrukcijoms gali prireikti kitokio tipo suderinimo nuostolių, atsižvelgiant į tarpinius užduoties veiksmus. egzekucija. GRIF taip pat daro prielaidą, kad visi kalbos pagrindai gaunami iš mūsų duomenų rinkinio dalies, kuri yra visiškai anotuota, arba iš anksto parengto VLM. Įspūdinga ateities darbo kryptis būtų išplėsti suderinimo praradimą, kad būtų galima panaudoti žmogaus vaizdo duomenis, siekiant išmokti turtingos semantikos iš interneto masto duomenų. Toks metodas galėtų panaudoti šiuos duomenis, kad pagerintų kalbos pagrindus už roboto duomenų rinkinio ribų ir įgalintų plačiai apibendrinamą roboto politiką, kuri gali vadovautis vartotojo instrukcijomis.
Šis įrašas yra pagrįstas šiuo dokumentu:
BAIR dienoraštis
yra oficialus Berklio dirbtinio intelekto tyrimų (BAIR) laboratorijos tinklaraštis.
BAIR tinklaraštis yra oficialus Berklio dirbtinio intelekto tyrimų (BAIR) laboratorijos tinklaraštis.