Kalbos naudojimas, kad robotai geriau suprastų atvirą pasaulį


Funkcijų laukai robotų manipuliavimui (F3RM) leidžia robotams interpretuoti atvirojo tipo tekstinius raginimus natūralia kalba, padedant mašinoms manipuliuoti nepažįstamais objektais. Sistemos 3D funkcijų laukai gali būti naudingi aplinkoje, kurioje yra tūkstančiai objektų, pavyzdžiui, sandėliuose. Vaizdai tyrėjų sutikimu.

Autorius Alex Shipps | MIT CSAIL

Įsivaizduokite, kad lankotės pas draugą užsienyje ir pažvelgsite į jų šaldytuvą, kad pamatytumėte, iš ko būtų galima paruošti puikų pusryčius. Daugelis daiktų iš pradžių jums atrodo svetimi, kiekvienas supakuotas į nepažįstamas pakuotes ir konteinerius. Nepaisant šių vaizdinių skirtumų, jūs pradedate suprasti, kam kiekvienas iš jų naudojamas, ir prireikus juos pasirenkate.

Įkvėpta žmonių gebėjimo valdyti nepažįstamus objektus, MIT kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL) grupė sukūrė robotų manipuliavimo funkcijų laukus (F3RM), sistema, sujungianti 2D vaizdus su pagrindinio modelio funkcijomis į 3D scenas, kad padėtų robotams atpažinti ir suvokti netoliese esančius daiktus. F3RM gali interpretuoti atviros kalbos raginimus iš žmonių, todėl šis metodas yra naudingas realioje aplinkoje, kurioje yra tūkstančiai objektų, pvz., sandėliuose ir namų ūkiuose.

F3RM siūlo robotams galimybę interpretuoti atvirojo tipo tekstinius raginimus natūralia kalba, padedant mašinoms manipuliuoti objektais. Dėl to mašinos gali suprasti ne tokius konkrečius žmonių prašymus ir vis tiek atlikti norimą užduotį. Pavyzdžiui, jei vartotojas paprašo roboto „pasiimti aukštą puodelį“, robotas gali surasti ir patraukti prekę, kuri geriausiai atitinka šį aprašymą.

„Sukurti robotus, kurie iš tikrųjų gali apibendrinti realiame pasaulyje, yra neįtikėtinai sunku“, – sako Ge YangNacionalinio mokslo fondo AI dirbtinio intelekto ir pagrindinių sąveikų instituto ir MIT CSAIL postdoc. „Mes tikrai norime išsiaiškinti, kaip tai padaryti, todėl šiuo projektu stengiamės pasiekti agresyvų apibendrinimo lygį, nuo trijų ar keturių objektų iki bet ko, ką randame MIT Stata centre. Norėjome išmokti, kad robotai būtų tokie lankstūs kaip mes patys, nes galime suvokti ir padėti objektus, nors niekada jų nematėme.

Mokymasis „kas kur yra žiūrint“

Šis metodas galėtų padėti robotams išsirinkti daiktus dideliuose vykdymo centruose, kuriuose neišvengiama netvarka ir nenuspėjamumas. Šiuose sandėliuose robotams dažnai pateikiamas inventoriaus, kurį jie turi identifikuoti, aprašymas. Kad klientų užsakymai būtų išsiųsti teisingai, robotai turi atitikti pateiktą tekstą prie objekto, nepaisant pakuotės skirtumų.

Pavyzdžiui, didžiųjų internetinių mažmenininkų vykdymo centruose gali būti milijonai prekių, kurių robotas dar niekada nebuvo susidūręs. Kad veiktų tokiu mastu, robotai turi suprasti skirtingų elementų geometriją ir semantiką, kai kurie iš jų turi būti ankštose erdvėse. Turėdamas pažangius F3RM erdvinio ir semantinio suvokimo gebėjimus, robotas galėtų efektyviau nustatyti objekto vietą, įdėti jį į šiukšliadėžę ir išsiųsti pakuoti. Galiausiai tai padėtų gamyklos darbuotojams efektyviau pristatyti klientų užsakymus.

„Vienas dalykas, kuris dažnai stebina žmones naudojant F3RM, yra tai, kad ta pati sistema taip pat veikia patalpos ir pastato mastu ir gali būti naudojama kuriant robotų mokymosi modeliavimo aplinką ir didelius žemėlapius“, – sako Yang. „Tačiau prieš plečiant šį darbą, pirmiausia norime, kad ši sistema veiktų tikrai greitai. Tokiu būdu galime naudoti tokio tipo atvaizdavimą dinamiškesnėms robotų valdymo užduotims, tikimės, realiuoju laiku, kad robotai, atliekantys dinamiškesnes užduotis, galėtų jį panaudoti suvokimui.

MIT komanda pažymi, kad F3RM gebėjimas suprasti skirtingas scenas gali būti naudingas miesto ir namų aplinkoje. Pavyzdžiui, šis metodas gali padėti individualizuotiems robotams nustatyti ir pasiimti konkrečius daiktus. Sistema padeda robotams suvokti aplinką – tiek fiziškai, tiek suvokiant.

„Vizualinį suvokimą Davidas Marras apibrėžė kaip problemą, kaip žinoti, kas yra kur, žiūrint“, – sako vyresnysis autorius. Phillipas IsolaMIT elektrotechnikos ir kompiuterių mokslo docentas ir CSAIL pagrindinis tyrėjas. „Naujausi makiažo pagrindų modeliai labai gerai žinojo, į ką žiūri; jie gali atpažinti tūkstančius objektų kategorijų ir pateikti išsamius tekstinius vaizdų aprašymus. Tuo pačiu metu spinduliavimo laukai labai gerai atvaizduoja, kur scenoje yra dalykų. Šių dviejų metodų derinys gali sukurti vaizdą, kas kur yra 3D formatu, o mūsų darbas rodo, kad šis derinys yra ypač naudingas atliekant robotines užduotis, kurioms reikia manipuliuoti objektais 3D formatu.

Sukurti „skaitmeninį dvynį“

F3RM pradeda suprasti aplinką fotografuodamas asmenukės lazdele. Sumontuota kamera užfiksuoja 50 vaizdų skirtingomis pozomis, kad būtų galima sukurti a nervinio spinduliavimo laukas (NeRF) – gilaus mokymosi metodas, kurio metu imamas 2D vaizdas, kad būtų galima sukurti 3D sceną. Šis RGB nuotraukų koliažas sukuria „skaitmeninį dvynį“ iš savo aplinkos 360 laipsnių kampu vaizduojant tai, kas yra netoliese.

Be labai detalaus nervinio spinduliavimo lauko, F3RM taip pat sukuria funkcijų lauką, kad papildytų geometriją semantine informacija. Sistema naudoja KLIPASregėjimo pagrindo modelis, parengtas naudojant šimtus milijonų vaizdų, siekiant efektyviai išmokti vizualines koncepcijas. Rekonstruodama 2D CLIP funkcijas asmenukės lazdele užfiksuotiems vaizdams, F3RM efektyviai pakelia 2D ypatybes į 3D vaizdą.

Laikykite dalykus atvirus

Gavęs keletą demonstracijų, robotas pritaiko tai, ką išmano apie geometriją ir semantiką, kad suvoktų objektus, su kuriais dar niekada nebuvo susidūręs. Kai vartotojas pateikia tekstinę užklausą, robotas ieško per galimų gniaužtų erdvę, kad nustatytų tuos, kuriems greičiausiai pavyks pasiimti vartotojo prašomą objektą. Kiekviena galima parinktis vertinama pagal jos atitikimą raginimui, panašumą į demonstracijas, kurių robotas buvo apmokytas, ir ar jis sukelia susidūrimų. Tada parenkamas ir vykdomas aukščiausias įvertinimas.

Siekdami parodyti sistemos gebėjimą interpretuoti neribotus žmonių prašymus, tyrėjai paskatino robotą pasiimti Baymax, veikėją iš Disnėjaus filmo „Didysis herojus 6“. Nors F3RM niekada nebuvo tiesiogiai mokomas paimti animacinio filmo superherojaus žaislą, robotas naudojo savo erdvinio suvokimo ir regos kalbos ypatybes iš pamatų modelių, kad nuspręstų, kurį objektą sugriebti ir kaip jį paimti.

F3RM taip pat leidžia vartotojams nurodyti, kurį objektą jie nori, kad robotas tvarkytų skirtingais kalbos detalumo lygiais. Pavyzdžiui, jei yra metalinis puodelis ir stiklinis puodelis, vartotojas gali paprašyti roboto „stiklinio puodelio“. Jei robotas mato du stiklinius puodelius ir vienas iš jų užpildytas kava, o kitas – sultimis, vartotojas gali paprašyti „stiklinio puodelio su kava“. Pagrindo modelio funkcijos, įterptos į funkcijų lauką, leidžia suprasti tokį neribotą supratimo lygį.

„Jei parodyčiau žmogui, kaip paimti puodelį už lūpos, jis galėtų lengvai perduoti tas žinias, kad paimtų panašios geometrijos objektus, tokius kaip dubenys, matavimo stiklinės ar net juostos ritinėliai. Robotams pasiekti tokį prisitaikymo lygį buvo gana sudėtinga“, – sako MIT doktorantas, CSAIL filialas ir vienas iš pagrindinių autorių. Viljamas Šenas. „F3RM sujungia geometrinį supratimą su semantika iš pamatų modelių, parengtų naudojant interneto masto duomenis, kad būtų galima atlikti tokį agresyvaus apibendrinimo lygį iš kelių demonstracijų.

Shen ir Yang parašė darbą prižiūrimi Isola, o bendraautoriai buvo MIT profesorius ir CSAIL vyriausiasis tyrėjas Leslie Pack Kaelbling ir bakalauro studentai Alanas Yu ir Jansenas Wongas. Komandą iš dalies palaikė „Amazon.com Services“, Nacionalinis mokslo fondas, Oro pajėgų mokslinių tyrimų biuras, Karinio jūrų laivyno tyrimų biuro daugiadalykė universiteto iniciatyva, Armijos tyrimų biuras, MIT-IBM Watson Lab ir MIT Quest for Intelligence. Jų darbai bus pristatyti 2023 m. konferencijoje apie robotų mokymąsi.


MIT naujienos



Source link

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -