Deep 'krepitev učenja' je Poučevanje Roboti Nove spretnosti hitreje kot kdajkoli

$config[ads_kvadrat] not found
Anonim

Roboti se učijo, kako dokončati naloge v hitrih virtualnih svetovih in razviti veščine v nekaj urah, ki bi sicer lahko trajale mesece. Simulirano učenje z globoko ojačitvijo (ali Deep RL) pomeni spretnost, ki običajno traja 55 dni za A.I. učenje v resničnem svetu traja le en dan v hiper pospešenem razredu.

"To ima potencial, da resnično revolucionira, kaj lahko storimo na področju robotike," je povedala Raia Hadsell, raziskovalka z Google DeepMind, na srečanju Re-Work Deep Learning v Londonu v četrtek. "Lahko se naučimo spretnosti na človeški ravni."

Morda se sliši proti-intuitivno, saj zagotovo celotna točka robotov je, da jih lahko programerji naučijo delati stvari, kajne? Pri oblikovanju stroja, ki deluje v resničnem svetu, pa roboti potrebujejo veliko podatkov, da razumejo, kako narediti nalogo v neznani situaciji. A.I. Te podatke lahko uporabimo za »učenje« spretnosti na podlagi vseh primerov, ki so bili prej.

Učenje z globoko ojačitvijo zbira te podatke na podoben način, kot se učijo ljudje: robot bo večkrat dokončal nalogo, kot je lovljenje žoge, in beleženje podatkov za ustvarjanje slike o tem, kako najbolje ujeti žogo v novi situaciji. Ko je DeepMind leta 2013 uporabil model za poučevanje robota, kako obvladati Atari igre, ga je znanstvena skupnost oboževala tako, da je preprosto sedela pred zaslonom in ji govorila o končnem cilju.

Problem je, da to traja večno. Večkrat morate metati kroglice ali v primeru Atarija robota pustiti nekaj časa v svoji spalnici. Vodenje simulacije MuJoCo, v kombinaciji z progresivno nevronsko mrežo, lahko vodijo program, ki posnema robota, prenese naučeno vedenje na robota in preslika virtualna gibanja v resnični svet.

»Te simulatorje lahko vodimo cel dan in celo noč«, je dejal Hadsell.

Rezultati govorijo sami zase. Ta robot, ki je dobil diplomo za lovljenje, lahko zdaj sledi virtualnim žogicam, kot da bi bile resnične, da bi to naredil za velik dan, ko se zahteva, da ujame pravo žogo:

$config[ads_kvadrat] not found