Algoritem, ki je obvladal 'Pong' Zdaj odlično na 'Flappy Bird', Still Single

$config[ads_kvadrat] not found

Твой мозг может использовать алгоритмы — Дэвид Мелен

Твой мозг может использовать алгоритмы — Дэвид Мелен
Anonim

Izboljšanje metode globokega učenja, ki je bila prvič uveljavljena Pong, Space Invaders in druge igre Atari, študent računalništva na Univerzi v Stanfordu, Kevin Chen, je ustvaril algoritem, ki je precej dober pri klasičnem stranskem scrollerju 2014 Flappy Bird. Chen je izkoristil koncept, imenovan "q-learning", v katerem agent skuša izboljšati svoj nagradni rezultat z vsako ponovitvijo igranja, da bi izpopolnil skoraj nemogočo in neverjetno zasvojenost.

Chen je ustvaril sistem, v katerem je bil njegov algoritem optimiziran, da išče tri nagrade: majhno pozitivno nagrado za vsak okvir, ki je ostal živ, veliko nagrado za prehod skozi cev in enako veliko (vendar negativno) nagrado za umiranje. Tako motivirana, tako imenovana globoko-q-mreža lahko nadigra ljudi, v skladu s poročilom Chen: “Uspelo nam je uspešno odigrati igro Flappy Bird tako, da se učimo naravnost iz pikslov in rezultatov in dosežemo super-človeške rezultate."

Originalni papir Atari, objavljen leta 2015 v Ljubljani Narava, je prišel iz družbe, ki je v lasti Googla DeepMind (zdaj znana po svojem obvladovanju starodavne kitajske namizne igre Go). Dosežek DeepMinda je bil preboj v tem, da je potreboval vsaj vizualno - ali pikselno - informacijo in je z minimalnim vložkom uspel maksimirati nagrade. Tak sistem nagrajevanja je bil podoben možganskemu dopaminergičnemu odgovoru, ki je bil poenostavljen.

To ni prvič, da je algoritem zavzel ptico, ki se je zlomila: v prejšnjem razredu študentov računalništva na Univerzi v Stanfordu so ustvarili program, ki se je, ko je bil izurjen čez noč, njegov rezultat izboljšal z 0 cevi na 1.600.

$config[ads_kvadrat] not found