Kako je DeepMind razvil srhljivo samouk A.I. To lahko preseže ljudi

Behringer DeepMind 12 Synthesizer Demo by Daniel Fisher

Kazalo:

Kako učiti A.I. Učiti se
Zakaj je Alpa Zero tako dobra

Računalniki so že nekaj desetletij brcali naše krhke človeške riti v šah. Prvič se je to zgodilo leta 1996, ko je IBM-ova družba Deep Blue uspela odstraniti svetovnega prvaka Garyja Kasperova. Toda nova študija iz A.I. obleka DeepMind osvetli, kako omejen je bil obseg zgodnje zmage.

Kasperov je odvrnil nazaj, zmagal je tri igre in dvakrat risal v šestih tekmah na staro Dnevne novice poročilo.

Toda veliko bolj opazno je, kot pravi raziskovalec DeepMinda Julian Schrittwieser Inverse aplikacije, kot je Deep Blue, so prav tako programirali ročno. To pomeni, da so ljudje morali učiti A.I. vse, kar je bilo treba vedeti o tem, kako ravnati z vsako možno situacijo. Z drugimi besedami, lahko je bil vedno tako dober, kot so ga programirali ljudje. In medtem, ko je bila Deep Blue očitno lahko dober v šahu; dajte mu še eno, podobno igro, kot je Go, in bila bi neumna.

Alpha Zero je popolnoma drugačen. V novi študiji, objavljeni danes v reviji Znanost, avtorji razkrivajo, kako niso mogli le naučiti Alpha Zero, kako premagati ljudi v šahu, ampak kako naučiti Alpha Zero kako učite samega sebe obvladati več iger.

Kako učiti A.I. Učiti se

Alpha Zero je bil razvit z uporabo tehnike, ki se imenuje učenje z globoko ojačitvijo. V bistvu gre za pouk A.I. nekaj zelo preprostega, kot so osnovna pravila šaha, in potem počne to preprosto stvar vedno znova in znova, dokler se ne nauči bolj zapletenih, zanimivih stvari, kot so strategije in tehnike.

"Tradicionalno … bi ljudje sprejeli svoje znanje o igri in jo poskusili kodirati v pravila," pravi Schrittwieser, ki je skoraj štiri leta delal na Alpha Zero. "Naš pristop je, da ga inicializiramo naključno, in potem pustimo, da se igra proti sebi, in iz teh iger se lahko nauči, kaj strategije delujejo."

Vse Alpha Zero je osnovno pravilo in od tam se nauči, kako zmagati z igranjem samega sebe. Glede na nova spoznanja je bilo za Alpha Zero potrebnih le devet ur za obvladovanje šaha, 12 ur za obvladovanje Shogija in približno 13 dni za obvladovanje Go-ja. Ker se igra sama, je v bistvu samouk. Naredil je čiščenje vseh svetovnih prvakov po človeku vodenih algoritmih, ki so premagali svetovnega prvaka leta 2017 v Shogiju 91 odstotkov časa.

»Lahko samostojno odkrije zanimivo znanje o igri,« pravi Schrittwieser. "To vodi do programov, ki igrajo bolj človeško."

Čeprav je njegov slog človeško podoben in ustvarjalen, pa je verjetno tudi optimalen, dovolj, da bi lahko Alpha Zero prevladal v skoraj vsaki igri, v kateri ima dostop do vseh razpoložljivih informacij. V bistvu je Alpha Zero tako prefinjen, da se bomo morda morali premakniti na popolnoma drugačen razred iger, da bomo lahko nadaljevali z mejami, kako A.I. rešuje probleme.

Zakaj je Alpa Zero tako dobra

A.I. Raziskovalci radi uporabljajo te igre kot preizkusno podlago za vedno bolj zapletene oblike algoritmov iz nekaj razlogov. Elegantni so in ljudje jih igrajo več sto let, kar pomeni, da imate veliko potencialnih izzivalcev, da preizkusite svoj algoritem. Toda tudi oni so zapleteni in zapleteni, kar pomeni, da lahko služijo kot odskočna deska za A.I. ki lahko reši probleme v resničnem svetu. Schrittwieser pravi, da je naslednje področje raziskav ustvarjanje algoritma, kot je Alpha Zero, ki lahko še vedno sprejme optimalne odločitve z nepopolnimi informacijami.

»V vseh teh igrah veš vse, kar se dogaja,« pravi. »V resničnem svetu lahko poznate le del informacij. Morda poznate svoje kartice, vendar ne poznate nasprotnika, imate delne informacije."

Še vedno je še nekaj iger, ki so sposobne dati takim izzivom algoritme, kot je Alpha Zero - Schrittwieser je omenil Stratego, v katerem igralci skrivajo svoje poteze drug od drugega - in Starcraft, ki je še eno področje, ki je zanimivo za raziskovalce, ki so usmerjeni v igre na srečo.

»Želimo, da se težave, s katerimi se spopadamo, vse bolj zapletajo,« pravi. "Ampak to je vedno ena dimenzija naenkrat."

Hkrati pa naslednja generacija računalniških reševalcev problemov Deep Mind že kaže potencial za prehod iz sveta iger v realni svet. V začetku tega tedna je objavila še en algoritem, imenovan AlphaFold, ki je sposoben ekstrapolirati zaporedje beljakovin v natančno napoved njegove 3D strukture.Težava je, da so znanstveniki, ki so že desetletja zbegani, lahko pomagali odpreti vrata za zdravljenje bolezni, od Alzheimerjeve do cistične fibroze.

MIT je razvil nov iskalnik bugov za priljubljen spletni okvir Ruby na tirih

Raziskovalci tehnološkega inštituta v Massachusettsu so razvili programsko opremo, ki predstavlja preboj na področju varnosti za programe, napisane v priljubljenem okviru spletne aplikacije Ruby on the Rails. Pri testiranju na 50 spletnih aplikacijah, napisanih v Ruby on Rails, je programska oprema prepoznala 23 hroščev, ne da bi vzela več kot ...

Zakaj je Disney zgolj razvil privlačnega robotskega arašida

Hiša miši, ki je nikoli ni zaobšla pozornosti, je danes z mednarodno konferenco IEEE o robotiki in avtomatizaciji začela z napovedjo, da je začela s procesom ustvarjanja sprehajalnega arašida. Disney Research se je že dolgo ukvarjal z robotskimi okvirji, da bi prinesel billi podjetja ...

Ninebot, ki ga je razvil Segway MiniPRO, je lahko hoverboard, ki smo ga čakali

Hoverboardi so zloglasni iz enega glavnih razlogov: njihova težnja po spontani eksploziji v plamenih zaradi poceni izdelanih baterij. Vstopite v Segway, ustvarjalce dvokolesnega samoregulacijskega vozila, ki je v našo kulturo vrezalo nišo prek smešnih turnej Segway po mestih po svetu. Ne sme zmagati ...