Ali lahko Googlova "superčloveška" nevronska mreža resnično pove lokacijo katere koli slike?

Calling All Cars: The Blonde Paper Hanger / The Abandoned Bricks / The Swollen Face

Calling All Cars: The Blonde Paper Hanger / The Abandoned Bricks / The Swollen Face
Anonim

Iskanje slik je lažje kot kdajkoli prej. Ampak, če poskušate najti sliko nečesa na lokaciji, ki ni povsem očitna (torej ne egiptovskih piramid ali ogromno kiparstvo s palcem v Parizu), je težje, kot si mislite - tudi s podatki o geolokaciji, ki temeljijo na na sliki.

Vnesite Google inženirja z imenom Tobias Weyand in njegove kolege. Po novem članku v reviji arXiv Trio je izdelal globoko učečo se napravo, ki je sposobna natančno določiti lokacijo skoraj vseh fotografij, ki temeljijo izključno na analizi njenih slikovnih pik.

Če želite, da stroj uspešno opravi nalogo, kot je ta, ji želite dati možnost, da intuitivne informacije temeljijo na vizualnih namigih. Hočeš, da misli, z drugimi besedami, kot človeško bitje.

Weyand je začel razvijati umetno nevronsko mrežo - strojni sistem, ki je zasnovan tako, da posnema nevrološke poti možganov, ki mu omogočajo, da se uči, procesira in spominja na informacije, kot človek. Ta novi sistem, PlaNet, je očitno sposoben presegati človeka pri določanju lokacij slik, ne glede na to, kakšna je postavitev - naj bo v zaprtih prostorih ali na prostem, in ki vsebuje kakršnekoli edinstvene ali nenavadne vizualne napotke.

Kako deluje PlaNet? Weyand in njegova ekipa sta razdelila zemljevid sveta v mrežo, ki je položila več kot 26.000 kvadratnih oblik na različnih območjih, odvisno od tega, koliko slik je bilo posnetih v teh krajih. Gosto mesto, kjer se posname veliko slik, se ujema z manjšim kvadratom, večja in bolj oddaljena območja pa se lahko razrežejo v večje kvadrate.

Ekipa je nato ustvarila veliko zbirko slik, ki so že geolocirane - skoraj 126 milijonov različnih fotografij. Približno 91 milijonov je bilo uporabljenih kot podatkovni niz, ki je učil PlaNet, kako ugotoviti, katero sliko lahko postavimo v mrežo na zemljevidu sveta.

Nato je bila nevronska mreža zadolžena za geolokacijo ostalih 34 milijonov slik iz baze podatkov. Nazadnje, PlaNet je bil postavljen na podatkovni niz 2,3 milijona slik z geografskimi oznakami iz Flickra.

Rezultati? PlaNet bi lahko določil državo izvora za 28,4 odstotka fotografij in 48 odstotkov celine. Poleg tega bi sistem lahko določil lokacijo na ravni ulice za 3,6 odstotka slik Flickr in mesto na ravni mesta za 10,1 odstotka.

PlaNet je v tem boljši kot večina človeških bitij - tudi največji globusi. Weyand je v igro označevanja lokacij slik, ki jih najdete v storitvi Google Street View, uvrstil 10 dobro potujočih posameznikov, ki so tekmovali proti PlaNetu.

»Skupaj je PlaNet osvojil 28 od 50 krogov s srednjo napako lokalizacije 1131,7 km, medtem ko je bila srednja napaka pri lokalizaciji 2320,75 km,« so zapisali raziskovalci. "Ta mali poskus kaže, da PlaNet doseže nadčloveško zmogljivost pri nalogi geolokacije prizorov Street View."

Je to resnično? Ali je Google inženir res razvil »nadčloveško« A.I. sistem?

Ko gre za geolociranje slik, morda. In to ni vse presenetljivo - točka A.I. človeški možgani v vseh pogledih ne oponašajo, ampak preseči človeške omejitve v nekaj specifičnih načinih, kako doseči veliko težje naloge. V tem smislu je to, kar pišejo raziskovalci, resnično.

Še vedno pa je, da se PlaNet imenuje »nevronska mreža«. Idealna oblika te tehnologije bi lahko spoznala veliko več kot le geolokacijo slik. A.I. sistemi so sposobni pisati primerke in igranje Super Mario, vendar je to majhna stvar v primerjavi z idealnim "master" sistemom, ki lahko samodejno spremlja in vzdržuje vitalne lastnosti, upravlja prometno ali energetsko infrastrukturo in še veliko več.