Kako Multi-Armed Bandit določa, kaj oglasi in zgodbe vidite na spletu

CS885 Lecture 8a: Multi-armed bandits

CS885 Lecture 8a: Multi-armed bandits
Anonim

Predstavljajte si, da ste igralec in stojite pred več igralnimi avtomati. Vaš cilj je povečati svoj dobitek, vendar dejansko ne veste ničesar o potencialnih nagradah, ki jih ponuja vsak stroj. Vendar razumete, da bodo vzvodi, ki jih vlečete, in pogostost, s katero to storite, vplivali na rezultate vašega igranja na srečo.

Ta scenarij, s katerim se vsak dan srečujejo obiskovalci v Las Vegasu in Atlantic Cityju (v kolikor ljudje še vedno hodijo v Atlantic City), je tudi klasična logična sestavljanka, ki se imenuje »Multi-Armed Bandit« - igralni avtomati so imenovani »One-Armed« Banditi “s staranjem Reno-tipov, ker imajo en vzvod in vzamejo denar ljudi. Čeprav ni nobenega pravilnega načina za obravnavanje situacij z več oboroženimi banditi - najbližji kandidat je Gittinsov indeks - obstajajo strateški pristopi k reševanju teh problemov, ki jih vidite brez registracije vsak dan, ko obiščete splet. Veliko algoritmov, ki urejajo prikaz vsebine prek Googla in spletnih strani, temeljijo na strategijah MAB. Cilj v skoraj vseh primerih je povezati učenje in rezultate in povečati potencial za oba.

Uporablja se večstranski banditski pristop Washington Post da ugotovite, katere fotografije in naslove boste najverjetneje kliknili, in z brezžičnimi omrežji ugotovite, katere optimalne, varčne poti so najboljše. Algoritmi, ki izhajajo iz pristopov MBA, so zelo pomembni za ta podjetja in mnoge druge, ker v bistvu določajo, kdaj in kateri oglasi se pojavijo na spletu.

Ugotoviti, kakšni oglasi morajo pokazati ljudem, je težaven problem, ker obstaja toliko enomočnih razbojnikov, ki tečejo okoli klikanja stvari na spletu. Algoritmi MAB za oglase običajno uporabljajo hitro spreminjajoči se "smrtni večplastni problem banditov", ki se uporablja v določenih časovnih obdobjih. Podatki o prometu se uporabljajo za razvoj vse bolj učinkovitih metodologij.

MABs je težko ujemati z natančnim namenom, ker je mogoče ustvariti toliko različic formule. K-oboroženi razbojniki imajo na primer »orožje«, ki tekmuje za najvišjo pričakovano nagrado. Kontekstualiziranje razbojnikov poteka enako, toda z »strokovnim nasvetom« - podatki, ki so bili predhodno zbrani o uporabniku - in spletno pripravljeni z imenom »ILOVETOCONBANDITS« deluje samo po urniku vnaprej določenih krogov. Nasprotno klasični pristop MAB nima stranskih informacij in rezultat je odvisen le od potenciala izbranega ukrepa.

Čeprav se zdi, da je doslej najbolj uporabna aplikacija za MABs povezana z internetom, se raziskovalci trudijo najti način, kako jih uporabiti za scenarije »resničnega življenja«. V dokumentu iz leta 2015 raziskovalci z Univerze v Britanski Kolumbiji menijo, da je uporaba MABs za medicinske preskuse. Cilj, če se MABs izkaže, da je možen tukaj, je, da lahko MAB algoritem meri učinek določenega zdravila. Očiten problem je v tem, da bi bilo, če ne bi bilo mogoče ustvariti računalniško modulirane različice, s tem pristopom preprosto preveč zamudno. Načrt MAB ne more biti vključen v klinično preskušanje.

Ideja je lepa, vendar do sedaj ni izvedljiva. Dokler ne bo prihodnost, boste večinoma čutili grozljivo prisotnost večzaveznega razbojnika, ko skušate obupano klikniti iz pojavnih oglasov.