alphago

16 entry daha

madem bildigim yerden gelmis, dilim dondugunce aciklayayim.

1- makina kasparov'u yenen deepblue gibi monte carlo tree search (mcts ) kullaniyor. bu yontem su, herhangi bir hamleden once, baslangic noktasi olasi tum hamlelere dallaniyor. daha sonra bu dallanan her hamle icin bunu tekrarliyoruz. elimizde dallanip budaklanmis bir arama agaci oluyor. agacin her bir yapragi bir hamle dizisi sonrasi olusacak konumu gosteriyor. bu yapraklardaki her konuma bir skor veriliyor. skor bilgisi agacta yapraktan koke dogru gidiyor. makine en sonunda da en yuksek skoru veren alt-agaca dogru yoneliyor. satrancta bu adimlar kiyasla daha kolay i) olasi hamle sayisi daha az ii) tahta konumunu puanlamak daha kolay : taslarin degerleri var ve taslarin rolleri sayesinde birbirine olan konumlari skorlanabiliyor. alphago bu noktada devreye yapay sinir aglarini sokuyor.

2- go'da olasi hamle sayisi fazla oldugu icin agacin dallarini sezgisel olarak budamak cok onemli. alphago bunu kgs go'daki oynanmis amator ve pro oyunlarini kullanarak cozuyor. her oyun konfigurasyonu icin bir sonraki hamleyi tahmin eden bir policy network egitiliyor. bunun icin de gorsel datayi islemede en yaygin yontem olan convolutional neural network kullaniliyor. bu kismi ilginc zira, alphago oncesi iddialardan biri go sezgisel bir oyun makineler asla bu sezgiye sahip olamaz seklindeydi. makinedeki sezgisel parcalardan biri bu. policy network sayesinde makine en olasi hamleleri arama agacinda dallandirip zamandan tasarruf ediyor ve daha onceden benzer konumda kullanilmis hamleleri denemeyi tercih ediyor.

3- satranctan farkli olarak olasi bir konumu skorlamak icin elimizde net bir formul olmadigindan agacin yapraklarindaki konfigurasyonlarin skorlanmasi icin yeni bir cozume ihtiyac var. alphago value network ile bu isi cozuyor. yine policy network gibi cnn kullanarak olasi konumda kimin kazanacagina dair bir skor uretiyor. policy network'un urettigi olasi hamlelerin her biri icin bir skor var elimizde. bu skorlamayi ogrenmek icin de i) gercek oyunlardaki sonuclar kullaniliyor ii) makine kendi kendine oyunlar oynayip, oyun sonuclarini ve ara zamanlardaki konfigurasyonlari kullanarak value network'u egitiyor.

tum bu karmasik yapinin calisir hale gelmesi gercekten cok etkileyici. yine de seytanin avukatligini yapmak gerekirse:

i) daha onceki go oynayan makinelerin hic biri bu kadar cok hesaplama gucune sahip degildi. alphago onlarca gpu/cpu kullaniyor ve onlarca saatlik egitim almis durumda. soru su acaba ayni miktarda efor (insan saati & makine saati) diger makineler icin harcansaydi fark nasil olurdu?

ii) bir insanin 1 milyon mac yapabilmesi icin 40 yil boyunca gunde 70 mac yapmasi gerekiyor. acaba ayni miktarda mac deneyimiyle bir insani yenmek mumkun mu?

iii) insan faktorunu devreden cikarip, tamamiyle kendi kendine oynayan bir makinenin oyun tarzi bir insaninkine benzer miydi? ilk iki mactaki hamleleri ile bir turing testi yapilsa kimse hangisi makine hangisi insan fark edemezdi. zira yapilan farkli hamleler bile bir pro dan beklenecek farkli hamlelerdi (cilgin bir dizi hamle gormedik). bu durumda kendi kendine ogrenmis bir makineden yeni fuseki yada josekiler gormemiz mumkun mudur? yoksa su an bilinen hamle dizileri yeterince buyuk bir alt kume mi. bu kisim bir sonraki adim olacagina dair soylentiler duydum ve gercekten heyecan verici.

datsilaspatkom

11.03.2016 04:01

35 entry daha