şükela:  tümü | bugün
  • lee sedol'u mağlup eden versiyonu 100-0 yenmiş en yeni alphago. başarısının sırrı (bkz: unsupervised learning)'miş.
  • ilk alphago sürümü insanların oyunlarıyla eğitilmişti ve dünya şampiyonlarını yenmişti. alphago zero ise tamamen kendi kendisiyle go oynayarak sıfırdan go öğrenmiş bir sinir ağı varyasyonu. makalesinde dikkatimi çeken iki konu var:

    1. insan gibi öğreniyormuş. başta go'ya her yeni başlayan insan gibi savaşlara, taş almaya çok odaklanmış. sonra bölge, ölüm/kalım meselelerini öğrenmiş, en son da gayet karmaşık ko savaşlarına girmiş. (bkz: ko savaşı)

    2. go'da insanların da kullandığı açılış hamlelerini kendisi de sıfırdan keşfetmiş. hatta bunlardan insanlar arasında da popüler olan bir tanesini bulmuş, sevmiş ve sürekli kullanmaya başlamış. ancak bir süre sonra kendisi hiç bilinmeyen yeni bir açılış hamlesi daha bulup onu kullanmaya başlamış. kısacası 20 günlük eğitim sonrası binlerce yıldır insanların keşfedemediği oyun dinamiklerini keşfetmiş. bu bana her adlı filmdeki (dikkat spoiler) yapay zekanın başta insanlarla takılıp sonra sıkılıp uçup gitmesini hatırlattı. (spoiler sonu).

    nitekim bu zero arkadaş, dünya şampiyonlarını yenmiş olan insan eğitimli alphago sürümünü 100-0 yenmiş.

    inanılmaz gelişmeler. sendeyiz aybüke.
  • andrej karpathy'nin alphago ile ilgili şu makalesi teknik açıdan ilgilenenler için güzel bir okuma olabilir. şöyle bir not düşmüş "update oct 18, 2017: alphago zero was announced. this post refers to the previous version. 95% of it still applies.
    " https://medium.com/…alphago-in-context-c47718cb95a5

    --- spoiler ---

    ı wanted to expand on the narrowness of alphago by explicitly trying to list some of the specific properties that go has, which alphago benefits a lot from. this can help us think about what settings alphago does or does not generalize to. go is: fully deterministic. there is no noise in the rules of the game; if the two players take the same sequence of actions, the states along the way will always be the same. fully observed. each player has complete information and there are no hidden variables. for example, texas hold’em does not satisfy this property because you cannot see the cards of the other player. the action space is discrete. a number of unique moves are available. ın contrast, in robotics you might want to instead emit continuous-valued torques at each joint. we have access to a perfect simulator (the game itself), so the effects of any action are known exactly. this is a strong assumption that alphago relies on quite strongly, but is also quite rare in other real-world problems. each episode/game is relatively short, of approximately 200 actions. this is a relatively short time horizon compared to other rl settings which may involve thousands (or more) of actions per episode. the evaluation is clear, fast and allows a lot of trial-and-error experience. ın other words, the agent can experience winning/losing millions of times, which allows is to learn, slowly but surely, as is common with deep neural network optimization. there are huge datasets of human play game data available to bootstrap the learning, so alphago doesn’t have to start from scratch.
    --- spoiler ---
  • başarısının arkasında, oyunu kısa süre içerisinde milyonlarca kez oynayabilmesi vardır. yani bir insan ömrü boyunca go oynasa bu sayıya ulaşamaz.

    gelişmelere hayranlık duymakla birlikte, bu karşılaşmaların pek de adil olduğu söylenemez. 1 haftalık go oyuncusu ile 5 senelik go oyuncusunun karşı karşıya gelmesi gibi bir şey.

    bu bağlamda, yapay zeka için sonraki adımlardan birinin, daha az oyun sayısı ile insan şampiyonları yenebilecek düzeye gelmesi olacağını düşünüyorum.
  • bu şerefsize google şimdi de satranç öğretmiş.

    öğrendikten saatler sonra dünyanın en iyi satranç uygulamalarından birisi olan stockfish 8 ile üst üste 100 maç yapmış. bu maçların tamamını kazanmış ya da berabere kalmış.

    bir de japon oyunu shogi öğrenmiş iki saatte kendi kendine. elmo isimli bu oyundaki uzman programı 90 oyunda yenmiş, 2 beraberlik ve 8 yenilgi almış.

    bbc haberi

    matrix 10 yıl önce hayaldi, şimdi google'la gerçek oluyor.
  • (bkz: alphazero)