Re: [新聞] 下戰帖 AlphaGo將單挑《星海爭霸》消失
大家好 在版上潛水許久
本魯在資工所修的就是機器學習
難得看到這類型的議題在板上這麼熱門
正好 我的碩論就是做星海爭霸的人工智慧
所以碩班都是讀相關PAPER
先來跟大家說明一下我的碩論是怎麼做出來
承接自一個很厲害的大專生
類神經網路 結合 基因演算法
類神經的輸入有:
現在的各類型資源數量
各兵種目前數量
遊戲時間
各科技升級情況
已偵察到的隊方各兵種數量...等
經過中間隱藏層的計算後
類神經的輸出有:
是否生產各類型兵種
是否升級各種科技
是否開礦區
是否出擊...等
實驗一開始
一開始先隨機產生許多組類神經隱藏層的權重
勝率最低的組別淘汰
淘汰後 被贏最多的兩組混種產生子代取代
就這樣一直跟內建AI學習
大約500場之後網路會開始收斂
(阿這就是基因演算法啦
也就是他會從輸贏知道怎麼樣來運算這個遊戲
只是我的樣本不夠多不過齊全
網路的輸入輸出也不夠多
隱藏層也只有一層
所以提升的勝率有限
原本還要結合一些看過的論文
有些是用Bayesian network來預測對手的科技樹 進而反制
另一篇則是用戰場上各單未遭遇的危險度來訓練控兵
並依照殺敵數來做reinforcement learning
只是時間有限
大家有興趣我可以補上兩篇論文的網址
打這篇簡陋的文章來讓大家了解一下這領域其實已經很多人在做了
而且也辦過不少次AI之間互相較量的比賽
我想有學過機器學習的人都知道
圍棋只是人在和運算時間的競爭
只要整個網路學習的樣本夠大夠完整
並且演算法讓它能在兩個小時內運算完畢
電腦贏也是在正常不過的事情
何況alphago是採兩層的運算
就算你用策略欺騙它非監督式的第一層
到第二層它還是會依照擺棋點的勝率來進行修正
在星海在圍棋 甚至可以把樣本全部換成對手從以前到現在所有的比賽
直接對你這個人的遊戲方式進行學習
我想之後要人機對抗 可以限制電腦每秒可以下的指令數
這樣雙方在戰術上的互相較量也會比較有看頭
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.146.47.80
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1457938477.A.927.html
→
03/14 14:56, , 1F
03/14 14:56, 1F
推
03/14 14:56, , 2F
03/14 14:56, 2F
推
03/14 14:57, , 3F
03/14 14:57, 3F
推
03/14 14:57, , 4F
03/14 14:57, 4F
推
03/14 14:57, , 5F
03/14 14:57, 5F
→
03/14 14:58, , 6F
03/14 14:58, 6F
推
03/14 15:01, , 7F
03/14 15:01, 7F
→
03/14 15:02, , 8F
03/14 15:02, 8F
推
03/14 15:15, , 9F
03/14 15:15, 9F
推
03/14 15:33, , 10F
03/14 15:33, 10F
→
03/14 15:34, , 11F
03/14 15:34, 11F
推
03/14 15:35, , 12F
03/14 15:35, 12F
推
03/14 17:27, , 13F
03/14 17:27, 13F
討論串 (同標題文章)
完整討論串 (本文為第 7 之 8 篇):