Facebook工程師解疑:AlphaGo為啥這麼厲害?

最近AlphaGo的世紀大戰引發關註,2場比賽都打敗李世石,它究竟厲害在哪裡?內容來自Facebook人工智能研究員田淵棟,曾就職於Google X部門,本文是其在人機大戰賽前發於知乎上的分析。






最近我仔細看瞭下AlphaGo在《自然》雜志上發表的文章,寫一些分析給大傢分享。

AlphaGo這個系統主要由幾個部分組成:

走棋網絡(Policy Network),給定當前局面,預測/采樣下一步的走棋。

快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質量的條件下,速度要比1快1000倍。

估值網絡(Value Network),給定當前局面,估計是白勝還是黑勝。

蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統。

我們的DarkForest和AlphaGo同樣是用4搭建的系統。DarkForest較AlphaGo而言,在訓練時加強瞭1,而少瞭2和3,然後以開源軟件Pachi的缺省策略 (default policy)部分替代瞭2的功能。以下介紹下各部分。

1、走棋網絡

走棋網絡把當前局面作為輸入,預測/采樣下一步的走棋。它的預測不隻給出最強的一手,而是對棋盤上所有可能的下一著給一個分數。棋盤上有361個點,它就給出361個數,好招的分數比壞招要高。

DarkForest在這部分有創新,通過在訓練時預測三步而非一步,提高瞭策略輸出的質量,和他們在使用增強學習進行自我對局後得到的走棋網絡(RL network)的效果相當。當然,他們並沒有在最後的系統中使用增強學習後的網絡,而是用瞭直接通過訓練學習到的網絡(SL network),理由是RL network輸出的走棋缺乏變化,對搜索不利。

有意思的是在AlphaGo為瞭速度上的考慮,隻用瞭寬度為192的網絡,而並沒有使用最好的寬度為384的網絡(見圖2(a)),所以要是GPU更快一點(或者更多一點),AlphaGo肯定是會變得更強的。

所謂的0.1秒走一步,就是純粹用這樣的網絡,下出有最高置信度的合法著法。這種做法一點也沒有做搜索,但是大局觀非常強,不會陷入局部戰鬥中,說它建模瞭"棋感"一點也沒有錯。我們把DarkForest的走棋網絡直接放上KGS就有3d的水平,讓所桃園靜電機出租有人都驚嘆瞭下。

可以說,這一波圍棋AI的突破,主要得益於走棋網絡的突破。這個在以前是不可想像的,以前用的是基靜電油煙機租賃於規則,或者基於局部形狀再加上簡單線性分類器訓練的走子生成法,需要慢慢調參數年,才有進步。

當然,隻用走棋網絡問題也很多,就我們在DarkForest上看到的來說,會不顧大小無謂爭劫,會無謂脫先,不顧局部死活,對殺出錯,等等。有點像高手不經認真思考的隨手棋。因為走棋網絡沒有價值判斷功能,隻是憑"直覺"在下棋,隻有在加瞭搜索之後,電腦才有價值判斷的能力。

2、快速走子

那有瞭走棋網絡,為什麼還要做快速走子呢?有兩個原因,首先走棋網絡的運行速度是比較慢的,AlphaGo說是3毫秒,我們這裡也差不多,而快速走子能做到幾微秒級別,差瞭1000倍。所以在走棋網絡沒有返回的時候讓CPU不閑著先搜索起來是很重要的,等到網絡返回更好的著法後,再更新對應的著法信息。

台中靜電油煙處理機租賃

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    dkl50xs69g 發表在 痞客邦 留言(0) 人氣()