從梵高到AlphaGo Zero，“大成就者”的算法－生活新聞網

從梵高到AlphaGo Zero，“大成就者”的算法

原標題：從梵高到AlphaGo Zero，“大成就者”的算法

編者按

除去天賦之外，梵高一開始就沒有接受過系統的美術教育，才是梵高在藝術上能夠成功之處；AlphaGo Zero擺脫瞭對人類標註樣本(人類歷史棋局)的依賴，不學習人類下法，最終卻能表現得更好。

文 / 汪洋本刊主筆

1台北靜電油煙機出租

地球上最著名的畫傢是“野路子”畫傢

今年國慶出遊，站在阿姆斯特丹的梵高美術館中流動的人群中，不由得感到一絲荒涼。我們這些庸人，無論是真喜愛還是假喜愛的他的畫，願在此間流連，肯定是拜梵高的顯赫聲名所賜。作為地球上最著名的畫傢，梵高活著的時候，籍籍無名，自殺後，在他的葬禮上才得到瞭同行的第一聲稱許。

作為梵高祖國的首都，阿姆斯特丹的梵高美術館不但搜羅瞭梵高各個時期的作品，而且很有心地展出瞭還在不同時期，在風格上“影響瞭”梵高的同輩和先輩畫傢們的作品，試圖讓觀眾細細品味這些作品和梵高畫作之間若隱若現的聯系。

以這些連續的，有邏輯的關於學習的理由，試圖在尋找梵高之所以成為梵高的理由，他有道理，但顯然不充分的。除去天賦之外，梵高一開始就沒有接受過系統的美術教育，才是梵高在藝術上能夠成功之處，也是導致他抱憾而終的原因。

梵高的弟弟是個畫商。梵高是看弟弟店裡的那些畫，萌發瞭成為畫傢的心念，此後就擼起袖子，拿起筆瞭，並在1885年畫出《吃土豆的人》這樣具有大傢氣象的不成熟作品。

他對自己在技術上“缺陷”和格調上的“高華”一直很清楚， 1886年還曾在佈魯塞爾美術學院短暫進修過基本技法。1887年和1888年，因為下筆“準確”，梵高的作品更細膩，有更多的變化。而1889、1900已經是他生命中的最後兩年，梵高的畫得更簡單瞭，沖擊力更強烈，人們對梵高畫作的印象基本上來自於他這個時期的風光，有人評論，這與他精神出瞭問題不無關系。

明清以來，中國歷史上堪稱偉大的畫傢大概也隻有徐渭和朱耷，他們都是落魄文人，不是職業畫傢，也沒有所謂師承。有師承的人，走的則是另一條路，即模仿，試圖復制他人成功之路，而我們的教育本質上就是模仿。

2

不學習人類下法的AlphaGo Zero

最終表現得更好

10月19日，DeepMind在Nature上發表瞭一篇論文，表示谷歌新一代的人工智能AlphaGo Zero以100比0的勝率碾壓瞭被聶衛平估算為的20段的旗手AlphaGo。

和AlphaGo擊敗人類圍棋冠軍的漫天喧鬧相比，這則內容如引爆瞭一顆深水炸彈，隻產生瞭一陣不大不小的漣漪。畢竟，人們隻對第一個遊過英吉利海峽的人感興趣，更何況機器之間內鬥，遠沒有人機之戰那麼調動情緒。

碾壓AlphaGo，AlphaGo Zero隻需要在4個TPU上花3天時間，自己左右互搏490萬棋局。而它的前輩AlphaGo，需要在48個TPU上，花幾個月的時間，學習三千萬個棋局，才打敗人類。台中靜電油煙機出租

論文的第一通訊作者是DeepMind的David Silver博士, 也是AlphaGo項目負責人。他介紹說AlphaGo Zero遠比AlphaGo強大，因為它不再被人類認知所局限，而能夠發現新知識和新策略。

美國的兩位棋手在Nature上點評道，“它的開局和收官和專業棋手的下法並無區別，人類幾千年的智慧結晶，看起來並非全錯，但是中盤看起來則非常詭異。”

美國杜克大學人工智能專傢陳怡然教授解釋道：“DeepMind最新推出的AlphaGo Zero降低瞭訓練復雜度，擺脫瞭對人類標註樣本(人類歷史棋局)的依賴，讓深度學習用於復雜決策更加方便可行。”

他認為，其最有趣之處，是證明瞭人類經驗由於樣本空間大小的限制，往往都收斂於局部最優而不自知（或無法發現），而機器學習可以突破這個限制。之前大傢隱隱約約覺得應該如此，而現在是鐵的量化事實擺在面前。

學習人類選手的下法雖然能在訓練之初獲得較好的棋力，但在訓練後期所能達到的棋力卻隻能與原版的AlphaGo相近，而不學習人類下法的AlphaGo Zero最終卻能表現得更好。

他繼續說：“這或許說明人類的下棋數據將算法導向瞭局部最優(local optima)，而實際更優或者最優的下法與人類的下法存在一些本質的不同，人類實際’誤導’瞭AlphaGo。”

之所以會需要引用這麼大段的內容，是想反過來去考察關於“局部最秀”對人類的限制。之所以會讓梵高躺槍，無非梵高在繪畫領域就似一個AlphaGo Zero。“文無第一，武無第二“，圍棋可以清晰地決出勝負，而梵高無法自證高明，失意而終。

3台中靜電機出租

我們教育的本意

信仰和知識，有某個共同點，即獲取它們的過程，就是走向封閉的過程。同時，人為什麼要學習，是為瞭更有效率；通過相信自己認為值得信任的人的經驗，讓自己少走彎路，甚至走上捷徑。

另一方面，我們的大腦也是依據這等原理而進化的，我們會把重復執行的行為記下來，存入腦基核——一個類似蜥蜴大腦的部分，這樣，我們執行這些行為時，大都基於習慣，而大腦就省心去做別的困難任務。比如當你剛學會開車的時候，將車從車庫裡駛出來，需要大量的腦力和註意力，當你成瞭老司機時，你可以一邊幹別的事，一邊把車開上大街。人們在刷牙之前把牙膏擠到牙刷上的舉動也常常是不知不覺中完成的。

人們每天通過幾十個，甚至上百個這樣的行為組塊活著的，如果每件事都要關註一下，那麼我們的大腦就會被生活中的各種瑣碎占滿，結果是死機。

同樣，高考題中80%的常規題，是隻需要看到題目，就應該知道答案的，如果需要仔細看題，再計算一番，那麼時間一定是不充裕的，那種滿意於每道題都會做、卻沒有養成見到常規題，就知道答案的懶人，關鍵考試時常常是要吃虧的。這也體現瞭我們教育的本意。

我們的教育，培養的不是梵高。教育的本意和大腦養成的習慣回路一樣，都是通過重復和記憶，培養“差不多就行”的產品，這也體現瞭某種效率。圍棋教育同樣如此，同樣在前人經驗上的改良，但AlphaGo Zero一上來，就直接敲破瞭這個由歷代的人累計修建的框架。

同樣，就中國而言，每個時代的詩人常常都帶有時代的特征，既有長處也有時代局限，用宋人米芾的批評唐代書法傢的話說：“為時代所壓”。相反，不少創業者也會感慨，自己是個外行，卻莫名其妙地闖瞭某個自己喜歡的行業，結果成功瞭。

陳怡然教授說：“有趣的是如果AlphaGo Zero放棄學習人類而使用完全隨機的初始下法，訓練過程也一直朝著收斂的方向進行，而沒有產生難以收斂的現象。”吊詭的是，AlphaGo Zero盡管沒有學習人類，但它仍然在走向收斂，就是說它正在形成習慣。

習慣常常就是某件事物存在的顯相，也被稱為風格，而我們學習的常常也就是前人的習慣，即風格，甚至因此沾沾自喜。在佛陀那裡，“業”是習慣的總集，人類的自我是虛假的，而業隻是在這個虛假中影像中，標示“你”的標簽。

AlphaGo Zero正往收斂的方向進行，是人類要亡瞭嗎？返回搜狐，查看更多

責任編輯：

聲明：本文由入駐搜狐號的作者撰寫，除搜狐官方賬號外，觀點僅代表作者本人，不代表搜狐立場。

閱讀 ()