阿爾法元自學(xué)成才，以100比0完爆阿爾法狗，你怎么看？

admin 2024年02月25日 12:59 178 0

今天微信朋友群里被阿爾法元刷屏了，實在是一個令人震驚的消息。這兩年谷歌就沒消停過，2016年整出個阿爾法狗1.0版4比1擊敗李世石九段，讓棋界為之震驚；2016年底和2017年初，又整出個Maste,對人類高手60連勝，后來得知這是阿爾法狗2.0版；2017年5月第二次“人機大戰(zhàn)”，阿爾法狗2.0版3比0完勝柯潔九段。至此，“人機大戰(zhàn)”已經(jīng)沒有任何意義，人類高手在阿爾法狗面前難求一勝。

但始料未及的是，谷歌又推出阿爾法元，而且，與阿爾法狗1.0版和2.0版不同的是，阿爾法元完全不靠人類棋手的棋譜學(xué)棋、成長，只需懂得圍棋規(guī)則后即在短短時間里成長為超級高手，與Maste對戰(zhàn)擁有壓倒性的勝率，簡言之，阿爾法元已經(jīng)接近“圍棋之神”了。

這只能說明：人工智能已經(jīng)發(fā)展到了我們難以想象的地步，霍金擔(dān)心的人工智能有一天會摧毀人類并非危言聳聽，它已經(jīng)可以不借助人類積累數(shù)千年的棋譜在短時間里成為第一高手。一如劉小光九段所言：人類思考千年不如它短短的一瞬。而且，它還是單機版，方便隨身攜帶，人類如果利用它，那人類高手們根本沒有爭勝的必要。

其次，圍棋的深度和難度通過阿爾法狗、阿爾法元證明，我們?nèi)祟悢?shù)千年掌握的不過是滄海一粟，應(yīng)驗了日本名譽棋圣藤澤秀行所說的：棋道一百，我只知七。如果阿爾法元能讓阿爾法狗1.0版三個子的話，人類認識圍棋連百分之七都不到。就像柯潔九段說的那樣：自從有了阿爾法狗后，沒有什么棋不能下。問題是，知道什么棋都可以下僅僅是第一步，距離“圍棋之神”還遠著呢，但阿爾法元卻接近“圍棋之神”了。

非常令人震驚的進展！2016年3月4:1戰(zhàn)勝李世石之后，Deepmind就放出風(fēng)聲，要讓AlphaGo從零知識開始學(xué)習(xí)下圍棋，當時讓人很有興趣。這種完全靠自學(xué)習(xí)，不學(xué)習(xí)人類棋譜的AI，在學(xué)成以后會如何下圍棋？會不會從天元開始下？能達到什么樣的實力？肯定非常有趣。

所謂零知識自學(xué)習(xí)，就是一開始就隨機扔子，就如上圖這樣黑白等于是瞎下。從這種隨機策略開始，慢慢改進，而不是學(xué)習(xí)人類的棋譜先來個策略網(wǎng)絡(luò)一開始就下得象模象樣。

但是后來這個零知識自學(xué)習(xí)的事一直沒下文。到2017年5月烏鎮(zhèn)3:0戰(zhàn)勝柯潔時，中間有研討會，David Silver出來講了不少，也完全沒有提這個。我還寫文章，說零知識自學(xué)習(xí)可能失敗了，陷入局部陷阱棋力并不太高。特別是2017年8月AlphaGo打星際的論文出來，從0知識開始學(xué)習(xí)，但是能力非常差，連暴雪最弱的AI都打不過，也不會造兵，更是讓人覺得零知識自學(xué)習(xí)可能不行，人類的先驗知識應(yīng)該還是挺重要的。

但是2017年10月18日Deepmind第二篇AlphaGo論文《Mastering the Game of Go without Human Knowledge》出來了！論文給出了出乎我的預(yù)料的結(jié)果：

1. 從0知識開始學(xué)習(xí)，是可以訓(xùn)練成功的！這個成功的程度是”目前所有Alphago版本中最厲害“。100:0戰(zhàn)勝AlphaGo-Lee版本，90%勝率勝Master版本（也就是戰(zhàn)勝柯潔的那個）。但是還沒有”天下無敵“，還是有一定概率輸給Master，等級分領(lǐng)先幅度還不算大。下圖右是等級分數(shù)值。

2. 從0知識開始，訓(xùn)練速度非?？?！3天就能戰(zhàn)勝AlphaGo-Lee，21天能戰(zhàn)勝Master。下圖左是AlphaGo-Zero等級分隨時間提升的曲線。訓(xùn)練沒有在早期陷入局部陷阱。

3. 讓人類還算欣慰的是，雖然AlphaGo Zero不需要人類棋譜，但是訓(xùn)練出來下得還是象人的。論文給出AlphaGo Zero的83局棋譜，沒訓(xùn)練一會就下得有模有樣了。也不是從中腹天元開始下，而是象人類一樣先占邊角。這說明人類的這些行棋方向還不算離譜。實際這也早有征兆，幾個圍棋AI都這樣，如果一開始不下角部，下在中腹或者邊上，給出的勝率就會下降。

4. 雖然Alphago Zero下得象人，但是很多招為什么這么下，連高手都應(yīng)該是看不懂了。它到了什么境界，人類還需要領(lǐng)會。

從哲學(xué)意義上來說，這說明圍棋這種人類看上去很復(fù)雜的游戲，在AI看來卻是簡單的。因為圍棋的規(guī)則與目標是明確的，甚至是最簡單的，圍棋幾乎是規(guī)則最簡單的游戲，只需要兩個行棋規(guī)則：氣盡提子，禁止全同。勝負規(guī)則，也是行棋規(guī)則自然出來的，終局數(shù)子。

圍棋的規(guī)則，讓AI可以不需要人類，就判定棋局的結(jié)果，這樣就完全不需要人類干預(yù)進行自學(xué)習(xí)了。學(xué)名叫“無監(jiān)督”。也就是說圍棋是個完全客觀的游戲。而人類在這種客觀游戲中，確實在幾百上千年中加入了不少主觀的東西，各種“定式”、“趣向”、“價值判斷”，這都是非自然的，肯定有不少錯誤。人類的經(jīng)驗，對AI的自學(xué)習(xí)來說，到很高的水平上，應(yīng)該反而是障礙了。

AlphaGo Zero說明，對于完全客觀的東西，人類的主觀經(jīng)驗很可能是有錯的，要勇敢地懷疑與挑戰(zhàn)。當然也有不少問題，是依賴人的主觀判斷的，那對AI又是不同的，需要“監(jiān)督”，如識別文字。

關(guān)于這個問題，每日經(jīng)濟新聞記者涂勁軍認為：

AlphaGo Zero完勝曾經(jīng)戰(zhàn)勝人類的AlphaGo，這是一個里程碑的事件，對于Ai技術(shù)來說，是上到一個新臺階，足以在現(xiàn)實中證明，不依賴于人類的既有經(jīng)驗，讓機器自主學(xué)習(xí)掌握了人類上千年的圍棋技能。

這種新程序代表著人類在建造真正智能化機器方面向前邁進了一步，因為即使在沒有大量訓(xùn)練數(shù)據(jù)的情況下，機器也需要找出解決困難問題的方法。 DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯（Demis Hassabis）說：“最引人注目的一點是，我們不再需要任何人工數(shù)據(jù)，”。他認為，建造Alphago Zero的技術(shù)已經(jīng)足夠強大，可以應(yīng)用在現(xiàn)實世界，例如藥物發(fā)現(xiàn)與材料科學(xué)等一些有必要繼續(xù)探索各種可能性的行業(yè)。Alphago Zero的相關(guān)研究成果發(fā)表在今天的《自然》雜志上。

阿爾法元自學(xué)成才，以100比0完爆阿爾法狗，你怎么看？-第1張圖片-贊晨新材料

人類一直以來有一個擔(dān)心，就是人工智能能夠自我進化，從而超越人類，甚至對人類帶來威脅。如果過去認為這種擔(dān)心是多余的，那么現(xiàn)在完全有理由相信人工智能的強大足以超過人類。當然擔(dān)心之外，我們還是應(yīng)該慶賀一下，如果能夠很好地管控好人工智能，人類完全還是可以把無比強大的人工智能當作工具，為人類服務(wù)。

從市場空間來說，高強度的人工智能，可以幫助人類解決很多前所未有的問題，正如哈薩比斯說的，在醫(yī)藥、新材料領(lǐng)域，完全不用借助過去的人類經(jīng)驗來推進，人工智能的研發(fā)，應(yīng)該比人類研發(fā)速度更加快捷，從而在急用的這些領(lǐng)域上取得重大成就。

不管怎么樣，人工智能依托人類知識的學(xué)習(xí)已經(jīng)是完全可以實現(xiàn)的。當然他們必須還有一個過度階段，因為現(xiàn)階段的人工智能的創(chuàng)造與進步依然需要人類知識來推進，當不可否認的是，終究有一天，人工智能不再有人工二字，純粹的程序智能，能夠自我進化與完善，甚至于人腦融合。

久草17c五月天,精品视频一区二区在线观看免费,日韩av免费在线,国产午夜主播在线

阿爾法元自學(xué)成才，以100比0完爆阿爾法狗，你怎么看？