原標題: deepmind ai在《星際爭霸2》中虐待99.8%的人,頂級宗師段位源:騰訊情報

新智元報道

資料來源: pc gamers等

:嘯林

在rts游戲中,電腦ai=人工智能障礙?

對很多游戲玩家來說,游戲中內置的計算機ai就像個笑話,應該被稱為“人工智能障礙”。

與玩家匹敵的電腦ai往往被分配了超過玩家的資源。 例如,在“紅警”中打10個冷酷的敵人,在“魔獸世界”中打瘋狂的電腦。 計算機ai的特征來自遠超玩家的資源和造兵速度,以及對ai停止戰爭等各種作弊。

這時,人類玩家常見的獲勝方法要么在自己精心打磨的游戲水平上變硬,要么利用電腦夾克的缺陷“從后門”。 無論如何,這表明ai預編程的戰略不能適應靈活狡猾的人類玩家。

比如這張圖,電腦終于學會了藏匿基地這個人類的基本操作,玩家露出了喜悅的阿姨的笑聲。

計算機ai戰略的第一個問題是,如果不作弊(不免除戰爭霧),可以心理推測玩家的單位在哪里,玩家遵循什么樣的趨勢,比較能應對他們的第一次攻擊。

無論是游戲ai的無腦缺陷,還是人類玩家竊笑,這在訓練中引入深度學習( dl )時突然停止了。

為什么集中在星際旅行2上? 極多,雜亂,高度真實

星際爭霸是暴雪制的經典實時戰術( rts )游戲,以對戰術思維的強烈考驗、精妙的種族平衡和極強的玩耍性而聞名,玩家也需要在經濟宏觀管理和微觀個人控制之間保持謹慎的平衡。

從星際旅行1到星際旅行2,這個rts神作被列為世界電子競技的核心項目之一。

年暴雪狂歡節,人山人海的星際爭霸2場比賽

ai中下棋、圍棋、“危險邊緣”(英語: jeopardy! 梅夫·格里芬1964年創立的美國電視猜謎節目)之后,大家都認識到《星際爭霸2》是ai的下一個重大挑戰。 ai巨頭們紛紛搓手,試圖跳到科普羅星區的蟲海、坦克群和高級圣堂武士們。

他們之所以對星際旅行感興趣,是因為它足夠多,雜亂無章,可以模擬現實生活。

ai做星際旅行的風云人物、紐芬蘭紀念大學的計算機科學教授david churchill說:“星際旅行太多太復雜了。 也可以適用于星際旅行的機器人,也可以應對現實生活中的其他問題。 ”。

星際旅行不存在最佳戰略,ai需要不斷探索、展開和更新自己的戰術知識。

操作空之間巨大,需要操作數百個不同的單位,因此可能的組合空之間非常大。

游戲的過程很長,需要長時間的計劃。 正如多個現實世界的問題一樣,因果關系不是瞬間產生的。 游戲初期采取的行動可能長時間沒有回報,所以要鍛煉ai的長線思考能力。

“星際旅行對人類來說是最難的游戲。 就像下棋一樣,我也踢足球。 你需要高度集中的觀察力,超人般的手指和胳膊,以及超過普通人的戰術頭腦。 ”。

alphastar和人類玩家mana互相殘殺

另外,與國際象棋游戲不同,在《星際爭霸》中,大量的“棋子”對ai提出了巨大的挑戰。

alphago下棋,可能的手一共是10的170次方,這個數字比整個宇宙原子數10的80次方多。 這對星際旅行來說是兒科。

星際旅行每一瞬間有10的26次方的可能操作。 我幾乎無法計算。 盡管如此,ai被限制在以人類的速度操作,不得不通過制定戰術而不是通過一系列超人類的無敵操作轟炸人類的對手。

alphastar的平均apm為277,玩家可以達到559。

根據deepmind團隊在nature上發表的論文,星際旅行成為了人工智能研究的重要挑戰。 這是因為“天生的多樣性和多代理人的挑戰,在最困難的專業電子競賽中達到了持續的地位,同時與現實世界有著很強的關聯性”。

為什么ai玩星際爭霸2這么多復雜的游戲? 因為很多復雜的游戲是對現實的優秀模擬。

如果ai能像人一樣在這么多復雜的環境中實時地感知、分解、理解、推理、決定、行動,ai就會發生變化,在很多復雜的實際環境中發揮更大的作用。

deepmind的alphastar用血虐待人類,占宗師的段位

來自谷歌的deepmind團隊訓練了最強的星際旅行ai alphastar,在星際旅行2的一系列掃盲游戲(也就是說,人類笨蛋們不知道和他們對戰的是ai )中打敗了弱者。

在排行榜上達到了宗師水平,在歐洲的服務器上表現出了99.8%以上的人。

看看deepmind團隊是如何談論新宗師alphastar的誕生的

為什么deepmind隊選擇了主攻電腦游戲? 這可能不令人吃驚。 因為首席執行官是demis hassabis。

谷歌首席執行官sundar Pichai

一個老玩家可能知道他做的游戲。 在為bullfrog的游戲syndicate(bullfrog1993年發售的即時戰術游戲)提供了一點水平設計后,當時17歲的hassabis與1994年游戲《主題公園》的共同設計師成為了首席。 這個游戲賣了一百萬部。

基于硬件: 10億次浮點運算的液冷tpu

alphastar在google自己的張量解決單元( tpu )上運行,是為神經網絡機器學習開發的asic。

這個芯片構成了多個服務的后端。 例如,一個芯片可以用google photos每天解決一億張以上的照片,google street view不到五天就可以提取數據庫中的所有副本。

說到“張量”,當然要與在nvidia的rtx gpu上啟用dlss的張量核進行比較。 tpu比gpu精度低,缺乏用于紋理化和光柵化的硬件,但巨大的計算有驚人的速度。

谷歌在高達1024芯片的存儲吉魯上部署了第三代tpu。

谷歌母公司alphabet首席執行官sundar pichai在位于加利福尼亞山景城的企業年度i / o會議上說:“每個艙的運算速度現在超過了10億次浮點運算?!?/p>

“這使我們可以開發更好、更大、更準確的ml模型來處理更大的問題。 這些芯片非常強大,必須在數據中部署第一個液體冷卻中心。 ”。

44天相當于玩了200年,拓寬了新的玩法界限。

alphastar通過觀看暴雪發表的匿名人類游戲開始訓練。 開始模仿這些策略,很快就能在95%的比賽中打敗游戲內置電腦的精英水平。

在游戲的三個種族中,alphastar喜歡神族protoss,但研究者最終認為蟲族zerg和人族terran也是并列的。

然后采用“alpha league”循環比賽的做法,首先對從人類數據訓練的神經網絡,然后依次重復,不同的ai實例開始相互對戰,使用成功實例的分支,新的PHA

最后選擇alpha league中最難利用的代理,稱為“the nash of league”挑戰人類。

用血洗頂級職業選手

alphastar的訓練只花了44天,deepmind估計相當于每個ai代理做了200年的星際旅行2。 然后打敗了99.8%的人類。

年12月10日,alphastar以5:0的戰績擊敗team liquid職業星際2選手tlo,經過更多訓練,于12月19日再次以5:0的完勝戰績血洗職業選手mana,但在下一場表現比賽中輸給了mana。

alphastarvs mana,血液清洗

alphastarvs serral,當時星際爭霸2是最強的“統治者”,這張盤輸了,但后來以3:1打敗了他

tlo在deepmind的博客中回顧說:“我很驚訝ai這么強。”

他還說:“ai也顯示了我從來沒有想過的戰略。 這意味著我們可能還有沒有充分探索的新玩法”。 和尋求孤獨失敗的圍棋宗師alpha zero一樣,對游戲的理解聽起來超過了人類。

接下來拿到星際爭霸2世界冠軍獎杯的,可能真的不是人類玩家,而是alphastar。

參考鏈接:

ai研究者如何應對所有“星際爭霸2”的初學者

pcgame r/how-a-team-of-ai-researchers-took-on-all-comers-at-starcraft-2 /

1:10! 《星際爭霸2》淪陷的人類被ai用血清洗了

news.mydrivers/1/612/612721

全天候滾動播放最新的財經信息和視頻,越來越多的粉絲福利掃描二維碼備受關注( finance )。

標題:【熱門】Deepmind AI在《星際爭霸2》血虐99.8%人類,登頂宗師段位

地址:http://www.swled.com.cn/gphq/2805.html