原標(biāo)題:微軟麻將ai超越人類后,研究小組推出教材提高人類卡片技術(shù)來源:網(wǎng)易科學(xué)技術(shù)
(原標(biāo)題:微軟麻將ai超過人類后,研究小組說,其目的是拿出教材來提高人卡技術(shù))。
情報記者王心馨沸騰了
人類今后可能想提高自己的麻將技能,必須以人工智能為師。
微軟亞洲研究院開發(fā)的麻將ai系統(tǒng)suphx在國際知名麻將平臺“天鳳”上升了10檔,擁有超過99.99%的人后,研究小組接受了澎湃情報( thepaper )的采訪,日本出版社 如果你對麻將感興趣,你可以學(xué)習(xí)如何在這本書里打麻將。
4月9日,微軟亞洲研究院suphx研究開發(fā)小組通過在線直播,詳細(xì)介紹了suphx的技術(shù)細(xì)節(jié),該論文最近在arxiv平臺上發(fā)表。 直播結(jié)束后,微軟亞洲研究首席研究員秦濤、微軟亞洲研究院高級研究工程師李俊杰在接受彭湃的信息采訪時表示,團(tuán)隊目前正在與天鳳平臺進(jìn)行協(xié)商,為提高人類卡片技術(shù)提供服務(wù) 例如,通過輸入身體的現(xiàn)在的卡面,suphx告訴那個人應(yīng)該打哪個卡,以及為什么應(yīng)該打那個卡。
值得一提的是,據(jù)兩位研究者說,有日本出版社的聯(lián)系,希望suphx發(fā)行的卡片出書。 “喜歡麻將的人稱suphx為麻將教科書、suphx老師,因此對麻將感興趣的同學(xué)們可以在這本書里學(xué)習(xí)如何打牌。 ”。
suphx如何提高顯卡技術(shù)?
去年8月,微軟亞洲研究院在世界人工智能大會上正式宣布,開發(fā)的麻將ai系統(tǒng)suphx成為第一個在國際知名的職業(yè)麻將平臺“天鳳”上升10級的ai系統(tǒng)。
過去半年多來,研究小組重新調(diào)整了suphx。 具體來說,一是重新優(yōu)化整個系統(tǒng)體系結(jié)構(gòu),使其更快更好。 另一個是對“先知教練”這樣的算法也進(jìn)行了改進(jìn)。 從博弈論的角度來看,麻將是大多數(shù)人的非完美新聞游戲。 麻將一共是136張卡,每人只能看到很少的卡片。 包括自己的13張手牌和所有人打的卡,越來越多的卡看不見了。 包括其他三個玩家的手牌和墻牌。 面對這么多隱藏的未知消息,麻將玩家不容易只根據(jù)自己的手牌作出好的決定。
但是,通過先知教練,suphx將(1)玩家自己的私人手、(2)所有玩家的公開卡、(3)其他公共新聞、(4)其他三個玩家的私人手、(5)墻卡等所有消息 (1)只有(2)和(3)可以得到正常的玩家,但(4)和(5)只有“先知”可以得到追加的完美消息。
在suphx中,suphx研究開發(fā)小組首先采用包括完美新聞在內(nèi)的所有特征強化學(xué)習(xí)訓(xùn)練“先知”,在這一步中控制“先知”的學(xué)習(xí)進(jìn)度,不要太強大。 然后,通過在完美的特征中追加mask,使“先知”最終轉(zhuǎn)移到正常的ai。 其次,繼續(xù)訓(xùn)練正常的ai,進(jìn)行一定數(shù)量的反復(fù),用衰減學(xué)習(xí)率和拒絕采樣的妙手調(diào)整訓(xùn)練過程,不斷精進(jìn)ai的技術(shù)。
愿alphago最初以人為師,升級后,自己開始“左右互博”,不斷提高。 秦濤在采訪中,suphx也完全不使用人的數(shù)據(jù)嘗試過訓(xùn)練,可以直接使用self-play,只是訓(xùn)練速度有點慢,這是背后的算法做了一點新的改變,讓計算機學(xué)習(xí)得更快。
將來可以用于股票主板
suphx打麻將只是第一步。 兩位研究者表示,團(tuán)隊在金融領(lǐng)域和物流領(lǐng)域進(jìn)行了一些嘗試,使suphx技術(shù)落地制作了實際的應(yīng)用場景。
金融業(yè)如果知道明天的股票行情,今天的投資一定會順利的。 這在某種程度上是完美的消息。 例如,如果今天a股關(guān)閉,我們就知道今天所有的股票新聞。 回顧昨天,假設(shè)你在做昨天的決定時知道了今天的股票新聞。 那對股票操縱來說是完美的消息。 研究人員認(rèn)為在這種情況下可以利用完美的消息更好地訓(xùn)練模型。 實際使用就像麻將一樣,通過完美的消息,我們可以得到非常強大的老師——teacher model。 這樣也可以很好地學(xué)習(xí)學(xué)生模型student model。
在機器翻譯行業(yè),完美的消息也很有用。 例如在機器翻譯中,如果知道一句上下文,那可能會成為更好的翻譯,也就是完美的消息。 但是,實際上并不是所有的語言都知道它的上下文,如果在訓(xùn)練中能得到完美的消息,就能使翻譯更好。
那些還不夠。
從這次發(fā)表的論文來看,suphx的技術(shù)表現(xiàn)是完美的。 但是,在兩位研究者看來,未來的suphx還有進(jìn)步的空之間。
“我們現(xiàn)在也經(jīng)常使用高手的數(shù)據(jù)訓(xùn)練模型,達(dá)到強化學(xué)習(xí),但麻將的平臺和規(guī)則不同,并非所有的平臺都能獲得人類的數(shù)據(jù)。 在這種情況下,不需要別人的數(shù)據(jù)就可以直接從0開始,這是我們在做的。 ”秦濤說。
與圍棋、象棋、dota游戲相比,麻將的隨機因素很多,對模型的訓(xùn)練和測試有很大的影響。 研究小組表示,他們的模型在測試中基本上跑了一百萬游戲,以確保知道誰更厲害。 這與圍棋不同,圍棋五次三勝,與麻將不同。 這種情況下,如何更迅速地完成游戲,得到可靠的結(jié)果,也是團(tuán)隊研究的問題。
最后,團(tuán)隊認(rèn)為suphx可以對不同的對手采取一點適應(yīng)的戰(zhàn)略。
全天候滾動播放最新的財經(jīng)信息和視頻,越來越多的粉絲福利掃描二維碼備受關(guān)注( finance )。
標(biāo)題:【熱門】微軟麻將AI超越人類后 研究團(tuán)隊要出教材提升人類牌技
地址:http://www.swled.com.cn/gphq/2816.html