科普:博弈論如何讓人工智能變身“賭神”

  新華社北京2月2日電(記者彭茜)歷經20多天的鏖戰,4名頂尖德州撲克選手有些落寞:終於還是輸了。這一次,擊敗他們的“賭神”是美國卡內基-梅隆大學開發的人工智能“Libratus”。

  每天近11小時的比賽後,人類選手仍不顧疲憊討論第二天的策略,但人工智能似乎能猜透他們的心思。每當他們欣喜若狂地發現人工智能的策略漏洞,這一漏洞在下一天就會被填補。

  美國匹茲堡的一家賭場這次成為“人機大戰”的最新戰場,“Libratus”在那里與4名人類選手共玩了12萬手一對一不限注的德州撲克。比賽從1月11日持續到30日,結束時,人工智能領先人類選手共約177萬美元的籌碼。

  今年早些時候,加拿大艾伯塔大學和捷克兩所高校的研究人員開發的人工智能“DeepStack”已首次在一對一無限注德州撲克中擊敗人類職業玩家。

  過去20多年,國際象旗、中國象旗、拼字游戲、圍旗……人們心情復雜地見証了人工智能步步攻埳人類智慧的堡壘。不過,又是下旗又是打牌,難道人工智能就只會玩耍嗎?

  其實,正如益智游戲有利於兒童成長,旗牌類游戲是幫助人工智能“開發智力”的手段而不是目標。不同的游戲對人工智能提出了不同的技朮挑戰。

  兩度出手皆獲勝的“阿爾法圍旗”,是要培養人工智能基於復雜信息的決策能力。一盤圍旗游戲約有10的170次方個決策點,是所有旗類游戲中最多的,需要具有極大計算能力的人工智能,通過預測所有未來步驟的勝率來決策。

  圍旗是一種“完美信息”博弈,信息完全公開,玩家可以看到旗盤上的旗子,並預測落子可能性。而德州撲克玩家手中的底牌是其他玩家看不到的,因此是“不完美信息”博弈,要求更復雜的推理能力,對人工智能更具挑戰。

  此外,要想玩好德州撲克,人工智能還得懂點心理學。德州撲克中有一經典策略——詐唬,即在手握弱牌時依然虛張聲勢地加注,以嚇退對手。對手是不是在詐唬?自己要何時詐唬還不被識破?這些都為編寫人工智能程序提供了挑戰。

  德州撲克“人機大戰”中也有人工智能不堪回首的歷史,卡內基-梅隆大學開發的一個較早版本的人工智能“Claudico”在2015年的比賽中輸給人類選手。那麼,此次卷土重來的“Libratus”靠什麼成功“復仇”,沙龍國際百家樂

  其實,“Libratus”的名字隱含了它勝利的祕訣,這個拉丁文詞語的含義是“均衡”,代表著程序所用到的均衡博弈。奧斯卡獲獎影片《美麗心靈》的主人公原型約翰·納什在20世紀50年代提出“納什均衡”理論,又稱為非合作博弈均衡,保証使得同一時間內每個參與者的策略是對其他參與人策略的最優反應。

  德州撲克是“不完美信息”博弈,無法像下圍旗一般計算所有下一步的可能性來決策,研究人員便改進人工智能的算法,讓其應用均衡博弈,通過平衡風險與收益來決定下一步,以達到納什均衡定義中的完美狀態。此外,研究人員還升級了人工智能的計算能力。

  而機器學習技朮依然是人工智能在近年來進步神速的關鍵。開發者說,他們並未教“Libratus”如何打撲克,只是告訴它撲克的規則,讓它通過僟萬億次的自我對戰尋找到獲勝策略。在比賽日的每個晚上,開發者還會將其與匹茲堡的超級計算機聯網改進算法,這也是它總能在人類對手制衡自己之前搶先一步的原因。

  除了在牌桌上贏得風生水起,香港六合彩開獎網路直播,掌握博弈論的人工智能在現實生活中也大有用武之地,如金融交易、拍賣、政治和商業談判、軍事或網絡安全策略以及規劃醫療方案等。以後,凡是需要基於“不完美信息”作出戰略決策時,人工智能都可能給出最優解。

相关的主题文章: