足球,是一項全球流行的球類運動,講究身體對抗與團隊配合。
在現(xiàn)實生活中,不管踢不踢,踢得好還是踢得不好,每當(dāng)看(聽)到 " 足球 " 這個詞,人們都會似懂非懂地聊上幾句。
確實,
足球這一運動,有太多的新聞,并不稀奇。
但是,如果
一個人工智能(AI)學(xué)會了踢足球,而且踢得還不錯,那算不算一件比較稀奇的事情呢?畢竟,當(dāng)前的 AI 有時連 "500 年前的美國總統(tǒng)是不是林肯 " 這樣的問題都回答不上來。
9 月 1 日,來自英國人工智能公司 DeepMind 的研究團隊就首次介紹了這樣一個可以完成帶球突破、身體對抗等多種動作,然后精準(zhǔn)射門的
"AI 足球運動員 "。

圖|"AI 玩家 " 正在進行 2V2 對抗比賽(動圖制作素材來源:Science Robotics)
盡管偶爾不講規(guī)則,比如比賽中沒有角球、點球和任意球等定位球(set piece),但研究團隊認(rèn)為,這一研究推動了人工系統(tǒng)向人類水平運動智能向前邁進。
相關(guān)研究論文以 "From motor control to team play in simulated humanoid football" 為題,已發(fā)表在科學(xué)期刊 Science Robotics 上。
AI 是怎么學(xué)會踢足球的?
眾所周知,標(biāo)準(zhǔn)的足球比賽由兩支隊伍各派 11 名隊員參與,包括 10 名球員及 1 名守門員,在球場上互相對抗和進攻。
除了守門員可以在己方禁區(qū)內(nèi)利用手部觸球外,其他球員只能運用手部以外的身體部位碰觸球(開界外球例外),比賽的最終目的則是盡可能地將足球踢入對方的球門內(nèi)。
因此,無論是在現(xiàn)實比賽中,還是在網(wǎng)絡(luò)游戲上,
足球都是一個既考驗個人技巧,又需要團隊成員默契協(xié)作的運動,完成一次出色的傳球或一次精準(zhǔn)的射門并不容易," 需要解決人類和動物們都會面臨的諸多問題 "。
據(jù)論文描述,盡管 DeepMind 團隊在此次研究中簡化了游戲規(guī)則,并將兩隊球員人數(shù)限定在了 2-3 人,但結(jié)果顯示,
AI 玩家可以在事先不了解足球規(guī)則的情況下學(xué)會踢球、運球和射門等技能,并在模擬游戲中完成 2V2 和 3V3 的足球比賽。
"TA 們在一個動作技能和高水平目標(biāo)導(dǎo)向行為緊密結(jié)合的環(huán)境中實現(xiàn)了綜合控制。" 論文共同一作、共同通訊作者 Siqi Liu 及其團隊寫道。

圖|"AI 玩家 " 完成運球、搶斷和傳球等一系列動作(動圖制作素材來源:Science Robotics)
如上圖,在一場 2V2 的比賽中,紅隊球員先后完成了跑動、逼搶和傳球等一系列動作,整個動作十分自然流暢,且充滿壓迫性。
那么,
" 足球小白 " 是如何變身 " 優(yōu)秀足球運動員 " 的?
原因在于研究團隊提出的 3 步機器學(xué)習(xí)框架。
首先,AI 玩家需要通過觀看人類運動視頻學(xué)會行走,因為最開始的 AI 玩家并不知道要在足球場上做什么。

圖|訓(xùn)練前(動圖制作素材來源:Science Robotics)
然后,在知道自己做什么之后,AI 玩家可以借助強化學(xué)習(xí)算法學(xué)會踢足球。

圖|訓(xùn)練 3 天后(動圖制作素材來源:Science Robotics)
最后,AI 玩家更進一步,基于另外一種強化學(xué)習(xí)算法學(xué)會如何進行團隊協(xié)作和更高難度的運動控制。

圖|訓(xùn)練 50 天后(動圖制作素材來源:Science Robotics)
可見,當(dāng)訓(xùn)練中的 AI 玩家不斷接受環(huán)境獎勵,并作出正確反饋,其踢足球水平就會得到增加。由 " 足球小白 " 變身 " 優(yōu)秀足球運動員 ",AI 又秀了一把。
但是,依然不夠
在描述認(rèn)知科學(xué)和 AI 基礎(chǔ)的經(jīng)典言論中,圖靈獎得主 Allen Newell 認(rèn)為,從毫秒級的肌肉抽搐,到數(shù)百毫秒級的認(rèn)知決策,再到長期的目標(biāo)導(dǎo)向行為,人類行為跨越了多個組織層次。更高級別的行為往往與外界環(huán)境和其他主體更復(fù)雜的互動相關(guān)聯(lián),而如何在多空間和時間尺度上表現(xiàn)出智能行為,是物理實體人工智能長期面臨的挑戰(zhàn)之一。
DeepMind 團隊的這項研究,通過強化學(xué)習(xí)算法等 AI 技術(shù),為 AI 玩家賦予了靈活的運動控制和多智能體協(xié)作能力,是一個有關(guān)如何在多智能體環(huán)境下學(xué)習(xí)多尺度綜合決策的優(yōu)秀案例。

圖|對抗、推搡(動圖制作素材來源:Science Robotics)
當(dāng)然,這項研究也具有一定的局限性。
例如,由于參與比賽的 AI 玩家數(shù)量相對較少,
相比于現(xiàn)實世界還是缺少一定的復(fù)雜度,并不能說明 AI 可以玩更復(fù)雜的足球比賽。如果在未來的工作中增加 AI 玩家數(shù)量,可能就會產(chǎn)生更有趣的團隊策略。
另外,由于時間較短,節(jié)奏較快,AI 玩家也沒有被賦予調(diào)整節(jié)奏、保持精力、決定陣型或替換更偏向防守或進攻的球員的能力。
此外,研究團隊也表示,他們的方法不適合直接在機器人硬件上學(xué)習(xí),研究成果
也不會快速從模擬世界轉(zhuǎn)移應(yīng)用到現(xiàn)實世界。
但是,研究成果確實證明了基于學(xué)習(xí)的方法在生成復(fù)雜運動策略方面的潛力,也解決了模擬訓(xùn)練中出現(xiàn)的模擬到真實遷移的主要挑戰(zhàn)之一。
在論文的最后,研究團隊這樣寫道," 如何在敏捷機器人硬件上實現(xiàn)類似復(fù)雜程度的多尺度運動智能,將是令人興奮的研究方向之一 "。
未來,AI 的強大將超乎想象。對此,你怎么看?
原文地址:http://www.myzaker.com/article/63107b0b8e9f0903c175bbdb
轉(zhuǎn)載請注明:DeepMind最新研究:“AI足球運動員”誕生,運球、搶斷、傳球、射門無所不能 | 快導(dǎo)航網(wǎng)






川公網(wǎng)安備51012402001058號