NIPS大會最精彩一日:AlphaZero遭受質疑;史上第一場正式辯論與LeCun激情抗辯;元學習&強化學習亮點覆盤
和 AlphaGo Zero 一樣,AlphaZero 不需要人類的知識,完全靠自我對弈的強化學習,從零開始。不同的是,AlphaZero 擁有更強大的泛化能力,經過不到 24 小時的訓練後,Alpha Zero 可以在國際象棋和日本將棋上擊敗目前業內頂尖的 AI 程序(這些程序早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。
擁有更好泛化能力的 AlphaZero 讓很多人相信人類離通用人工智能(AGI)又近了一步。然而,其他幾位受邀嘉賓並不買賬。東海岸的兩位認知科學大牛——紐約大學的 Gary Marcus 和來自麻省理工大學的 Josh Tenenbaum 都不認爲 AlphaZero 代表了 AGI 的研究方向。
Tenenbaum 向觀衆展示了一個視頻:一個小孩看到大人雙手捧着書,在一個關着門的書櫥前踱步,小孩很自覺地走上前把門打開。這樣的理解能力和操作能力,是機器做不到的。
要建造這樣的機器,需要三個步驟:
建立一個具備常識的核心;
用這個核心學習語言;
用語言學習任何東西。
之後登場的 Marcus,更是圈內有名的「辯論手」(詳細參見他十月和 Yann LeCun 的爭論)。此次演講,他還專門爲了 AlphaZero 做了篇 PPT:AlphaZero 只適用於完美信息的遊戲博弈,但並不適合通用人工智能。
Marcus 提出了一個有關
「認知」的公式:Cognition=f(a, k ,e),
其中 a 代表先天的算法,
k 代表先天知識,
e 代表經驗。
這個公式同樣可以適用於 AlphaZero。
完美信息棋盤博弈獲得成功的條件是
棋盤規則+經過人類編程的棋局表徵,
a 則是強化學習+蒙特卡洛樹搜索+基於經驗得到的超參數,
即使沒有了先天知識 k,
AlphaZero 同樣獲得了成功。
但無論是圍棋、將棋、國象,都和生活是不一樣的:
棋局是完美信息,但生活是不完美信息;
棋局可以被完美模擬,生活卻不可能;
棋局裏可以有無限的數據,
而生活裏的每個事物的數據量都不多;
棋局裏唯一要緊的是盤面狀態,但生活中,什麼都有要緊。
所以,在一個開放的世界裏,
先天的算法和先天的知識需求量都會增加,就不是 AlphaZero 可以應付的了。
最後,越說越激動的 Marcus 大聲疾呼:「生活不是一場 Kaggle 競賽!」
「在生活中,沒有東西是被整齊的預先包裝好的(像 Kaggle 裏的數據集那樣),沒有人能保證你昨天的挑戰和今天的挑戰一樣,
你希望學習的是可以重複使用的技能和知識,
並且可以用在未來的挑戰裏,
而實現這種可重用性才應該是大家關注的重點。」
阿蘭圖靈在 1950 年就說過,
「與其嘗試模擬成人的大腦,爲什麼不直接創造一個模擬小孩的大腦。」