AG真人国际(中国)官方网站对话Google DeepMind资深科学家：强化学习是重点大模型时代AlphaZero依然重要

发布时间：2024-12-12

点击次数：

　　如果说有一类游戏贯穿AI发展的始终，围绕其诞生的Thinking Game至今仍影响着最前沿AI技术的发展，那么答案很显然：

　　就在新加坡举办的国际象棋世界冠军赛（WCC 2024）上——就是中国国际象棋世界冠军丁立人，迎战国际象棋史上最年轻世界冠军挑战者、印度棋手古克什的比赛——尽管是人类顶尖头脑之间的对弈，比赛现场，AI的氛围仍然浓烈。

　　谷歌大模型还担纲了比赛“解说”的角色——Gemini支持的Chatting Chess，可以通过对话深入浅出地讲解国际象棋中各种复杂概念，帮助观众更好地读懂棋局。

　　新晋诺贝尔化学奖得主Demis Hassabis（戴密斯·哈萨比斯）也在比赛首日出现在现场，为两位棋手开棋。

　　实际上，从上世纪50年代的AI跳棋，到击败棋王卡斯帕罗夫的深蓝，再到掀起人工智能第一波全球热潮的AlphaGo……在载入史册的历史事件背后，棋类游戏对AI更重要的影响或许是，启发了身在时代洪流中的那些人。

　　年少时，他曾是同年龄段世界排名第二的棋手。他也在自传电影《The Thinking Game》中坦言：

　　而在Google DeepMind，与棋类游戏、进而与AI深深联结的人，还不只是哈萨比斯一人。

　　就在WCC现场，量子位见到了深度参与AlphaZero项目的Google DeepMind资深研究科学家Nenad Tomašev——同时也是一位国际象棋“狂热爱好者”、FIDE（国际棋联）注册棋手。

　　从AlphaZero到Gemini，从棋盘到影响人们现实生活的更多领域，围绕“通用AI”，量子位也和Nenad更深入地聊了聊其中的“Thinking Game”。

　　量子位：大模型之后，像AlphaZero这样的研究项目还在继续吗，是否在研究方向上有所改变？这些技术还会对我们的日常生活产生更大的影响吗？

　　当任何研究领域出现重大变革时，你都会看到研究方向的改变，一切照旧反而不太正常。但我认为，强化学习作为AlphaZero体现的原则，在大语言模型领域非常重要。

　　我们已经看到AI在各个方面产生越来越多的影响。其中一些影响对大多数人来说可能还不太明显，因为科学领域的重大突破往往需要一段时间才能传播开来，并最终通过如医疗的改善、更好的产品等形式，影响人们的生活。

　　你可以把世界想象成一棵知识之树，有些问题更接近根部，而应用则在树梢。从商业角度来说，大语言模型如Gemini，突然间降低了人们使用AI的门槛，这是一个非常强大的范式。但技术本身并不是突然发生的，正是因为我们在国际象棋、AlphaZero这样的项目上的积累，启发我们走到了这里。

　　我想说的是，尽管AI在过去已经取得了许多重大进步，但如果不是AI的密切关注者，或者国际象棋爱好者这类直接感受到影响的人，普通人可能不会注意到这些进步，因为他们无法真正与这些系统交互，或从中获得洞见。语言模型的通用性要强得多。

　　人工智能领域的长期目标是创造真正的通用人工智能系统，并且让我们能够加以利用。为了利用这些系统，我们需要一种与之交互的方式。人类使用语言相互交流，因此我们可以使用语言与基于大语言模型的AI交流，这使它们非常易于使用。

　　如果你有一个非常复杂的用户界面，必须输入一些以某种方式编码的特征，这对人类用户来说是很难用的。但如果你可以跟模型用自然语言对话，模型能够给出回应，这就是一种非常强大的范式。

　　这种技术的应用领域可以是任何事情，当然也可以只是为了好玩。你可以让AI给你讲故事，创作诗歌，或者生成你喜欢的图像。但我们也看到其在医疗等领域的进步。我们看到各种工作流程正在被自动化或在一定程度上实现自动化，这是一个令人兴奋的时代，让我们拭目以待未来几年会发生什么。

　　我认为所有领域都会受益于大模型的潜力，问题只在于我们如何使用它们，这显然需要花费一些时间和精力，去谨慎地进行构建和设计。

　　医疗是我非常热衷的领域之一。我的家人们都是医生，只有我这个“害群之马”是计算机科学家（笑），他们对AI医疗感到害怕，但同时也充满热情。医疗是一个非常敏感、复杂的领域，因为它关系到人们的生命和健康，你不能在这个领域奉行硅谷“快速行动、打破常规”的思维模式。

　　作为研究人员，我们所做的很多工作是构建看起来可行的概念验证系统，但要真正落地实践，还需要做更多的工作，以确保其安全性，比如进行临床试验。从一个想法到一个模型，到一个早期产品，再到通过试验并获得批准，之后真正投入使用，这需要很多年时间。另外，即使AI已经准备就绪，也需要等待整个医疗系统做好使用它的准备。

　　量子位：有人认为大语言模型让我们更接近AGI了，但也有人认为AGI仍然是个被过分炒作的概念，你怎么看？

　　我刚加入Google DeepMind的时候，我们的规模比现在要小得多，但当时我们就是为数不多敢于说出“AGI”这个词，并真正畅想它的团队——我不想说错话，或许还有其他团队也是如此。

　　AGI显然一直是AI领域的梦想。但之前也曾出现过AI寒冬，当时人们认为AGI离我们很近，然后人们失望了，于是投资枯竭。在神经网络真正登上舞台之前，这个流程被完整地走过了一遍。

　　即使是在神经网络来到舞台中央，深度学习成为一种趋势之后，仍然有人一再说AI撞墙了，悲观情绪仍然存在。但我认为，现在有了语言模型，有了它们展现出的通用能力和性能，更多人开始相信AGI是可能的，AGI正在成为一个被更广泛讨论的话题。

　　以前，只有一些非常乐观的技术专家会讨论AGI，大家显然都知道AGI还很遥远。尽管如此，我们会设想通往这一目标的道路。举个例子，从AlphaGo、AlphaZero开始，到MuZero，再到更多更通用的强化学习系统……

　　最终的问题是如何实现AGI。不同的人对应该把什么放在首位有不同的看法，比如语言是否是构建AGI所必需的——从事机器人研究的人就可能更多地从空间智能的角度来思考AGI。

　　我认为，语言发挥着巨大的作用，这也是语言模型能产生如此巨大影响的原因。人类积累了几千年的所有知识都以语言的形式表达，用语言的形式写成，包括我们所知道的关于科学和其他一切的一切。因此，一个能够很好地理解和使用语言的模型，就可以利用我们已有的所有知识。

　　想象一下，你创造了一个不会说话、像婴儿一样对世界一无所知的AGI，那么它需要通过实验、试错，重新学习人类在这么长时间里学到的一切。这在原则上是可能的，它可能会自己发明一种语言等等，但这并不是最短路径或者说一个好的主意。

　　因此，语言模型让我们如此兴奋是有原因的。人们目前正在构建的、基于语言模型的智能体，确实具有许多AGI所需的特征。

　　但它们仍有局限性。所以说到炒作，有人完全否定AI正在取得的进展，也有人认为语言模型就像魔法一样能解决一切，这两种看法都不正确。大模型是机器学习模型，在某些方面表现出色，但也有一些其他缺陷。它们有很大的潜力，但仍有我们需要解决的问题。

　　过度炒作和宣传不足同时存在，这使得有关这项技术的对话很难保持头脑清醒、脚踏实地，这取决你在和谁交谈。我认为事实总是介于两者之间。

　　我认为这是不可能说清楚的。你会看到有人预测是20年-50年，这听起来很遥远；也有人说大概是2年，这显然是一个非常近期的预测。

　　目前这一切都尚未明朗，因为全球有越来越多的人在研究这些问题，每天都能看到非常多的新进展。

　　我个人试图紧跟所有最新进展，但仅仅是每天发布的研究论文，其数量之多，就几乎不可能让一个人完全通读，更不用说详细地了解所有内容了。

　　因此，我们每个人都只能了解自己所关注领域的一部分情况，并试图根据这些片段来理解事物的发展方向。

　　我想说，也许是一个无聊的答案，但事实可能介于两者之间。准确预测未来是很难的，即使是短期的预测，人们也总是犯错误。所以当你试图做一个长期的预测，比如AGI是否会在5年、10年、15年或20年内实现？这是很长的一段时间，任何事情都可能发生。

　　我想，原则上，这将取决于AI社区能够产生多少创造力和灵感。灵感越多，问题就会更快得到解决；灵感不足，就需要更长时间。在某种程度上，未来掌握在我们自己手中，但我们只能拭目以待。

　　当被问到平常都会用大模型做些什么时，作为一位科学家+工程师，Nenad Tomašev的回答是“帮忙写代码”，还打了个小小广告（doge）：

　　比如说，回到开头所说，咱们吃瓜群众在等待丁立人与古克什大战分出胜负的同时，也在新加坡比赛现场，尝试了生成自己的创意棋子：

　　还让Gemini[1]给我们解释了一下，丁立人的绰号为什么叫“沉默的风暴”（Slient Storm）。

　　“沉默风暴”这个绰号源于丁立人的棋风特点：他具备深度计算变化的能力，棋风稳健，却又充满爆发力。

　　他能够在长时间的相持中寻找机会，也能在关键时刻抓住对手的失误，一举获胜。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。AG真人国际