AG真人国际(中国)官方网站

服务热线热线:

02088888888

AG公司新闻

AG真人国际(中国)官方网站对话Google DeepMind资深科学家:强化学习是重点大模型时代AlphaZero依然重要

发布时间:2024-12-12点击次数:

  如果说有一类游戏贯穿AI发展的始终,围绕其诞生的Thinking Game至今仍影响着最前沿AI技术的发展,那么答案很显然:

  就在新加坡举办的国际象棋世界冠军赛(WCC 2024)上——就是中国国际象棋世界冠军丁立人,迎战国际象棋史上最年轻世界冠军挑战者、印度棋手古克什的比赛——尽管是人类顶尖头脑之间的对弈,比赛现场,AI的氛围仍然浓烈。

  谷歌大模型还担纲了比赛“解说”的角色——Gemini支持的Chatting Chess,可以通过对话深入浅出地讲解国际象棋中各种复杂概念,帮助观众更好地读懂棋局。

  新晋诺贝尔化学奖得主Demis Hassabis(戴密斯·哈萨比斯)也在比赛首日出现在现场,为两位棋手开棋。

  实际上,从上世纪50年代的AI跳棋,到击败棋王卡斯帕罗夫的深蓝,再到掀起人工智能第一波全球热潮的AlphaGo……在载入史册的历史事件背后,棋类游戏对AI更重要的影响或许是,启发了身在时代洪流中的那些人。

  年少时,他曾是同年龄段世界排名第二的棋手。他也在自传电影《The Thinking Game》中坦言:

  而在Google DeepMind,与棋类游戏、进而与AI深深联结的人,还不只是哈萨比斯一人。

  就在WCC现场,量子位见到了深度参与AlphaZero项目的Google DeepMind资深研究科学家Nenad Tomašev——同时也是一位国际象棋“狂热爱好者”、FIDE(国际棋联)注册棋手。

  从AlphaZero到Gemini,从棋盘到影响人们现实生活的更多领域,围绕“通用AI”,量子位也和Nenad更深入地聊了聊其中的“Thinking Game”。

  量子位:大模型之后,像AlphaZero这样的研究项目还在继续吗,是否在研究方向上有所改变?这些技术还会对我们的日常生活产生更大的影响吗?

  当任何研究领域出现重大变革时,你都会看到研究方向的改变,一切照旧反而不太正常。但我认为,强化学习作为AlphaZero体现的原则,在大语言模型领域非常重要。

  我们已经看到AI在各个方面产生越来越多的影响。其中一些影响对大多数人来说可能还不太明显,因为科学领域的重大突破往往需要一段时间才能传播开来,并最终通过如医疗的改善、更好的产品等形式,影响人们的生活。

  你可以把世界想象成一棵知识之树,有些问题更接近根部,而应用则在树梢。从商业角度来说,大语言模型如Gemini,突然间降低了人们使用AI的门槛,这是一个非常强大的范式。但技术本身并不是突然发生的,正是因为我们在国际象棋、AlphaZero这样的项目上的积累,启发我们走到了这里。

  我想说的是,尽管AI在过去已经取得了许多重大进步,但如果不是AI的密切关注者,或者国际象棋爱好者这类直接感受到影响的人,普通人可能不会注意到这些进步,因为他们无法真正与这些系统交互,或从中获得洞见。语言模型的通用性要强得多。

  人工智能领域的长期目标是创造真正的通用人工智能系统,并且让我们能够加以利用。为了利用这些系统,我们需要一种与之交互的方式。人类使用语言相互交流,因此我们可以使用语言与基于大语言模型的AI交流,这使它们非常易于使用。

  如果你有一个非常复杂的用户界面,必须输入一些以某种方式编码的特征,这对人类用户来说是很难用的。但如果你可以跟模型用自然语言对话,模型能够给出回应,这就是一种非常强大的范式。

  这种技术的应用领域可以是任何事情,当然也可以只是为了好玩。你可以让AI给你讲故事,创作诗歌,或者生成你喜欢的图像。但我们也看到其在医疗等领域的进步。我们看到各种工作流程正在被自动化或在一定程度上实现自动化,这是一个令人兴奋的时代,让我们拭目以待未来几年会发生什么。

  我认为所有领域都会受益于大模型的潜力,问题只在于我们如何使用它们,这显然需要花费一些时间和精力,去谨慎地进行构建和设计。

  医疗是我非常热衷的领域之一。我的家人们都是医生,只有我这个“害群之马”是计算机科学家(笑),他们对AI医疗感到害怕,但同时也充满热情。医疗是一个非常敏感、复杂的领域,因为它关系到人们的生命和健康,你不能在这个领域奉行硅谷“快速行动、打破常规”的思维模式。

  作为研究人员,我们所做的很多工作是构建看起来可行的概念验证系统,但要真正落地实践,还需要做更多的工作,以确保其安全性,比如进行临床试验。从一个想法到一个模型,到一个早期产品,再到通过试验并获得批准,之后真正投入使用,这需要很多年时间。另外,即使AI已经准备就绪,也需要等待整个医疗系统做好使用它的准备。

  量子位:有人认为大语言模型让我们更接近AGI了,但也有人认为AGI仍然是个被过分炒作的概念,你怎么看?

  我刚加入Google DeepMind的时候,我们的规模比现在要小得多,但当时我们就是为数不多敢于说出“AGI”这个词,并真正畅想它的团队——我不想说错话,或许还有其他团队也是如此。

  AGI显然一直是AI领域的梦想。但之前也曾出现过AI寒冬,当时人们认为AGI离我们很近,然后人们失望了,于是投资枯竭。在神经网络真正登上舞台之前,这个流程被完整地走过了一遍。

  即使是在神经网络来到舞台中央,深度学习成为一种趋势之后,仍然有人一再说AI撞墙了,悲观情绪仍然存在。但我认为,现在有了语言模型,有了它们展现出的通用能力和性能,更多人开始相信AGI是可能的,AGI正在成为一个被更广泛讨论的话题。

  以前,只有一些非常乐观的技术专家会讨论AGI,大家显然都知道AGI还很遥远。尽管如此,我们会设想通往这一目标的道路。举个例子,从AlphaGo、AlphaZero开始,到MuZero,再到更多更通用的强化学习系统……

  最终的问题是如何实现AGI。不同的人对应该把什么放在首位有不同的看法,比如语言是否是构建AGI所必需的——从事机器人研究的人就可能更多地从空间智能的角度来思考AGI。

  我认为,语言发挥着巨大的作用,这也是语言模型能产生如此巨大影响的原因。人类积累了几千年的所有知识都以语言的形式表达,用语言的形式写成,包括我们所知道的关于科学和其他一切的一切。因此,一个能够很好地理解和使用语言的模型,就可以利用我们已有的所有知识。

  想象一下,你创造了一个不会说话、像婴儿一样对世界一无所知的AGI,那么它需要通过实验、试错,重新学习人类在这么长时间里学到的一切。这在原则上是可能的,它可能会自己发明一种语言等等,但这并不是最短路径或者说一个好的主意。

  因此,语言模型让我们如此兴奋是有原因的。人们目前正在构建的、基于语言模型的智能体,确实具有许多AGI所需的特征。

  但它们仍有局限性。所以说到炒作,有人完全否定AI正在取得的进展,也有人认为语言模型就像魔法一样能解决一切,这两种看法都不正确。大模型是机器学习模型,在某些方面表现出色,但也有一些其他缺陷。它们有很大的潜力,但仍有我们需要解决的问题。

  过度炒作和宣传不足同时存在,这使得有关这项技术的对话很难保持头脑清醒、脚踏实地,这取决你在和谁交谈。我认为事实总是介于两者之间。

  我认为这是不可能说清楚的。你会看到有人预测是20年-50年,这听起来很遥远;也有人说大概是2年,这显然是一个非常近期的预测。

  目前这一切都尚未明朗,因为全球有越来越多的人在研究这些问题,每天都能看到非常多的新进展。

  我个人试图紧跟所有最新进展,但仅仅是每天发布的研究论文,其数量之多,就几乎不可能让一个人完全通读,更不用说详细地了解所有内容了。

  因此,我们每个人都只能了解自己所关注领域的一部分情况,并试图根据这些片段来理解事物的发展方向。

  我想说,也许是一个无聊的答案,但事实可能介于两者之间。准确预测未来是很难的,即使是短期的预测,人们也总是犯错误。所以当你试图做一个长期的预测,比如AGI是否会在5年、10年、15年或20年内实现?这是很长的一段时间,任何事情都可能发生。

  我想,原则上,这将取决于AI社区能够产生多少创造力和灵感。灵感越多,问题就会更快得到解决;灵感不足,就需要更长时间。在某种程度上,未来掌握在我们自己手中,但我们只能拭目以待。

  当被问到平常都会用大模型做些什么时,作为一位科学家+工程师,Nenad Tomašev的回答是“帮忙写代码”,还打了个小小广告(doge):

  比如说,回到开头所说,咱们吃瓜群众在等待丁立人与古克什大战分出胜负的同时,也在新加坡比赛现场,尝试了生成自己的创意棋子:

  还让Gemini[1]给我们解释了一下,丁立人的绰号为什么叫“沉默的风暴”(Slient Storm)。

  “沉默风暴”这个绰号源于丁立人的棋风特点:他具备深度计算变化的能力,棋风稳健,却又充满爆发力。

  他能够在长时间的相持中寻找机会,也能在关键时刻抓住对手的失误,一举获胜。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。AG真人国际

上一篇:涨知识丨透视阿尔法狗背后的“深度学习+强化学习”算法

返回列表

下一篇:AG真人国际(中国)官方网站突破!自然语言强化学习(NLRL