时间:2025-07-27 07:40 作者:书狂人
Rich Sutton 最新 WAIC 演讲:从数据时代到经验时代的 AI
雷峰网讯 AI 和人都站在两个时代之间的历史转折点上。
随着人类数据中可提取的知识迅速接近极限,Scaling Law 的终点已经隐约可见。今天的大语言模型可以编程、写诗,却仍无法独立发现新知。显而易见,真正的智能,呼唤着新的训练范式出现。
更迫切的问题关乎人自身。自古以来,智者们便试图理解人的心智如何运作。当这一原理终于要被探明,千年追求的终点前却不仅有期待,还有对 AI 的恐惧。站在 AI 智能水平可能超越人类的转折点上,我们要如何看待它?以及更关键的问题,如何看待自己?
WAIC 2025 现场,现代强化学习的奠基人、阿尔伯塔大学教授 Rich Sutton 教授发表了题为《从数据时代到经验时代的 AI》的主旨演讲。Sutton 教授指出,学习源于强大的体验,而体验是心智活动的基础。智能体与世界的第一人称互动中,可能藏着一条通向超越人类智能的小径。
“经验时代”的概念由此而来。智能体对世界进行感知与交互,获取海量动态且高度定制化的数据,这种数据源将超越任何静态的合成数据生成程序,也更贴近生命的本质。就像 Sutton 教授此前曾对媒体所言:“世界从未告诉你应该做什么,是你从经验中学到了一切。”
然而 Sutton 教授也指出,由于现有的深度规划算法尚不具备持续学习以及元学习能力,因此还不足以释放经验数据和强化学习的全部潜力。
在演讲中,Sutton 教授还提出了关于 AI 的四条现实主义预测。“全世界对于 AI 应该如何发展没有共识”、“真正的智能必被创造”、“人类智能水平将被很快超越”,以及“随着时间推移,社会的权力和资源会流向最智能的存在”。他用一个非人类中心的视角重新审视人类的存在,对于宇宙而言,人类真正的使命或许就是“创造那些本身能够创造事物的东西”。
AI 科技评论对演讲进行了不改变原意的整理:
非常荣幸,今天我主要有三点要讲。第一点是“人类数据时代”,我认为我们此刻正身处其中,但也正在向一个“经验时代”转变。然后我想从政治的角度谈谈人工智能,这涉及到一些根本性问题,以及我们如何在人类社会中相互协作。第三个话题是关于在人工智能的飞速发展之下,我们要如何思考未来,以及人和 AI 在其中扮演的角色。
从数据时代到经验时代
让我们直接从第一个话题开始。我们现在正处于“人类数据时代”,AI 的训练数据来源于互联网上人类生成的文本和图像,然后由人类专家进行微调,其中涉及到私人偏好和关于 AI 应如何表现的示例,而这整个过程都围绕着通用的人类词汇展开。与 50 年前的世界大不相同,这是一个人类数据无处不在的时代,一个由事件和人类参与推动的新时代。
然而我们即将到达这个时代的终点。由于大多数高质量数据源已经被消耗殆尽,我们开始触及人类数据的极限。并且,基于人类数据的方法无法产生真正的新知识。因为它完全基于已有的思想,发现新知超出了该方法的能力范围。
那么,我们将如何获得真正的智能?
我认为,我们现在正进入“经验时代”,我们需要 AI 生成的数据源。这些数据会随着 AI 变得更强大而增长、改进和变化。互联网再大,也是一个静态的数据集。而通过智能体与世界的第一人称交互,可以生成更多经过调整和定制化的数据。我将其称为“经验”,即与世界交互的数据。
在初级阶段,首先要让智能体学习,让我用一个视频来说明为什么这至关重要。大家可以看到一个正在玩玩具的小婴儿,他与玩具互动,从中获得反馈,认为这是一只很好的小猫,然后转向下一个玩具。在此过程中,生成的数据不是静态的数据集合,而是非常动态且高度定制化的。通过这种互动,他自己决定何时完成一个任务,何时进行下一次探索。人类婴儿的行为因此展示出好奇心和渴望,也更加真实和多样化。
可以看到,经验数据非常密集。数据会以极高的速率进入你的身体,进入你的眼睛、耳朵和四肢。因此我们必须非常迅速地做出决策,任何延迟都无甚益处。并且所有决策都是围绕着目标的,挥动球棒是为了击中球,足球运动员为了进球而控球,动物们为了生存而奋斗。这还是一个高带宽的活动,实时获取的信息被用于决定下一步行动和预测即将发生的事情。
这就是生命的本质。正是这种数据的可用性,让 AlphaGo 能够走出其创造性的第 37 步,人类永远不会想到的一步,并由此引发了关于围棋思维方式的变革。这也是一种经过验证的、基于数据的方法,在国际象棋等领域(如AlphaZero)已经有奖牌为证。
让我再用一页幻灯片谈谈我们这种思维方式。设想一下我们的智能体,它们通过与世界交换信号(感知与交互)来获取数据,这些数据构成了它们的经验。
请注意,这种数据与经典机器学习(例如监督学习)中的数据截然不同。在监督学习中,你看到的是 IID(独立同分布) 样本,这些样本可以被随机打乱,以任何顺序出现。而智能体在这里观察到的是行为。它学到的是“在此情境下,预测某个标签”,而对抗机制则会生成它所使用的那类数据。这类数据表达的是:“在这种情境下,预测这个(行为)”。然后当智能体行动时,其实际上也是在执行预测的动作。
因此,智能体看到的并不是我们通常理解的那种数据或经验。人类采取行动,然后观察到结果。关键在于智能体并不会看到,关于“应当如何行为”的示例,它只会看到自身实际行为所产生的后果。因此,这种学习经验不同于监督学习,在人类数据时代,数据背后的本质与监督学习是分离的。在人类数据时代,数据背后的本质与监督学习是分离的(Divide from)。
一个更深入的观察是,在这种经验式思维模式下,智能体所学到的一切都是关于其自身体验的事实,我认为对人类而言也是如此。我们所相信的一切,都必须能够转化为可以成功印证我们体验的事实。你相信加拿大在北方,并且很遥远,这是一个关于你将如何旅行的信念。你相信你正坐在礼堂里听演讲,这是一个关于你体验的信念,一个关于你坐着的椅子,或你所处空间的事实。所有这些都必须转化为关于你的体验的事实,以便它们能够在无需人类干预的情况下被自动学习和调整。
延续这种体验式思维模式,当我们说一个智能体是智能的,那么其智能程度取决于它预测和控制激励信号(特别是其奖励信号)的能力。在这种观点下,经验就是AI智能的核心和基础。这是贯穿强化学习领域并构成其基础的深刻观点,我觉得这对你们所有人来说都很明显——学习源于强大的体验,而体验是心智活动的基础。但有时显而易见的东西反而更难看清,人们需要新的视角才能看到它。
我最近被计算机科学之父艾伦·图灵的这句话所震撼。他在 1947 年(那时甚至还没有 AI 这个词)说过:“我们想要的是一台能从经验中学习的机器。”我认为这是一个非常深刻的观点,尤其是在我们触及人类数据极限并试图从经验中学习的今天,它对于现代 AI 变得尤为重要。因此,这引出了我们近年的发展历程。大家可以从左到右地看到,我们这些年对强化学习投入了极大的关注。
我们必须提到 Atari 的工作,它首次引起了人们对强化学习的浓厚兴趣,而 AlphaGo 深化了这种兴趣,并在 AlphaZero 成为世界冠军时使其达到了巅峰。基本上所有人都在说:“看,现在我们有大型语言模型了。”这就是 GPT-3 以及所有其它模型,如 ChatGPT 和更现代的那些。这在世界上引起了巨大的、真正具有创造性的轰动。
这些系统的能力已经得到了展示:非常强大、非常重要、非常有用。但是我们正在触及人类数据的极限,我们现在正转向体验。我们看到在 AutoGPT 这样的系统,以及那些使用AI来控制计算机的系统(如编程助手)中,人们对利用体验的兴趣日益增长。这可能是我们获得超越人类智能,去解决那些超越人类构建能力的超级挑战的途径。
所以总结一下我对未来 AI 的看法。首先,超级智能体和超级智能增强人类的问世都会发生,并且将会为世界带来巨大福祉。这可能需要几十年时间,不需要很多个十年,也许只要一两个,并且在那之后还会持续几十年。这不是短跑冲刺,如果这是一场比赛,那会是一场马拉松。
要充分享受智能的益处,我们需要能够从经验中学习的智能体。如今的大型语言模型已经非常出色,作为通往世界所有知识的可定制接口,它们非常重要且有价值,但它并不真正处于通向强大通用智能的道路上。我们已经进入了一个新时代,“经验时代”。在这个时代,我们可以使用强化学习作为致力于从经验中学习的技术。然而,要实现从经验中学习或强化学习的全部潜力,还需要更好的深度规划算法。我们现有的深度规划算法尚不具备持续学习以及元学习的能力。
由于存在一个需要被解决的根本性问题,这些问题可能会再次出现。但我相信它们终将被解决,事实上这一过程正在发生,这正是我们讨论的核心所在。那么,欢迎各位进入“经验时代”。
繁荣的源头,去中心化合作
现在,我要从政治的角度谈谈人工智能。我希望我们通过提出这个问题来探讨:在社会相关的问题上,是存在单一目标还是多重目标?在强化通信或强化学习中,每个智能体都有自己的角色,因此每个智能体都有自己的目标,没有内在的理由要求不同智能体的目标必须相同。
如果你观察自然界,每个动物都有自己的痛苦和快乐,都有不同的目标。它们有共同的需求,也许是繁殖、照顾后代、获取食物和住所。但它们并不扮演相同的角色,因为一个动物的食物与另一个动物的食物并不相同。对人来说也是如此。你的家庭不同于我的家庭,我们当然有共同点,但大家在很大程度上也拥有不同的目标。这些目标之间也许存在对称性,比如我们都关心食物,都关心我们的家庭,但仍然不是同一个目标。
这种观察和思考是很有趣的。经济学家会告诉我们,当拥有不同目标、不同能力的人们进行合作、交换时,经济体运行得最好,因此我们的经济并不依赖于人们拥有共同目标。我们经常说,人们为了一个共同目标而努力。但令人惊奇的是,即使这种目标并不存在,人们仍然可以一起工作、和平相处。尽管我们想要的东西如此不同,合作对所有人而言仍然是有利的。
就此,我希望引入一些术语。我想谈谈“去中心化”,对社会而言,去中心化意味着存在许多智能体,每个都有其自身的目标。我认为这就是我们经济体背后的基础。它基于许多拥有各自目标的智能体,“合作”就是这些拥有不同目标的智能体为了互利而进行的互动,通过多次互动共同获益。
我想指出的是,人类这种特殊的超能力就是合作。人类的合作程度远高于任何其它物种,并且这种合作是由人类的独特发明——语言和金钱——所促进。
人类最伟大的成功就是合作,例如我们的基金会、市场、政府和人文科学。人类最大的失败也在于合作的失败,例如战争。正如我所定义的,去中心化合作是“社会共同目标”的替代方案,它可能是一种更优雅、更可持续、更稳健、更有效且更灵活的,组织良好社会的方式。
人类比任何其它动物都更擅长合作,但我们仍然需要谨慎行事。我们仍然面临着战争和饥荒,以及所有其它因合作失败而产生的问题。所以我们努力达成合作。
但合作并非总是可行,它需要至少两个值得信赖的智能体。而且不合作也总有好处,世上总是存在着威胁,比如武器制造商和独裁者。因此,为了惩罚违规者以支持合作,我们需要制度。这些制度有时是中心化的,即使是希腊,也是用一种在某种程度上中心化的制度来执行政策、鼓励合作。中心化的权威可以在短期内促进合作,但存在长期风险。如果我们的中心化制度变得专横或低效,那就将成为阻碍。
所以我认为要点是,这两种观点——去中心化控制和去中心化合作——是对立的。这两者之间的张力,以及在这个光谱上找到合适的位置,是我们这个时代的核心政治议题。
今天有许多要求对 AI 进行中心化控制的呼声。有呼声要求控制访问,有呼声要求暂停甚至停止 AI 研究,有呼声限制 AI 可使用的计算能力,还有许多呼声要求确保 AI 的“安全”,这通常意味着由某个中心化权威进行更严格的控制,并要求披露AI的开发者。我想从两点来思考这些控制AI的呼声与控制人类的呼声之间的相似性。我们今天可以看到越来越多的这类呼声:控制言论、控制媒体、控制贸易、控制人们可以在哪里工作、谁可以在不同地方工作、控制金融、控制人们的基本生活资料或金钱。还有关于经济制裁的呼声,这越来越多地意味着关税。
这些要求对 AI 和人类进行中心化控制的呼声,其论调惊人地相似,本质几乎总是基于恐惧。他们谈论“他者”,——AI 不像人类,或者其他国家不像我们。我们妖魔化对方,声称其他国家、其他民族不可信。我可以从西方视角、美国视角来说。他们会妖魔化中国,声称他们不可信,需要被惧怕。我相信中国人也同样提防一些国家,比如说美国,在军事领域尤其如此。
这些主张和恐惧的存在是正常现象,但我们应该意识到它们来自哪里。人类的繁荣,AI 也同样适用。人类的繁荣来源于去中心化合作,人类对合作既擅长也不擅长。合作并非总是可能,但它是我们世界上所有美好事物的源泉——所有的技术、所有的安全、我们在经济中享受的所有商品和服务——这一切都归功于合作。
因此,我们必须寻求合作,寻求将其制度化的方式。同时,如果我们睁大眼睛生活,我认为很容易看出谁在鼓吹不信任——对 AI 和他人。是谁在说我们不需要与他人合作?谁在呼吁中心化控制?我们应该抵制这些呼吁,这是审视所有关于人类与 AI 互动的呼吁的有效视角。
何为人类?一个宇宙的视角
AI 在今天快速发展,并在可预见的未来愈发强大,我们该如何看待它?AI 是善是恶?我们应该害怕 AI 夺走我们的工作,让我们变得过时吗?还是说我们将与 AI 共生,人类会通过技术得到增强?这三种情况都可能会发生。我们应该对 AI 说,“嗨,外星入侵者”,还是其为“人类的孩子”?我们是哀叹 AI 的飞速崛起,还是庆祝它的成就?
我认为我们都需要自己决定如何看待 AI。我不是来这里告诉你们应该如何思考的,我也不认为我们应该仓促地在今天决定我们对 AI 的态度。要如何看待 AI 的崛起,这个问题太重要了,不能盲目回答。我们需要思考它,并获取各种视角。我感觉今天新闻中的视角都充满了对 AI 的恐惧——AI 可能造成生存风险或者失去控制,而我们需要的,是一个平衡思考的过程。
你需要思考这个问题的另一面,所以我要主要提出一些缓解担忧和认识到 AI 是件好事的途径。我认为 AI 并非外来技术,事实上,它是人类最古老的追求之一。几千年来,哲学家和智者一直试图理解他们自己的心智,他们一直对自己内在的运作机制着迷。我们的心智如何运作?我们如何能让它运作得更好?这是一个永恒的问题,也是一个伟大的追求。
我喜欢艾伦·凯的名言:“智能是宇宙中最强大的力量形式。”现在,我们正在理解这种伟大的强大力量,我们将能够利用它造福人类。所以总结一下,我认为理解智能的努力,或者说理解智能本身,就是圣杯。它是科学和人文学科如此多领域的目的和目标,因为这将使我们理解自身的心智,这会是一座伟大而光荣的丰碑。至此,这是一个观点。
现在让我们试着现实一点,就像约翰·米尔斯海默在国际地缘政治上那样现实,但这次是关于AI的现实主义。我们来预测一下,将会发生什么。由于我们不确定自己想要或不想要什么,有时只问“将会发生什么”是格外有用的。
总之,让我列出四条关于 AI 的现实主义预测。
第一条:全世界对于 AI 应该如何发展没有共识。存在许多观点,许多强大的国家和帝国,但没有人能真正将自己的意志强加于所有其他国家之上。这意味着,没有哪个理事会、世界理事会或联合国能就 AI 做出一个决定并在全世界实施。但即使没有共识,AI 技术也会继续发展。
第二条:终有一天,研究人员将足够理解智能并创造相关技术。我不知道理解我们自己是否是件好事,但请记住我们的前提,我们应该在不关心自己想要什么的情况下进行预测。所以我认为,仅仅因为理解智能是一个重要课题,具有非常的价值,它的实现就是不可避免的。问题只在于时间,它会发生在本十年末、下一个十年,还是再下一个。
第三条:这个过程不会止步于当前人类的智能水平。我们要么迎来超级智能,要么迎来被技术极大增强的人类。无论如何,智能水平将很快超越当前人类的水平。
第四条:随着时间的推移,这个社会中的权力和资源将流向最智能的存在。这种流动可能是渐进的,但趋势如此。因此,我们应该思考这将导致什么,以及我们要如何看待 AI 的框架或参数。就像这张图所暗示的,人类迈向 AI 的进程是不可避免地,我们甚至有可能成为名副其实的超级智能机器。
这是一个有效的视角,但它仍然相当以人类为中心。我想稍微退后一步,我们能否采取一种非人类中心的视角来看待当前正在发生的事情?如果我们只是观察宇宙,仿佛置身事外地审视它,我们会看到什么?
当我这样做时,我有了一个想法,即宇宙的四个伟大时代。粗略地说,我们现在正处于第三和第四时代之间的过渡期。
第一个时代是大爆炸之后的时代,那时几乎没有物质,只有粒子。在第二个时代,这些粒子在引力作用下坍缩聚集在一起,这就是恒星时代。在恒星内部,恒星核心的高热和高压下形成了比氢和氦更重的所有元素。然后恒星爆炸,这些元素被抛入星际空间。它们最终形成围绕恒星运行的行星,于是我们进入了行星时代。
生命在行星上形成,它变得越来越复杂,从无性繁殖到有性繁殖,从没有神经系统的生物到动物和人类,再到出现文化、语言、农业和书面文字。生命时代是一个诱人的名字,但我认为更准确的称呼是“复制者时代”,因为生物系统是一个拥有遗传程序的系统,它们通过运行这个程序,来制造自身的新副本。
因此生命可以复制自己,但我们这样做时并不真正理解其原理。我们可以生孩子,可以复制生命,却并不真正理解孩子的身体或心智如何工作。在第三个时代,自我复制的事物占据重要地位,在地球表面占据显著地位。
现在我们正在转变,我认为我们正在进入第四个伟大时代。有人可能称其为“机器时代”,但我认为应该叫它“设计时代”。这个时代与之前的不同之处在于,此前我们世界上所有最重要的事物,都是根据一个程序(DNA)遗传复制而来,没有理解其原理。但在设计时代,我们拥有由人们设计并创造的技术、物品、工具和创造物。它们不像复制者那样——你可以运行 DNA 程序来制造一个新副本,但你无法轻易地编辑和改变它。
随着我们进入这个时代,设计的事物变得越来越重要。我们可以看到道路、城市、建筑和各种物品,环顾四周,你周围的一切几乎都是设计的,除了那些复制者。比如除了这个房间里的其他人之外,所有东西都是设计的。设计的事物开始在我们的生活中占据非常显著的地位。
现在我希望处理一下术语问题。我说了大概 70 次 “生命时代”、“机器时代”,但我认为这些术语具有误导性,因为我们的机器正变得越来越像生命,与此同时,生物系统越来越被被认为也是一种机器——生物机器。所以我认为,它们其实都是机器——生物机器、构造机器、设计机器。
真正的区别是什么?区别在于,生物系统是在没有任何心智理解其工作原理的情况下被创造的。它们是在复制一个工程程序(DNA)。而技术产品首先是在某个设计者心智的想象中被创造出来,然后才存在于世界上。设计的事物,或者说机制,更容易被改进。所以就术语而言,“复制”和“设计”的区分是恰当的,这是思考宇宙第三和第四伟大时代的好方法。
许多非人类复制者也会设计。不仅仅是人类,许多其它动物也会制造东西,会在头脑中进行构想然后制造出来。它们筑巢、挖洞。黑猩猩会剥去树枝的侧枝来钓白蚁,甚至乌鸦也会做类似的事情。用树叶条觅食。当然人类走得更远,人类制造了石斧,发明了农业。现在我们有了计算机和太空飞船工厂。另外我们还有软件,有制造其它工具的工具。当我们谈论编译器,它不同于房子那样的工具,实际上是一种用于制造房子,或设计其它事物的工具,一种制造其它工具或事物的工具。
那么现在,我们可以回答最初的问题了吗?我们在宇宙中的角色是什么?
我们得到了这样一个视角,即我们都感觉到自己是特殊的,人类是特殊的,但是人类的特殊在某种意义上只是程度问题。我们是将设计推向更高高度的复制者,而我必须要问,我们已经将设计推到极限了吗?如果我们已经将设计推向其终极,那么在这个时代,这意味着什么?我认为它意味着,设计那些本身能够设计事物的东西。这就是我们所处的阶段,这就是我们正在做的事情。我们正在尝试做 AI,我们正在尝试设计那些本身能够设计的东西。
所以最终的视角是,人类是催化剂、助产士、先驱者,我们履行了宇宙第四个伟大时代——设计时代的使命。这是一个重要的、伟大的角色。而我对这一切最终的总结是,这十年的 AI,人类数据的时代,进展非常顺利。
雷峰网文章
3、中国驻泰使馆提醒在泰中国公民避免前往泰柬边境有关区域,驻泰国使馆中文项目谨慎