Rich Sutton 最新 WAIC 演讲：从数据时代到经验时代的 AI

雷峰网讯 AI 和人都站在两个时代之间的历史转折点上。

随着人类数据中可提取的知识迅速接近极限，Scaling Law 的终点已经隐约可见。今天的大语言模型可以编程、写诗，却仍无法独立发现新知。显而易见，真正的智能，呼唤着新的训练范式出现。

更迫切的问题关乎人自身。自古以来，智者们便试图理解人的心智如何运作。当这一原理终于要被探明，千年追求的终点前却不仅有期待，还有对 AI 的恐惧。站在 AI 智能水平可能超越人类的转折点上，我们要如何看待它？以及更关键的问题，如何看待自己？

WAIC 2025 现场，现代强化学习的奠基人、阿尔伯塔大学教授 Rich Sutton 教授发表了题为《从数据时代到经验时代的 AI》的主旨演讲。Sutton 教授指出，学习源于强大的体验，而体验是心智活动的基础。智能体与世界的第一人称互动中，可能藏着一条通向超越人类智能的小径。

“经验时代”的概念由此而来。智能体对世界进行感知与交互，获取海量动态且高度定制化的数据，这种数据源将超越任何静态的合成数据生成程序，也更贴近生命的本质。就像 Sutton 教授此前曾对媒体所言：“世界从未告诉你应该做什么，是你从经验中学到了一切。”

然而 Sutton 教授也指出，由于现有的深度规划算法尚不具备持续学习以及元学习能力，因此还不足以释放经验数据和强化学习的全部潜力。

在演讲中，Sutton 教授还提出了关于 AI 的四条现实主义预测。“全世界对于 AI 应该如何发展没有共识”、“真正的智能必被创造”、“人类智能水平将被很快超越”，以及“随着时间推移，社会的权力和资源会流向最智能的存在”。他用一个非人类中心的视角重新审视人类的存在，对于宇宙而言，人类真正的使命或许就是“创造那些本身能够创造事物的东西”。

AI 科技评论对演讲进行了不改变原意的整理：

非常荣幸，今天我主要有三点要讲。第一点是“人类数据时代”，我认为我们此刻正身处其中，但也正在向一个“经验时代”转变。然后我想从政治的角度谈谈人工智能，这涉及到一些根本性问题，以及我们如何在人类社会中相互协作。第三个话题是关于在人工智能的飞速发展之下，我们要如何思考未来，以及人和 AI 在其中扮演的角色。

从数据时代到经验时代

让我们直接从第一个话题开始。我们现在正处于“人类数据时代”，AI 的训练数据来源于互联网上人类生成的文本和图像，然后由人类专家进行微调，其中涉及到私人偏好和关于 AI 应如何表现的示例，而这整个过程都围绕着通用的人类词汇展开。与 50 年前的世界大不相同，这是一个人类数据无处不在的时代，一个由事件和人类参与推动的新时代。

然而我们即将到达这个时代的终点。由于大多数高质量数据源已经被消耗殆尽，我们开始触及人类数据的极限。并且，基于人类数据的方法无法产生真正的新知识。因为它完全基于已有的思想，发现新知超出了该方法的能力范围。

那么，我们将如何获得真正的智能？

我认为，我们现在正进入“经验时代”，我们需要 AI 生成的数据源。这些数据会随着 AI 变得更强大而增长、改进和变化。互联网再大，也是一个静态的数据集。而通过智能体与世界的第一人称交互，可以生成更多经过调整和定制化的数据。我将其称为“经验”，即与世界交互的数据。

在初级阶段，首先要让智能体学习，让我用一个视频来说明为什么这至关重要。大家可以看到一个正在玩玩具的小婴儿，他与玩具互动，从中获得反馈，认为这是一只很好的小猫，然后转向下一个玩具。在此过程中，生成的数据不是静态的数据集合，而是非常动态且高度定制化的。通过这种互动，他自己决定何时完成一个任务，何时进行下一次探索。人类婴儿的行为因此展示出好奇心和渴望，也更加真实和多样化。

可以看到，经验数据非常密集。数据会以极高的速率进入你的身体，进入你的眼睛、耳朵和四肢。因此我们必须非常迅速地做出决策，任何延迟都无甚益处。并且所有决策都是围绕着目标的，挥动球棒是为了击中球，足球运动员为了进球而控球，动物们为了生存而奋斗。这还是一个高带宽的活动，实时获取的信息被用于决定下一步行动和预测即将发生的事情。

这就是生命的本质。正是这种数据的可用性，让 AlphaGo 能够走出其创造性的第 37 步，人类永远不会想到的一步，并由此引发了关于围棋思维方式的变革。这也是一种经过验证的、基于数据的方法，在国际象棋等领域（如AlphaZero）已经有奖牌为证。

让我再用一页幻灯片谈谈我们这种思维方式。设想一下我们的智能体，它们通过与世界交换信号（感知与交互）来获取数据，这些数据构成了它们的经验。

请注意，这种数据与经典机器学习（例如监督学习）中的数据截然不同。在监督学习中，你看到的是 IID（独立同分布）样本，这些样本可以被随机打乱，以任何顺序出现。而智能体在这里观察到的是行为。它学到的是“在此情境下，预测某个标签”，而对抗机制则会生成它所使用的那类数据。这类数据表达的是：“在这种情境下，预测这个（行为）”。然后当智能体行动时，其实际上也是在执行预测的动作。

因此，智能体看到的并不是我们通常理解的那种数据或经验。人类采取行动，然后观察到结果。关键在于智能体并不会看到，关于“应当如何行为”的示例，它只会看到自身实际行为所产生的后果。因此，这种学习经验不同于监督学习，在人类数据时代，数据背后的本质与监督学习是分离的。在人类数据时代，数据背后的本质与监督学习是分离的（Divide from）。

一个更深入的观察是，在这种经验式思维模式下，智能体所学到的一切都是关于其自身体验的事实，我认为对人类而言也是如此。我们所相信的一切，都必须能够转化为可以成功印证我们体验的事实。你相信加拿大在北方，并且很遥远，这是一个关于你将如何旅行的信念。你相信你正坐在礼堂里听演讲，这是一个关于你体验的信念，一个关于你坐着的椅子，或你所处空间的事实。所有这些都必须转化为关于你的体验的事实，以便它们能够在无需人类干预的情况下被自动学习和调整。

延续这种体验式思维模式，当我们说一个智能体是智能的，那么其智能程度取决于它预测和控制激励信号（特别是其奖励信号）的能力。在这种观点下，经验就是AI智能的核心和基础。这是贯穿强化学习领域并构成其基础的深刻观点，我觉得这对你们所有人来说都很明显——学习源于强大的体验，而体验是心智活动的基础。但有时显而易见的东西反而更难看清，人们需要新的视角才能看到它。

我最近被计算机科学之父艾伦·图灵的这句话所震撼。他在 1947 年（那时甚至还没有 AI 这个词）说过：“我们想要的是一台能从经验中学习的机器。”我认为这是一个非常深刻的观点，尤其是在我们触及人类数据极限并试图从经验中学习的今天，它对于现代 AI 变得尤为重要。因此，这引出了我们近年的发展历程。大家可以从左到右地看到，我们这些年对强化学习投入了极大的关注。

我们必须提到 Atari 的工作，它首次引起了人们对强化学习的浓厚兴趣，而 AlphaGo 深化了这种兴趣，并在 AlphaZero 成为世界冠军时使其达到了巅峰。基本上所有人都在说：“看，现在我们有大型语言模型了。”这就是 GPT-3 以及所有其它模型，如 ChatGPT 和更现代的那些。这在世界上引起了巨大的、真正具有创造性的轰动。

这些系统的能力已经得到了展示：非常强大、非常重要、非常有用。但是我们正在触及人类数据的极限，我们现在正转向体验。我们看到在 AutoGPT 这样的系统，以及那些使用AI来控制计算机的系统（如编程助手）中，人们对利用体验的兴趣日益增长。这可能是我们获得超越人类智能，去解决那些超越人类构建能力的超级挑战的途径。

所以总结一下我对未来 AI 的看法。首先，超级智能体和超级智能增强人类的问世都会发生，并且将会为世界带来巨大福祉。这可能需要几十年时间，不需要很多个十年，也许只要一两个，并且在那之后还会持续几十年。这不是短跑冲刺，如果这是一场比赛，那会是一场马拉松。

要充分享受智能的益处，我们需要能够从经验中学习的智能体。如今的大型语言模型已经非常出色，作为通往世界所有知识的可定制接口，它们非常重要且有价值，但它并不真正处于通向强大通用智能的道路上。我们已经进入了一个新时代，“经验时代”。在这个时代，我们可以使用强化学习作为致力于从经验中学习的技术。然而，要实现从经验中学习或强化学习的全部潜力，还需要更好的深度规划算法。我们现有的深度规划算法尚不具备持续学习以及元学习的能力。

由于存在一个需要被解决的根本性问题，这些问题可能会再次出现。但我相信它们终将被解决，事实上这一过程正在发生，这正是我们讨论的核心所在。那么，欢迎各位进入“经验时代”。

繁荣的源头，去中心化合作

现在，我要从政治的角度谈谈人工智能。我希望我们通过提出这个问题来探讨：在社会相关的问题上，是存在单一目标还是多重目标？在强化通信或强化学习中，每个智能体都有自己的角色，因此每个智能体都有自己的目标，没有内在的理由要求不同智能体的目标必须相同。

如果你观察自然界，每个动物都有自己的痛苦和快乐，都有不同的目标。它们有共同的需求，也许是繁殖、照顾后代、获取食物和住所。但它们并不扮演相同的角色，因为一个动物的食物与另一个动物的食物并不相同。对人来说也是如此。你的家庭不同于我的家庭，我们当然有共同点，但大家在很大程度上也拥有不同的目标。这些目标之间也许存在对称性，比如我们都关心食物，都关心我们的家庭，但仍然不是同一个目标。

这种观察和思考是很有趣的。经济学家会告诉我们，当拥有不同目标、不同能力的人们进行合作、交换时，经济体运行得最好，因此我们的经济并不依赖于人们拥有共同目标。我们经常说，人们为了一个共同目标而努力。但令人惊奇的是，即使这种目标并不存在，人们仍然可以一起工作、和平相处。尽管我们想要的东西如此不同，合作对所有人而言仍然是有利的。

就此，我希望引入一些术语。我想谈谈“去中心化”，对社会而言，去中心化意味着存在许多智能体，每个都有其自身的目标。我认为这就是我们经济体背后的基础。它基于许多拥有各自目标的智能体，“合作”就是这些拥有不同目标的智能体为了互利而进行的互动，通过多次互动共同获益。

我想指出的是，人类这种特殊的超能力就是合作。人类的合作程度远高于任何其它物种，并且这种合作是由人类的独特发明——语言和金钱——所促进。

人类最伟大的成功就是合作，例如我们的基金会、市场、政府和人文科学。人类最大的失败也在于合作的失败，例如战争。正如我所定义的，去中心化合作是“社会共同目标”的替代方案，它可能是一种更优雅、更可持续、更稳健、更有效且更灵活的，组织良好社会的方式。

人类比任何其它动物都更擅长合作，但我们仍然需要谨慎行事。我们仍然面临着战争和饥荒，以及所有其它因合作失败而产生的问题。所以我们努力达成合作。

但合作并非总是可行，它需要至少两个值得信赖的智能体。而且不合作也总有好处，世上总是存在着威胁，比如武器制造商和独裁者。因此，为了惩罚违规者以支持合作，我们需要制度。这些制度有时是中心化的，即使是希腊，也是用一种在某种程度上中心化的制度来执行政策、鼓励合作。中心化的权威可以在短期内促进合作，但存在长期风险。如果我们的中心化制度变得专横或低效，那就将成为阻碍。

所以我认为要点是，这两种观点——去中心化控制和去中心化合作——是对立的。这两者之间的张力，以及在这个光谱上找到合适的位置，是我们这个时代的核心政治议题。

今天有许多要求对 AI 进行中心化控制的呼声。有呼声要求控制访问，有呼声要求暂停甚至停止 AI 研究，有呼声限制 AI 可使用的计算能力，还有许多呼声要求确保 AI 的“安全”，这通常意味着由某个中心化权威进行更严格的控制，并要求披露AI的开发者。我想从两点来思考这些控制AI的呼声与控制人类的呼声之间的相似性。我们今天可以看到越来越多的这类呼声：控制言论、控制媒体、控制贸易、控制人们可以在哪里工作、谁可以在不同地方工作、控制金融、控制人们的基本生活资料或金钱。还有关于经济制裁的呼声，这越来越多地意味着关税。

这些要求对 AI 和人类进行中心化控制的呼声，其论调惊人地相似，本质几乎总是基于恐惧。他们谈论“他者”，——AI 不像人类，或者其他国家不像我们。我们妖魔化对方，声称其他国家、其他民族不可信。我可以从西方视角、美国视角来说。他们会妖魔化中国，声称他们不可信，需要被惧怕。我相信中国人也同样提防一些国家，比如说美国，在军事领域尤其如此。

这些主张和恐惧的存在是正常现象，但我们应该意识到它们来自哪里。人类的繁荣，AI 也同样适用。人类的繁荣来源于去中心化合作，人类对合作既擅长也不擅长。合作并非总是可能，但它是我们世界上所有美好事物的源泉——所有的技术、所有的安全、我们在经济中享受的所有商品和服务——这一切都归功于合作。

因此，我们必须寻求合作，寻求将其制度化的方式。同时，如果我们睁大眼睛生活，我认为很容易看出谁在鼓吹不信任——对 AI 和他人。是谁在说我们不需要与他人合作？谁在呼吁中心化控制？我们应该抵制这些呼吁，这是审视所有关于人类与 AI 互动的呼吁的有效视角。

何为人类？一个宇宙的视角

AI 在今天快速发展，并在可预见的未来愈发强大，我们该如何看待它？AI 是善是恶？我们应该害怕 AI 夺走我们的工作，让我们变得过时吗？还是说我们将与 AI 共生，人类会通过技术得到增强？这三种情况都可能会发生。我们应该对 AI 说，“嗨，外星入侵者”，还是其为“人类的孩子”？我们是哀叹 AI 的飞速崛起，还是庆祝它的成就？

我认为我们都需要自己决定如何看待 AI。我不是来这里告诉你们应该如何思考的，我也不认为我们应该仓促地在今天决定我们对 AI 的态度。要如何看待 AI 的崛起，这个问题太重要了，不能盲目回答。我们需要思考它，并获取各种视角。我感觉今天新闻中的视角都充满了对 AI 的恐惧——AI 可能造成生存风险或者失去控制，而我们需要的，是一个平衡思考的过程。

你需要思考这个问题的另一面，所以我要主要提出一些缓解担忧和认识到 AI 是件好事的途径。我认为 AI 并非外来技术，事实上，它是人类最古老的追求之一。几千年来，哲学家和智者一直试图理解他们自己的心智，他们一直对自己内在的运作机制着迷。我们的心智如何运作？我们如何能让它运作得更好？这是一个永恒的问题，也是一个伟大的追求。

我喜欢艾伦·凯的名言：“智能是宇宙中最强大的力量形式。”现在，我们正在理解这种伟大的强大力量，我们将能够利用它造福人类。所以总结一下，我认为理解智能的努力，或者说理解智能本身，就是圣杯。它是科学和人文学科如此多领域的目的和目标，因为这将使我们理解自身的心智，这会是一座伟大而光荣的丰碑。至此，这是一个观点。

现在让我们试着现实一点，就像约翰·米尔斯海默在国际地缘政治上那样现实，但这次是关于AI的现实主义。我们来预测一下，将会发生什么。由于我们不确定自己想要或不想要什么，有时只问“将会发生什么”是格外有用的。

总之，让我列出四条关于 AI 的现实主义预测。

第一条：全世界对于 AI 应该如何发展没有共识。存在许多观点，许多强大的国家和帝国，但没有人能真正将自己的意志强加于所有其他国家之上。这意味着，没有哪个理事会、世界理事会或联合国能就 AI 做出一个决定并在全世界实施。但即使没有共识，AI 技术也会继续发展。

第二条：终有一天，研究人员将足够理解智能并创造相关技术。我不知道理解我们自己是否是件好事，但请记住我们的前提，我们应该在不关心自己想要什么的情况下进行预测。所以我认为，仅仅因为理解智能是一个重要课题，具有非常的价值，它的实现就是不可避免的。问题只在于时间，它会发生在本十年末、下一个十年，还是再下一个。

第三条：这个过程不会止步于当前人类的智能水平。我们要么迎来超级智能，要么迎来被技术极大增强的人类。无论如何，智能水平将很快超越当前人类的水平。

第四条：随着时间的推移，这个社会中的权力和资源将流向最智能的存在。这种流动可能是渐进的，但趋势如此。因此，我们应该思考这将导致什么，以及我们要如何看待 AI 的框架或参数。就像这张图所暗示的，人类迈向 AI 的进程是不可避免地，我们甚至有可能成为名副其实的超级智能机器。

这是一个有效的视角，但它仍然相当以人类为中心。我想稍微退后一步，我们能否采取一种非人类中心的视角来看待当前正在发生的事情？如果我们只是观察宇宙，仿佛置身事外地审视它，我们会看到什么？

当我这样做时，我有了一个想法，即宇宙的四个伟大时代。粗略地说，我们现在正处于第三和第四时代之间的过渡期。

第一个时代是大爆炸之后的时代，那时几乎没有物质，只有粒子。在第二个时代，这些粒子在引力作用下坍缩聚集在一起，这就是恒星时代。在恒星内部，恒星核心的高热和高压下形成了比氢和氦更重的所有元素。然后恒星爆炸，这些元素被抛入星际空间。它们最终形成围绕恒星运行的行星，于是我们进入了行星时代。

生命在行星上形成，它变得越来越复杂，从无性繁殖到有性繁殖，从没有神经系统的生物到动物和人类，再到出现文化、语言、农业和书面文字。生命时代是一个诱人的名字，但我认为更准确的称呼是“复制者时代”，因为生物系统是一个拥有遗传程序的系统，它们通过运行这个程序，来制造自身的新副本。

因此生命可以复制自己，但我们这样做时并不真正理解其原理。我们可以生孩子，可以复制生命，却并不真正理解孩子的身体或心智如何工作。在第三个时代，自我复制的事物占据重要地位，在地球表面占据显著地位。

现在我们正在转变，我认为我们正在进入第四个伟大时代。有人可能称其为“机器时代”，但我认为应该叫它“设计时代”。这个时代与之前的不同之处在于，此前我们世界上所有最重要的事物，都是根据一个程序（DNA）遗传复制而来，没有理解其原理。但在设计时代，我们拥有由人们设计并创造的技术、物品、工具和创造物。它们不像复制者那样——你可以运行 DNA 程序来制造一个新副本，但你无法轻易地编辑和改变它。

随着我们进入这个时代，设计的事物变得越来越重要。我们可以看到道路、城市、建筑和各种物品，环顾四周，你周围的一切几乎都是设计的，除了那些复制者。比如除了这个房间里的其他人之外，所有东西都是设计的。设计的事物开始在我们的生活中占据非常显著的地位。

现在我希望处理一下术语问题。我说了大概 70 次 “生命时代”、“机器时代”，但我认为这些术语具有误导性，因为我们的机器正变得越来越像生命，与此同时，生物系统越来越被被认为也是一种机器——生物机器。所以我认为，它们其实都是机器——生物机器、构造机器、设计机器。

真正的区别是什么？区别在于，生物系统是在没有任何心智理解其工作原理的情况下被创造的。它们是在复制一个工程程序（DNA）。而技术产品首先是在某个设计者心智的想象中被创造出来，然后才存在于世界上。设计的事物，或者说机制，更容易被改进。所以就术语而言，“复制”和“设计”的区分是恰当的，这是思考宇宙第三和第四伟大时代的好方法。

许多非人类复制者也会设计。不仅仅是人类，许多其它动物也会制造东西，会在头脑中进行构想然后制造出来。它们筑巢、挖洞。黑猩猩会剥去树枝的侧枝来钓白蚁，甚至乌鸦也会做类似的事情。用树叶条觅食。当然人类走得更远，人类制造了石斧，发明了农业。现在我们有了计算机和太空飞船工厂。另外我们还有软件，有制造其它工具的工具。当我们谈论编译器，它不同于房子那样的工具，实际上是一种用于制造房子，或设计其它事物的工具，一种制造其它工具或事物的工具。

那么现在，我们可以回答最初的问题了吗？我们在宇宙中的角色是什么？

我们得到了这样一个视角，即我们都感觉到自己是特殊的，人类是特殊的，但是人类的特殊在某种意义上只是程度问题。我们是将设计推向更高高度的复制者，而我必须要问，我们已经将设计推到极限了吗？如果我们已经将设计推向其终极，那么在这个时代，这意味着什么？我认为它意味着，设计那些本身能够设计事物的东西。这就是我们所处的阶段，这就是我们正在做的事情。我们正在尝试做 AI，我们正在尝试设计那些本身能够设计的东西。

所以最终的视角是，人类是催化剂、助产士、先驱者，我们履行了宇宙第四个伟大时代——设计时代的使命。这是一个重要的、伟大的角色。而我对这一切最终的总结是，这十年的 AI，人类数据的时代，进展非常顺利。