南大俞扬深度解读：什么是“世界模型”？

2024-02-28 20:02 点击：

　　随着媒体狂炒Sora，OpenAI的介绍材料中称Sora是「world simulator」，世界模型这个词又进入视野，但很少有文章来介绍世界模型。

　　这里回顾一下什么是世界模型，以及讨论Sora是不是world simulator。

　　当AI领域中讲到世界/world、环境/environment这个词的时候，通常是为了与智能体/agent加以区分。

　　该论文中并没有定义什么是World models，而是类比了认知科学中人脑的mental model，引用了1971年的文献。

　　到这里还是说得云雾缭绕，那么论文中的结构图一目了然的说明了什么是一个world model。

　　图中纵向V-z是观测的低维表征，用VAE实现，水平的M-h-M-h是序列的预测下一个时刻的表征，用RNN实现，这两部分加起来就是World Model。

　　看到上面这张图可能会想，这不是所有的序列预测都是world model了？

　　其实熟悉强化学习的同学能一眼看出来，这张图的结构是错误（不完整）的，而真正的结构是下面这张图，RNN的输入不仅是z，还有动作action，这就不是通常的序列预测了（加一个动作会很不一样吗？是的，加入动作可以让数据分布自由变化，带来巨大的挑战）。

　　那么，强化学习里不是有很多model-based RL吗，其中的model跟world model有什么区别？答案是没有区别，就是同一个东西。Jurgen先说了一段

　　基本意思就是，不管有多少model-based RL工作，我是RNN先驱，RNN来做model是我发明的，我就是要搞。

　　没有完全在model中训练RL，实际上并不是model-based RL的model有什么区别，而是model-based RL这个方向长久以来的无奈：model不够准确，完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。

　　RL一边从线行），一边从model中学习（第5行），以防model不准确造成策略学不好。

　　可以看到，world model对于决策十分重要。如果能获得准确的world model，那就可以通过在world model中就反复试错，找到现实最优决策。

　　了解因果推理的同学会很熟悉反事实推理这个词，在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯，最下层是「关联」，也就是今天大部分预测模型主要在做的事；中间层是「干预」，强化学习中的探索就是典型的干预；最上层是反事实，通过想象回答what if问题。Judea为反事实推理绘制的示意图，是科学家在大脑中想象，这与Jurgen在论文中用的示意图异曲同工。

　　到这里我们可以总结，AI研究人员对world model的追求，是试图超越数据，进行反事实推理，回答what if问题能力的追求。这是一种人类天然具备，而当前的AI还做得很差的能力。一旦产生突破，AI决策能力会大幅提升，实现全自动驾驶等场景应用。

　　simulator这个词更多出现在工程领域，起作用与world model一样，尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组，但意思不变。

　　Sora生成的视频，仅能通过模糊的提示词引导，而难以进行准确的操控。因此它更多的是视频工具，而难以作为反事实推理的工具去准确的回答what if问题。

　　甚至难以评价Sora的生成能力有多强，因为完全不清楚demo的视频与训练数据的差异有多大。

　　更让人失望的是，这些demo呈现出Sora并没有准确的学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处 [ OpenAI 发布文生视频模型 Sora，AI 能理解运动中的物理世界，这是世界模型吗？意味着什么？ ]

　　我猜测OpenAI放出这些demo，应该基于非常充足的训练数据，甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一篇：人会抖腿机器人不会
下一篇：江苏仪征：政务服务“政府自评”变“大众点评”