WorldMem
1.《WORLDMEM: Long-term Consistent World Simulation with Memory》
1.1 概述
世界模拟通过建模虚拟环境并预测动作的后果,在自主导航、游戏引擎替代等领域具有广泛应用。
现有方法受限于有限的时序上下文窗口,难以维持长期一致性,导致场景重建时出现视角或时间跨度较大的不一致问题。
这篇论文提出了WorldMem框架,旨在解决现有世界模拟方法在3D空间长期一致性上的不足。
1.2 核心框架
WorldMEM包含一个集成了记忆块的条件扩散变换器(Conditional Diffusion Transformer, CDiT),并有一个专用的记忆库(Memory bank),用于存储先前生成内容的记忆单元。通过从记忆库中检索这些记忆单元,并结合记忆块中的信息来指导生成,确保了世界模拟的长期一致性。
首先初始化一个Memory Bank,用于存储后续生成的记忆单元,每一个记忆单元包含三个信息:视觉帧【当前生成的场景图像】,姿态【Pose,用于表示3D空间的位置和方向】,时间戳【记录生成帧的时间顺序】。
然后模型基于DiT(Diffusion Transformer)生成每一帧,生成时输入包括三部分:噪声潜变量【当前步的噪声】、动作信号【Agent的控制指令】、时间戳【当前帧的时间信息】
根据当前帧的姿态(Pose)和时间戳,从Memory Bank中检索最相关的记忆单元,并将检索到的记忆单元注入扩散模型,经过多次【N step】扩散去除噪声,输出当前帧的高保真图像。算法流程如下
1.3 我的想法
本文提出的WorldMEM框架, 通过利用过去帧和相关状态的记忆库,解决了在世界模拟中保持长期一致性的挑战。该框架的记忆注意机制能够精确重建先前观察到的场景,并有效地模拟随时间变化的动态变化。
传统的视频扩散模型存在上下文窗口限制的问题,这篇文章提出的WorldMEM将记忆机制与扩散生成相结合,通过姿态与时间感知的注意力机制实现了长期3D一致性,使得虚拟环境能够支持复杂的交互与动态变化。
这篇文章【arXiv 2025】内容新颖,我读它是想从中学习现在主流世界模型的框架,但是很多内容涉及到我的知识盲区,我没有刻意地深入探索,仅理解该框架的大致流程和整体逻辑,很多细节如后续需要再深入探究。
2.《Revisiting Feature Prediction for Learning Visual Representations from Video》
Meta 首席人工智能科学家 Yann LeCun 提出了一种新的架构JEPA,通过联合嵌入预测架构,在自监督学习中实现了高效、高语义的表征学习。Meta AI
这篇文章提出了V-JEPA(Video-Joint-Embedding Predictive Architecture)框架,是一种视频联合嵌入预测架构模型,通过自监督学习方法,预测抽象表示空间中视频的缺失部分。
2.1 核心思想
V-JEPA中有三个核心组件:上下文编码器(Context encoder)、预测器(Predictor)、目标编码器(Target encoder)构成。
其核心思想是通过随机采样抽取视频中的连续帧,并将这些连续帧进行遮掩,被遮掩的部分即为被预测的目标块,遮掩后的部分即为保留下来的上下文。需要注意的是这里的遮掩并不是像素级的遮掩,而是嵌入级的遮掩,是对图像编码后的嵌入空间进行遮掩,以此让模型学习更抽象的表征。
- 上下文编码器
上下文编码器用于处理上下文块,生成上下文块的嵌入。
- target encoder
目标编码器用于生成目标块的嵌入,参数通过上下文编码器的指数移动平均更新【EMA,Exponential Moving Average,一种平滑参数更新策略,目标编码器参数变化缓慢,避免与上下文编码器同步快速更新导致模型崩溃】(可以理解为一种更平滑的参数更新方法)
- predictor
预测器是基于上下文嵌入和位置标记,预测目标块的嵌入。
- loss
预测嵌入与目标嵌入的L2距离,优化上下文编码器和预测器参数,目标编码器通过EMA更新。
2.2 我的想法
JEPA的核心思想非常简洁,通过精心设计上下文块和目标块,以及上下文编码器、目标编码器和预测器,通过减少预测器的表征与目标编码器的表征之间的差异,从嵌入空间而非像素空间的层面学习更抽象的表征。
V-JEPA的思想与I-JEPA非常相似,区别在于前者是针对视频遮掩部分的预测,后者是图像遮掩部分预测,但是本质上都是图像的预测。
JEPA架构归为世界模型的类别,世界模型旨在学习外部世界抽象的内在表征,通过对过去的观察和潜在的动作来模拟和预测未来,与JEPA从单个上下文块预测同一图像中多个目标块的表示,学习抽象语义特征表示非常相似。
3.PGD
PGD攻击(Projected Gradient Descent,投影梯度下降)是一种白盒对抗攻击方法,常用于生成能够欺骗神经网络模型的对抗样本。
算法思想如下
可以理解为PGD攻击是多次迭代FGSM,并将结果投影到合理的范围。
受到 I-JEPA 的启发,我尝试采用ViT模型将图像编码,再沿着梯度上生的方向生成对抗样本,结果如下
与上周尝试的FGSM不同,本次实验是在CIFAR-10数据集上测试,图像从单通道的手写数字变成了多通道的RGB图片,且攻击轮数从一轮变成了多轮。
该实验旨在了解对抗样本的生成方法,学习如何用pytorch实现深层神经网络。
下周将系统地调研对抗样本生成与使用场景,并结合代码深入理解对抗样本攻击的效果,在去基地之前打好基础,争取暑假可以快速上手科研之路。









