RAD：通过基于大规模 3DGS 的强化学习训练端-到-端驾驶策略

《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》

25年2月来自华中科大和地平线的论文

现有的端到端自动驾驶（AD）算法通常遵循模仿学习（IL）范式，这面临着因果混淆和开环差距等挑战。在这项工作中，我们建立了一个基于3DGS的闭环强化学习（RL）训练范式。通过利用3DGS技术，我们构建了真实物理世界的逼真数字复制品，使AD策略能够广泛探索状态空间，并通过大规模的试错来学习处理超出分布的场景。为了提高安全性，我们设计了专门的奖励，指导政策有效应对安全关键事件，并了解现实世界的因果关系。为了更好地与人类驾驶行为保持一致，IL作为正则化术语被纳入RL训练中。我们引入了一个闭环评估基准，由各种以前从未见过的3DGS环境组成。与基于IL的方法相比，RAD在大多数闭环度量中实现了更强的性能，特别是碰撞率降低了3倍。

核心问题与动机

现有方法的局限
- 模仿学习（IL）主导：当前端到端自动驾驶（AD）主要依赖IL，但存在两大缺陷：
  - 因果混淆（Causal Confusion）：IL仅学习状态-动作的相关性，难以捕捉真实因果逻辑（如误将历史轨迹作为决策依据）。
  - 开环-闭环鸿沟（Open-Loop Gap）：开环训练无法模拟闭环部署中的误差累积，导致分布外（OOD）场景鲁棒性差。
- 仿真瓶颈：传统仿真器（如CARLA）渲染效率低且真实性不足，难以支持大规模RL训练。
RAD的解决方案
提出首个基于3D高斯泼溅（3DGS） 的闭环强化学习框架，通过构建逼真的数字孪生环境，实现安全、高效的端到端AD策略训练。

关键技术创新

1. 3DGS驱动的闭环RL训练范式

环境构建：从真实驾驶片段重建4305个高风险的3DGS场景（3968训练/337测试），支持实时交互与逼真渲染。
优势：
- 允许策略通过大规模试错探索状态空间，学习处理OOD场景。
- 规避实车训练的安全风险与成本问题。

2. RL与IL协同优化

混合训练机制：
- RL目标：通过奖励函数增强对安全关键事件（碰撞、偏离）的敏感性。
- IL正则化：引入IL损失作为正则项，确保驾驶行为与人类对齐，避免RL探索导致的动作不连续。

三阶段训练流程：

阶段	目标	更新模块
感知预训练	学习地图/交通参与者表征	BEV编码器、地图/Agent Head
规划预训练	IL初始化动作分布	图像编码器、规划Head
强化后训练	RL+IL协同微调策略	图像编码器、规划Head（其余冻结）

3. 高效动作空间设计

解耦离散动作：
- 横向动作 axax（转向）：61档位（-0.75m至0.75m）。
- 纵向动作 ayay（速度）：61档位（0m至15m）。
简化动力学模型：假设0.5秒内匀速运动，降低动作维度，加速RL收敛。

4. 奖励函数设计

四元奖励机制：
```
\mathcal{R} = \{r_{\text{dc}}, r_{\text{sc}}, r_{\text{pd}}, r_{\text{hd}}\}
```
- 动态碰撞（rdcrdc）：与移动障碍物重叠。
- 静态碰撞（rscrsc）：与静态障碍物（3DGS高斯模型）重叠。
- 位置偏离（rpdrpd）：偏离专家轨迹>2.0m。
- 航向偏离（rhdrhd）：航向角偏差>40°。
提前终止：任一事件触发回合终止，避免噪声干扰。

5. 稀疏奖励优化：辅助目标函数

核心思路：将稀疏奖励分解为密集的纵向/横向辅助损失，约束全动作分布。
动态碰撞辅助：根据碰撞方向调整加速度（前撞减速，后撞加速）。
静态碰撞/轨迹偏离辅助：根据障碍物位置或轨迹偏差调整转向。

最终损失：

\mathcal{L}(\theta) = \mathcal{L}^{\text{PPO}}(\theta) + \lambda_1 \mathcal{L}_{\text{dc}} + \lambda_2 \mathcal{L}_{\text{sc}} + \lambda_3 \mathcal{L}_{\text{pd}} + \lambda_4 \mathcal{L}_{\text{hd}}

实验验证

1. 评估基准

数据集：2000小时真实驾驶数据，自动标注地图/交通参与者。
指标：
- 安全性：碰撞率（CR）、动态碰撞率（DCR）、静态碰撞率（SCR）。
- 轨迹一致性：偏离率（DR）、平均偏离距离（ADD）。
- 平滑性：纵向/横向加加速度（Jerk）。

2. 关键结果

RL-IL比例消融（表1）：
- 纯IL：CR=0.229（安全性差），ADD=0.238（轨迹一致性好）。
- 纯RL：CR=0.143（安全性提升），ADD=0.345（轨迹一致性下降）。
- 最优混合（4:1）：CR=0.089（↓61%），ADD=0.257（平衡安全性与一致性）。
奖励函数消融（表2）：
- 移除动态碰撞奖励 → CR升至0.238，验证其对安全性的关键作用。
SOTA对比（表4）：

方法 CR DCR ADD
VAD [17] 0.335 0.273 0.304
GenAD [49] 0.341 0.299 0.265
RAD 0.089 0.080 0.257
- 结论：RAD在CR上超越IL方法3倍以上，且保持低ADD。