NO-HDMap 传统归控方案面对的问题

最近我接收到新的任务：如何将 AI 技术在规控上进一步利用。首先还是调研现有算法及其缺陷。以下是一些开放性问题的零散想法，目前还没有系统化。

讨论的主要范围：

规划
预测

对于具体的控制指令，我个人观点没有太大必要引入 DL 技术：本身有比较成熟的数学模型、确定性强，而且和底层的一些控制系统相关，属于关键基础设施。

依赖 HDMap 与否带来的方案基础变化

显然，丢弃 HD 是一个确定性的目标。由于之前的传统方案以 HDMap 作为基础，这一前提实际上降低了不少规划上的难度。不少厂商希望等待 HD 覆盖后再接入，其实是比较取巧的方案，将不少的责任和成本直接推给了图商。图商对于 HD 一些宣传的小时级甚至实时更新，本身就有成本过高和技术可行性的问题，部分场景下的精度也会有衰减问题。

传统归控可能的变化范围：

对于白名单障碍物的避障，基本可以复用，当然进一步引入模型也可以。
静态的路径规划，变化较大，有可能需要推翻一部分，由于失去了 HD，所谓的 Reference Line 只能来源于感知结果，变得很不可靠，传统方案没有能力去 cover 这块带来的噪音。
未知障碍物，无论有没有 HD，本身都需要解决，不过不用 HD 后这个需求变得更加明显。

感知结果的不确定性

这个前提是必然存在的，目前阶段，感知可以大致的区分两个方向任务：

动态任务：所有的障碍物，行人、汽车等等。
静态任务：所有的静态元素，包括路线、标志、灯、地面。

传统的归控算法已经接入了动态任务的感知结果。当然，也不可避免的有各种不确定性、噪音带来的问题。起码本身就已经考虑这些问题了。

静态任务上，很多公司都是比较强依赖 HD，不需要考虑地图不可靠这个问题。然而，丢弃 HD 后，这个问题直接暴露出来。依赖 HD 的传统归控技术栈，瞬间无法支持。控车结果可以直接用无头苍蝇来形容。

如何应对静态任务感知结果的不确定、缺失的问题，这是需要解决的核心问题。

Freespace 的必要性（or Occupancy Network）

丢弃 HD 后， Freespace (FS) （or 可行驶区域 or Occupancy Network），本身就变成了一个比较显著的需求。

由于没有 HD，所有的地图如果需要依赖纯感知，就带来一个绝对无法避免的问题：感知并不能保证 360 度都能够提供 HD 级别的信息。需要有一个功能提供一个没有 HD 级别信息后，规划上的一个更加宽松的 bound 。

对应的，新的归控算法必须能够适应更加宽松的 bound 带来的不确定性，以及，宽松和严格之间切换的平滑性。

预测和规划的一体性

预测、规划这两个任务有不少的共性。一个是规划本车，确定性更大，预测则是规划他车，但是由于未知意图，确定性要小。不过从模型的角度，两者有很多通用的地方。

如果有不错的结合，这两个任务之间应该有互相助益的可能性。起码目前阶段，我个人来看，这俩应该会通用很多技术。

隐式信息的利用

即使使用了 FS，这个功能本身也是显式定义的。实际的规划中，可能是要用到很多隐式的信息。如果涉及的信息都要人工显式的增加功能，成本反而更加高。

对于规控的训练数据来源，用户 or 车队是最大的来源，这些数据的成本是相对比较低的，这提供了一个很不错的机会去学习一些隐式的特征。隐式特征的学习需要数据量的保证，而低成本的采集，给这个可能性提供支持。

感知 Raw feature 的引入

按照架构，规控的数据来自于融合后的结果，带来主要的问题是：

只有显式信息
感知的结果的不确定和噪音
融合为了平衡感知结果带来的延迟

Raw feature 如果可能引入，起码有助于第一点，提升隐式的学习能力。

感知的不确定如果融合依然不能很好的cover，或者，感知的显式任务无法支持规控场景，那么使用结果级的数据作为规控输入还是不能解决问题。Raw feature 训练后的模型对隐式特征的分析结果也可能会对下一步的感知任务有启发。

引入 RL 可能性 or 使用时机？

从目前可选的技术上来看，RL 引入应该是一个必然的方向，交通场景也是一个 rule based 的 game，不过规则比较松，结果会死人。只是可能现有的实用 RL 的一些阻碍还存在，大部分都集中在模拟环境上。

但是 Chat GPT 本身使用的 RLHF 可能对一些问题有启发：

如何利用好安全员车队。
应对车辆规划的主观性。
Close loop 测试的复现性问题。

K.I.S.S