[Notes] Tesla CVPR2021 Workshop

Link:

上周五，Youtube上搜特斯拉之前的技术讲座的时候才发现，Andrej 在 CVPR 2021 的 Workshop 上做了一些新进展的介绍，于是就点进去学习学习了：

Andrej Karpathy (Tesla) - CVPR 2021 Wo…

我关注的是两个问题：

相比之前的技术方案，有没有路线层面的变化？
有没有解释下 Elon 说扔掉毫米波的决策依据？

好在视频里面都有。

Q1 相比之前的技术方案，有没有路线层面的变化？

和之前的一些信息相比，似乎还是保持了一致的节奏，没有出现路线层面的变化。

几个我关注到的点：

依然是主力 Vision：依靠 Lidar + HDMap 的方案成本较高、通用性不足、长期维护问题难以解决。
8相机保持了 36Hz 的速度。这和我之前 https://zhuanlan.zhihu.com/p/377643912 里面说的有点贴近，从技术角度来看，低像素高帧率的相机是更加务实的选择。如果上好几个 4K 分辨率，算力、带宽都是瓶颈。
数据要数量多、质量好、覆盖长尾。当然，这其实是一句废话，大家都知道。只不过特斯拉是踏踏实实在用这个标准采数据。
提了下 Auto Labeling，基本思路是：依靠专家模型，更加复杂的离线算法，多传感器，前后时序关系， 还有人工验证与调整 。
数据收集这块，依靠 200+ 的 trigger，slides里面举了例子（16:00的位置上），算是利用车上传感器、司机，各种脑洞。
Data Engine这块，业界公认思路：不断的进行数据迭代。不过呢，特斯拉真的有几百万量车在路上跑着，利用上面的那些 trigger 采集数据。
网络结构这块不罗嗦了，一般反而是DL外行喜欢第一时间找网络结构看一下，似乎结构才是解决问题的关键（然而，并不是）。
算力平台就是凸显我很牛逼、算力强，没有介绍细节，应该也不是 Andrej 本人的强项。不过实际上，超算里面带宽、线路设计、硬件配置如果要用满性能都是要经验的（不过，这块我基本也是白丁，只能 no comments）。
FSD computer 几句话着重的都是部署操作：算子合并、int8、编译器。比较常规，也没说 QAT 有没有精度衰减。
技术栈要全打通 ：Tesla 自己造车、自建超算、自己搞车载平台、自己研发、自己的（用户）车队采集，这样的整合能力是其他任何厂商目前都不具备的。讲真，这也不指望国内厂商能搞得定，能自建千把张卡的集群、用 NV 的车载硬件、能像图商一样有个车队全国满地采数据就不错了。

Q2 有没有解释下 Elon 说扔掉毫米波的决策依据？

举了几个例子，指出毫米波的问题：

首先承认毫米波是很准的。但是前提是在稳定追踪到目标的情况下，否则一样会有突变。
毫米波在高度上的分辨率不足，空中的障碍物即使没有接地，不影响行车，也是分辨不出来的。
毫米波 False Pos 比较多，一根棍子和一辆车在毫米波看来都是一样。需要融合视觉来确认，这个本身也会带来延迟。

这些例子指出的问题都存在。早几年前我也看过雷达厂商宣传新一代毫米波，分辨率也不低了，不过这是宣传，可能还要打个折扣。而且毫米波的特性，低速场景下噪点也容易变多。

当然，这些例子也可能是 cherry-pick 出来的。反过来，通过 Radar 补充视觉成功的例子也一样可以挑出来很多。

要注意，后面 Andrej 是强调了的，depth sensing 本身难度很大、对数据的要求很高，想玩这个，得先照照镜子。

我的几个民科(aka 不负责任)观点

1. Self-supuervised learning

模型在现实世界中，可以认为就是个 few-shot learning，毕竟长尾问题很难解决。SSL 的好处是可以相对低成本的学习通用特征，而且 SSL 在 few-shot learning 的领域已经超过了监督学习了。
不过随着数据量的增加，SSL 的效率可能依然不够，算力可能浪费不少在已经学习的不错的数据上了，怎么挑选数据是个大问题。这个其实在监督学习上也一样，数据量增多后，怎样提升数据效率是个必须面临的问题。无脑增加数据的边际效用会越来越小， data efficiency 在数据建设这个支柱方向上会凸显。

2. 主机厂目前在 AI 这块的研发还有很大提升的空间

目前国内的主机厂可能因为技术演化路径的原因，没有 AI 方面的人才梯队，从零开始建立要付不少学费，钱倒好说，弯路走到坑里的话，机会成本就太大了。而且由于热点的原因， AI 的研发需要长期的高投入，人工费用不低，相比主机厂的省钱风格，可能未必符合企业文化。
国内主机厂也做惯了集成商，从零开始搞研发还是很反文化的。这个可能还是要天时地利人和以及战略决心。不过目前互联网有人才溢出现象，大家都焦虑、脑子正常的也没人喜欢卷，主机厂从这个角度入手，对互联网搞 AI 的同学还是有一定吸引力的。

3. 很多公司 Roadmap 很激进，技术方案偏保守

这是一种很滑稽的场面。从务实的角度来说，技术路线激进一点，roadmap 保守一点，这样达到目标的概率更大一点。结果现在的风气可能是：一年时间量产，具体技术方案还是按照之前的老一套。而如果按照之前的老方案，又显然做不到一年量产，看起来就是自己戳自己，很矛盾。不过这已经不仅仅是技术范畴的事情了，随它去吧。

4. 在目前阶段想要量产，主视觉是相对务实的技术线路

作为工程师从技术角度上看，肯定觉得应该车身上插满传感器，别说盲区，甚至每个角度都有冗余。但是这样子的方案要走量产，嗯…
Radar、Lidar本身也一样有问题。尤其是加上量产这个限制（年产量起码1万，正经量产车都是月产1万；交给用户使用；半年才能去一次4s，还要考虑4s也有改造成本的可能性），问题更多。
说安全问题，就先用视觉+毫米波把光线好的高速、快速路的场景全覆盖了，用户偶尔接管下。这总和 Lidar 没多大关系吧，这要是都搞不定，就凭这样的感知能力，加 Lidar 也搞不定城区啊。

K.I.S.S