【原创研究】基于特斯拉看大模型对自动驾驶带来的影响

Original Research

2023/11/26高级分析师张家祺📖 约 7 分钟阅读

自动驾驶作为人工智能的重要应用场景之一，其技术体系亦主要由算法、算力、数据组成，其中，算法的架构又包括感知、决策、执行。在AI发展遇到奇点，大模型快速迭代的过程中，其对自动驾驶带来了哪些方面的影响？

感知层以Transformer为代表的大模型是自动驾驶算法的重要发展方向，Transformer基于一维卷积和注意力机制设计，拥有出色的并行计算能力，因此在NLP领域快速发展，替代了RNN在NLP中的地位，并逐渐被引入计算机视觉（CV）领域。特斯拉已宣布将Transformer引入自动驾驶系统中，用于优化感知智能和认知智能。

Transformer在自动驾驶领域的突出表现，与其2大特性相关：

◎ 大规模数据训练：当使用大规模数据集进行训练时，CNN性能所带来的收益会随着数据的增加逐渐出现饱和，而 Transformer的饱和天花板更高。自动驾驶属于需要使用大规模数据集训练的场景，Transformer更有优势。

◎ 高鲁棒性、强泛化能力：面对图像的扰动、遮挡等情况，Transformer 具备很强的鲁棒性和泛化性。而CNN由于过于依赖局部信息，从而导致一定程度的不可靠性， Transformer 依靠多头注意力机制能够更好地处理这类问题。

同时Transformer具备强大的序列建模能力、全局信息感知能力，因此在感知过程中的多模态融合方面具备较大优势，使其能捕获全局信息从而对目标建立远距离的依赖，并提取出更强有力的特征。

◎ 序列建模能力：序列建模能力指让 AI 模型处理序列数据，预测接下来的情况。相比于 RNN，Transformer凭借其注意力机制拥有较强的长序列建模能力，所以更容易捕捉到全局信息。通过将视觉领域的信息从时间和空间维度划分为序列数据，就可以更好的在CV中发挥Transformer的优势构筑全局信息。

◎ 全局信息感知能力：Transformer基于多头注意力机制可以同时感知到输入序列的全局信息，Transformer从输入开始之后的每一层结构中都可以看到所有的信息，并建立基本单元之间的关联，因此Transformer能够处理更加复杂的问题。

基于Transformer在“空间-时序”维度上的强能力，特斯拉等行业龙头通过Transformer 在感知端得到提升。

在大部分厂商坚持多传感器融合的背景下，特斯拉坚持第一性原理，通过视觉方案构建L4级别自动驾驶能力，与大模型的发展亦密不可分。特斯拉通过多种模型分别实现特征提取、多摄像头融合、时序特征提取、多任务联合学习等功能，进而组合形成感知网络。近年来，特斯拉等自动驾驶技术能力排名前列的厂商越来越多的在感知算法层面采用神经网络模型，其整体模型主要分为四大部分，每部分均采用深度学习相关模型构建：

◎ 图像特征提取：主干网使用RegNet对单传感器采集到的原始图像进行分级处理，提取图像的多层次特征，而后使用BiFPN模型对多层次特征进行融合。

◎ 多摄像头融合：使用Transformer网络对多摄像头数据进行融合以构建周围环境的矢量空间，实现图像数据从Image space到Vector space的转换（特斯拉的Transformer神经网络能够同时接收8个摄像头的数据输入，不仅能有效提升矢量空间数据集精度，提升了模型训练速度，还能产生更具可解释性的模型）。

◎ 时序特征提取：利用RNN提取时序特征，将时间维度加入周围环境的矢量空间，基于过往发生的经验来处理任意时序的输入序列，预测环境物体即将发生的动作，例如行人是否要过马路。

◎ 多任务联合学习：构建了带有时间标记的周围环境矢量空间后，不同任务可以利用矢量空间数据开展学习任务，例如车道线检测等。

同时，在此基础上融入定位感知，包括GPS、惯性导航、SLAM 等，在构建好周围环境的时空模型的基础上，实现车辆自身实时定位。大模型的多模态使得自动驾驶能够更好的构建周边的时空环境，建立4D数据，为决策提供更好的依据。

决策层决策层是自动驾驶系统中难度极高的部分，需要高效的AI模型和大量训练数据。在复杂多变的场景中，决策系统需要预测本车及相遇的其他车辆、车道、行人等在未来一段时间的状态，且不同人对不同情况所做出的驾驶策略也有所不同，因此决策算法的优化需要高效的人工智能模型和大量的训练数据，以覆盖各种各样的长尾场景。而大模型使得长尾场景的覆盖变得更为可行。由于人工智能的细分场景和细分应用过多，传统开发模式下针对每一个特定场景都需要定制一套全新算法，行业开发工作冗余、效率低且成本高。大规模预训练模型能够解决以上痛点，成为重要发展趋势，在谷歌、特斯拉等国际巨头中形成共识，即先使用海量数据预训练大模型，得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练；在特定领域落地时，通过大模型蒸馏出小模型，大幅降低对新场景中数据量的需求，使得模型小样本学习能力和泛化能力大幅提升。从业界大模型参数量来看，目前全球多家人工智能实验室和巨头均在持续提升大模型的规模。通过压缩大模型批量化生产小模型的方式能生产大量的、覆盖不同场景的模型，无需针对每个场景都单独定制生产，提高各个行业的AI模型生产效率。

数据层深度学习的理论基础保证了当输入数据量足够大时，深度神经网络能够逼近任意的函数，且样本数越多，模型越能够收敛至数据背后的真实函数，因此数据要素是深度学习的核心，未来较长时间内数据积累都将是自动驾驶核心竞争点。特斯拉的性价比策略推动车辆销售放量，获得海量数据积累，行驶在道路上的每辆特斯拉都是“数据收集器”，通过车载摄像头收集数据并上传云端，形成庞大且真实的自有数据池。数据输入自建的神经和大脑——自研芯片及自动驾驶算法，实现软硬件的同步优化。Autopilot 的“影子模式”完成该学习闭环，在“影子模式”下，自动驾驶电脑进行实时同步计算，但不参与车辆控制，影子模式下若用户驾驶行为与 Autopilot 的决策对比不一致，该场景数据将会被传回云端，进行算法修正。“影子模式”针对corner case搜集大量类似案例数据进行修正。初始的自动驾驶神经网络模型被送到车端后，庞大的车队开始进入试用阶段，自驾神经模型开始以各种模式开始运作，使得云端的自动驾驶神经网络模型得到快速锻炼和修正。但“影子模式”导致对云端做标记的算力和人力要求大幅提升，需要提高数据闭环自动化比例。否则，非结构化数据依赖大量人工标注，将限制自动驾驶系统模型质量的上限。因此使用无需标注的无监督学习对提升模型效果、降低训练成本至关重要。而Transformer通过无监督预训练，大幅提升了预训练模型的性能。在使用大规模数据集进行预训练时，Vision Transformer训练效果明显优于CNN模型。谷歌发表论文Scaling Vision Transformers1显示，Vision Transformer 的参数量已经达到 20 亿之多，经过在 30亿规模数据集上的训练，其性能达到了业界最高水准。特斯拉通过自研的离线数据自动标注和自动训练框架（Operation Vacation），实现无人工干预的识别网络。将对应物体的识别网络的设计、训练、测试和放入 Data Engine 平台的相关工作，系统直接对其进行操作，无需外部人工干预。不同图像的识别标记任务虽然是独立的，但是其中具备大量性质相同的处理流程和环节，可以直接调用上游任务识别的原型。因此，特斯拉自动驾驶团队可以将大部分的工作交给Data Engine 和大量已经存在的 Prototype 来处理，而优化和参数调优，也放在大循环内执行，人工只进行极少的干预，且只会在模型训练效果差、无法收敛等异常状态下发挥作用。通过自动数据标注等全套流程，特斯拉实现 FSD 模型能力的不断进化。特斯拉通过基于海量的道路视频信息进行无监督学习，将结构化的、语义的道路信息用来训练 autopilot；结合基于视觉的自监督学习，进行视觉信息基础上的深度信息推断；根据历史信息对未来进行预测。基于“自动驾驶神经网络模型-大量数据-数据处理-云端数据训练”的闭环，特斯拉实现 FSD 模型能力的持续进化。

阅读原文 →

Research

返回原创研究

【原创研究】德州扑克离被AI攻克还有多远？

【原创研究】天衣无缝的投资陷阱？有迹可循的产品风险！