问题

自动驾驶最核心的技术是什么?

回答
谈到自动驾驶,人们脑海中浮现的往往是未来感十足的汽车在道路上无缝穿梭的画面。但在这背后,究竟是什么在驱动这一切?如果要我 pinpoint 自动驾驶最核心的技术,我会毫不犹豫地说:

环境感知与理解。

这就像是为一辆汽车赋予了“眼睛”和“大脑”,让它能够看懂周围的世界,并做出正确的判断。没有了它,再强大的规划和控制系统也无异于空中楼阁。

我们不妨把它拆解开来,看看它究竟包含哪些关键的要素:

1. “眼睛”的进化:多元化的传感器系统

自动驾驶汽车需要全方位、无死角地“观察”世界。这就需要多种不同类型的传感器协同工作,每一种都有其独特的优势和局限性,就像我们人类使用视觉、听觉、触觉来感知一样:

摄像头 (Cameras): 这是最直观的感知方式,也是目前应用最广的传感器。它们就像汽车的“眼睛”,能够捕捉到丰富的视觉信息,比如车道线、交通标志、行人、其他车辆、甚至是障碍物的颜色和纹理。
优势: 分辨率高,能够识别细微特征,成本相对较低。
挑战: 对光照变化(强光、弱光、雨雾)敏感,难以直接测量距离(需要立体摄像头或结合其他传感器)。
技术细节: 图像识别、目标检测、目标跟踪、语义分割(区分不同物体类别)等计算机视觉技术是摄像头工作的核心。深度学习模型(如CNN、Transformer)在其中扮演了至关重要的角色,能够从海量图像数据中学习复杂的模式。

激光雷达 (LiDAR Light Detection and Ranging): LiDAR 通过发射激光束并测量反射回来的时间来感知距离。它能够生成高精度的三维点云图,清晰地描绘出周围环境的几何形状。
优势: 测距精度高,不受光照影响,在黑暗、雨雾等环境下表现更稳定,能够直接构建环境的三维模型。
挑战: 成本相对较高,在极度恶劣天气(如大雪)下性能会下降,对反射率低的物体(如黑色轮胎)感知能力可能减弱。
技术细节: 点云处理、点云分割、目标识别(从点云中识别出车辆、行人等)是 LiDAR 的核心技术。

毫米波雷达 (Radar): Radar 发射无线电波并接收反射信号,能够探测物体的距离、速度和角度。
优势: 在恶劣天气(雨、雾、雪)下性能稳定,能够直接测量目标的速度(多普勒效应),成本相对较低。
挑战: 分辨率相对较低,难以区分细小的物体或复杂的场景,容易受到金属物体的干扰。
技术细节: 信号处理、目标跟踪、多普勒测速是 Radar 的核心。

超声波传感器 (Ultrasonic Sensors): 主要用于近距离探测,如泊车辅助。它们通过发射声波并测量回声时间来计算距离。
优势: 成本极低,在近距离探测障碍物(如路缘石、墙壁)方面非常有效。
挑战: 探测距离非常有限,易受环境噪声影响,对远距离物体或快速移动物体感知能力弱。

2. “大脑”的运转:数据融合与理解

仅仅拥有“眼睛”是不够的,更重要的是如何将这些眼睛看到的信息整合起来,形成一个连贯、准确的对周围环境的理解。这便是传感器数据融合和环境理解的范畴。

传感器数据融合 (Sensor Fusion): 将来自不同传感器的原始数据进行整合、关联和校准,消除冗余信息,弥补单一传感器的不足,从而生成一个更全面、更准确的环境模型。
技术挑战: 如何在时间和空间上对齐不同传感器的数据?如何处理传感器之间可能存在的误差和冲突?如何在保证实时性的前提下完成复杂的融合计算?
常见方法: 卡尔曼滤波 (Kalman Filter)、粒子滤波 (Particle Filter)、基于深度学习的融合方法等。

环境理解 (Environmental Understanding): 这是数据融合的最终目的。它包括:
目标检测与识别 (Object Detection and Recognition): 准确地找出场景中的所有物体(车辆、行人、自行车、交通标志、交通信号灯等),并识别它们的类别。
目标跟踪 (Object Tracking): 连续地追踪已识别目标的运动轨迹、速度和方向。
场景分割 (Scene Segmentation): 将图像或点云划分为不同的区域,例如可行驶区域(道路)、不可行驶区域(人行道、草地)、障碍物等。
语义理解 (Semantic Understanding): 不仅仅是识别物体,更要理解物体的意图和行为。例如,识别出前车正在变道,或者行人正要过马路。
建图与定位 (Mapping and Localization): 结合高精度地图(HD Map)和自身的感知信息,精确地确定车辆在地图上的位置和姿态(即“我在哪里”)。这涉及到SLAM (Simultaneous Localization and Mapping) 等技术。

为什么环境感知与理解是核心?

我们可以把自动驾驶比作一个医生给病人看病。

规划与决策 (Planning and Decision Making): 就像医生诊断病情,决定用什么药。它需要基于对当前环境的理解,来规划行驶路径、决定何时加速、刹车、变道等。
控制 (Control): 就像医生开出药方后,护士执行注射或服药。它负责将规划指令转化为具体的车辆动作,比如控制油门、刹车、转向。

如果医生连病人的症状都诊断不清楚,或者病人身上有什么病变都不知道,那么无论他的医术多么高超,开出的药方(规划)和执行的治疗(控制)都可能是错误的,甚至危及生命。

同样,如果自动驾驶汽车连周围有行人、有障碍物都感知不到,或者对交通信号灯的指示理解错误,那么它后续的规划和控制就会出现灾难性的后果。

总结一下:

自动驾驶的终极目标是安全、可靠地将乘客从A点带到B点。而实现这一目标的基础,就是能够像一个经验丰富的司机一样,甚至比人类司机更敏锐、更全面地“看到”和“理解”驾驶环境。

因此,环境感知与理解,涵盖了从传感器硬件到复杂的算法软件,是自动驾驶技术链条中最具挑战性、最关键的一环。它的任何一点疏漏,都可能导致整个系统的失败。随着技术的不断进步,我们看到传感器在精度、成本和鲁棒性上不断提升,而AI算法也在不断学习和优化,让自动驾驶汽车越来越“聪明”,越来越能胜任“看”和“理解”的任务。

网友意见

user avatar

观点:目前核心技术难点是“感知”

这里讲的是广义的感知,包括识别、融合和预测。

论据:

乘用车真正量产的自动驾驶现在大家都没有,讲点驾驶辅助的实际工程经验,供大家参考。

  1. 目前的客户抱怨主要集中在:
    AEB行人触发太晚——没有及时选中目标,因为摄像头对目标横向速度测量还不够准确;
    ACC不能良好应对切入车辆——传感器FoV不够,根本看不到切入的车辆;
    AEB或ACC误制动——雷达假目标过滤能力不够
    AEB工作速度上限过低——摄像头识别距离不够,不能仅依赖雷达做强制动
    ......
  2. 目前给“决策”打补丁的原因主要包括:
    车辆跟停以后无法起步——雷达假目标导致
    车辆跟停以后立刻起步——雷达和摄像头丢失目标导致
    在前方车辆切出之后自车加速晚——雷达释放目标过晚
    AEB偏置工况无法及时制动——目标横向速度和尺寸测量不够精确,需要额外加入安全余量
    ......
  3. 目前国内绝大多数自动驾驶创业公司讲故事靠什么?数据闭环。数据闭环了用来干什么?提高目标识别和预测性能。
    传统如Mobileye卖什么?目标识别。

综上,我认为是“感知”。

user avatar

将自动驾驶技术分为感知、决策、执行三个环节。

  • 感知:驾驶员的眼耳鼻等各个传感器,在接收着外界的信息,承担着感知的功能;
  • 决策:驾驶员的大脑根据感知的信息,决定进行加减速、转向等操作,承担着决策的功能;
  • 执行:驾驶员的神经、四肢,以油门刹车与方向盘作为人车交互的两大媒介,与整个汽车系统一起承担着执行的功能。

可以看到,有人认为“感知”最核心,有人认为“决策”最核心,究竟哪方更有道理呢

看下来之后,两方的主要分歧在于对“感知”这个概念的定义不同。

  • 狭义的感知:激光雷达、毫米波雷达、摄像头、超声波雷达、定位系统测量到的“0”、“1”数据传输给大脑。
  • 广义的感知:不仅测量,而且将测量到的“0”“1”翻译成对决策有意义的语言,比如“前方有行人”、“前方有模糊一片的东西,有30%的可能是障碍物”。

当我们看到桌子上“有一个苹果”,这不仅是眼睛的功劳,我们的大脑也在一瞬间完成了大量的运算工作。只不过,我们一般还是把“感知到有一个苹果”归功于眼睛,因此我们还是采用广义的感知概念

这样的话,我的观点如下:

  • 最核心的是感知
  • 提升决策能力,有助于降低感知需求

一、核心是感知

其实这和咱们开车的道理是一样的,在头脑清醒、不疲劳驾驶、开车稳当的情况下,大部分交通事故都来源于驾驶员的感知出了问题。例如进出隧道的光线变化、夜晚雨天的能见度下降、团雾带来的能见度突变等。

对自动驾驶来说,它在决策与执行时从来都是“头脑清醒、不疲劳驾驶、开车稳当”的。所以,只要感知不出问题,自动驾驶不一定能帮你把车开得多快、多好,但起码不会出问题。

或者说,如果感知的信息是全面的、确信的,那再去做决策与执行策略,就太简单了。我发现有朋友在讨论夹塞情况下的博弈问题:有人就敢赌你怕刮蹭去维修,而AI不敢,因而AI肯定是必输的

这是一个很好的观点,但并不全面。的确,AI在博弈的时候底牌要弱于强势的人类驾驶员,但自动驾驶的反射弧时间要远强于人类驾驶员

所以,将来AI实装了博弈策略之后,我们人类驾驶员不应太自信 ——AI的博弈策略可能会非常地“凶残且狡猾”,而且省去了反射弧的时间,人类驾驶员恐怕没有胜算。人类驾驶员的唯一胜算可能只是“底牌大”—— 人类驾驶员可以争一口气而让事故发生,AI不敢、没权利这么做。

二、提升决策能力有助于降低对感知的需求

前一段,试驾小鹏P5的城市NGP。众所周知,它在侧前方的感知非常灵敏,因为有2颗激光雷达:

所以,当它重点感知侧前方的物体来做决策时,就会显得非常果断。例如下面的躲避自行车并果断加速通过的动图:

试乘的十几公里的6次接管中,大部分情况都是“主动夹塞”失败! 也就是说,当侧前方的车辆向前移动时,P5可以实现灵敏地跟车并夹塞变道;但是,如果这时候侧后方车辆跟进博弈,抢占有利位置时,P5就会束手束脚。

我能明显感觉到:P5侧后方的“视力”远不如侧前方的“视力”——所以在夹塞变道时就不敢非常激进,从而导致失败。

第一种思路就是像威马M7一样,侧后方也加强感知能力:

第二种思路就是实装“近身肉搏策略”“预测规划策略",这都属于决策。

所谓近身肉搏策略,就是上面提到的博弈策略:例如,让车子突然挪个2厘米,观察侧后方车子的反应,根据反应再决定下一步动作。像AI没有反射弧,如果动静非常快,抖个几抖,可能就把侧后方的新手驾驶员给吓住了 ——这是什么人啊,反应这么快!

所谓预测规划策略,就是尽量避免这种情况的发生:仔细回忆一下,其实人类驾驶员遇到这种“主动加塞”的场景,也是非常尴尬的,有时候还要斗气;真正的老司机会怎么做,他会看得很远,尽量避免这种情况发生、或者在这种情况无法避免时,提前很远就进入一个有利的博弈位置。

两种思路都可以实现比较好的“主动夹塞”效果。这也就是为什么说:提升决策能力有助于降低对感知的需求。

user avatar

谢军火妹邀

最核心的技术是在技术之外,或者说基于技术所带来的产业变革中自己的位置。

这个问题我就来谈一些杂想吧,抛几个自己的和别人的观点,供大家思考。

上半年时候和大佬讨论战略材料的时候,大佬说做了这么久感觉自动驾驶真不能算是什么好方向,技术路线演进最后都趋同了,现在拼死拼活的,无非是自己把自己干失业,还是被别人把自己干失业。

提取一下这里面的关键词含义

  • 最终目标自动驾驶是可实现的;
  • 技术路线总会趋同的;
  • 我们这么拼死拼活是在拼什么?

基于可实现的最终目标自动驾驶这一假设,演进的技术路线其实很清晰,更强的感知,更强的算力,更复杂的算法,有效的数据闭环,持续而高效的仿真、测试、运营。不过显然现在距离最终目标需求的技术工具水平还有很大距离,那么最核心的能力就是有钱,更重要的是持续赚到钱。在自动驾驶硬件开始军备竞赛的现在,有钱这件事情对很多公司来说都不是问题,但是怎么持续赚到钱,用当下水平有限的软硬件水平,做出用户体验好的,愿意买单的产品,通过市场的成功,反哺技术上的开发,不停迭代进化达到最终目标。

而拼死拼活所拼的,其实最后是拼的是效率和成本,以及所谓的护城河——排他性资源。排他性资源本质,还是成本足够低或者效率足够高。现在泡沫期,可以不计成本的投入资源来达到目标,等技术上实现后,就要看怎么低成本的达到相同的目标了。这里面大头将是大运营,包含如何高效的数据回馈,如何快速而准确的仿真,如何低成本的快速测试验证,必要的人力怎么精准的投递。每件事展开都是繁杂的系统,有大量的工作需要探索。

不过回归本质,“有钱并赚钱”和“降本增效”,企业家看来是融资和经营的问题,投资人看是技术水平和估值的问题,打工人看呢是是哪个钱多和要怎么卷的问题,大道至简,无外乎是。

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有