起首:次世代车研所
站群论坛11月7日-8日,2024中国汽车软件大会在上海嘉定召开。百度智能云自动驾驶决策众人徐征发扮演讲。
以下内容为现场发言实录:
尊敬的诸君指令、诸君宾客,亲爱的同仁们,寰球下昼好!
相称安逸能有这么一个契机和寰球全部来分享百度智能云在汽车行业昔日一年来的一些探索和践诺,百度行为国内最早布局智能云和自动驾驶的企业,咱们一直积极地向行业输分娩物、时间和办事,鼓动汽车智能化的快速发展。在昔日一年中,在汽车智能化的大方朝上咱们可以看到有计划最多的是大模子上车,第二个是端到端的自动驾驶,诚然到现时为止,端到端在量产车辆上数目还相称少,然则咱们可以确定的说端到端仍是被以为是个行业共鸣的自动驾驶的时间阶梯。在端到端研发,包括在分模块的算力、数据包括用具链齐发生了一些比拟大的变化。在昔日一年百度亦然在积极探索和开发,围绕端到端自动驾驶的这么一个基础平台。
是以今天我念念给寰球分享的题目就叫作念《云智一体 助力自动驾驶时间的材干普及,开启自主可控的新范式》。底下咱们看一下,这个是从一个玄虚的角度来先容一下咱们百度智能云自动驾驶科罚决策的一个全景框架。在底层的话其实是咱们的公有云、独有云、旯旮云,由它提供基础的这么一个云办事、传统的这种CPU云。然后在之上的话,因为针对自动驾驶这么一个AI算力需求,咱们有一个AI的大底座,这里进行AI野心、存储、汇集、加速,包括AI的容器。
然后在这个底座之上会有一个异构的野心平台,这个异构野心平台背面我会讲到它为什么相称蹙迫,而且在可预念念的畴昔应该是决定着在大模子这么一个AI算力上材干的高下。其实这个底下就像一个冰山雷同,底下这一部分是埋在水下的,谈的比拟少,其实这些是百度确切花了很大的力气来打造的一个平台。之上的话是寰球斗争比拟多的,亦然批驳比拟多的,和诸君这种智驾的尤其研发工程师比拟紧密的,像用具链包括多样的应用场景,这是一个伸开来看的一个系统架构。
今天我要分享的主淌若两部分,第一个是AI的底座,这一部分是因为这部分和咱们昔日一年的趋势,也即是咱们端到端自动驾驶包括大模子上车紧密关联的,而且这一部分是在赶快发展,这一部分有比拟高的一个门槛。第二部分是个自动驾驶用具链,这一部分用具链亦然因为和诸君同仁使命规划比拟紧密,是以今天我的分享主要围绕这两部分伸开。
领先,咱们从上至下。在用具链层面,百度在3年前就领先发布了这么一个叫作念自动驾驶云或者叫汽车云的1.0版块,其时这个1.0版块针对的是一个传统的智驾开发的这么一个模子或者叫作念范式。也即是说,它是一个基于这么一个感知、规控分模块的花式,咱们来进行数据的蚁合、数据的纳管,然后进行模子的检修、进行仿真、终末模子的上车,打造咱们叫作念数据闭环。这亦然前两年很热点的话题,不绝加速这么一个数据飞轮。
这个平台的一个秉性,这里有几个数据,一个是在这个平台上欺诈了通过AI进行自动驾驶的预标注,数据的预标注,可以达到92%的准确率,这部分可以或者裁减东说念主工标注本钱50%。同期,扶持这么一个数百PB的数据的全生命周期的托管。然后扶持周级别的算法的迭代,这是其时的1.0版块。
到了2.0之后,也即是自动驾驶冉冉走向量产之后,然后遭逢了多数的在量产当中的长尾问题,针对这些问题咱们推出了2.0版块。2.0版块秉性,它是基于提供更多的包括场景的遮盖、数据的遮盖,包括咱们百城的舆图数据的遮盖,千级以上的数据挖掘的类型、千万公里仿真场景,包括千万级的场景库的构建,通盘这些更多的是科罚自动驾驶问题当中的这些量产长尾问题。
365建站客服QQ:800083652
最近一年,谄媚着这个趋势,更多的元气心灵咱们花在这个端到端和车路协同,也即是咱们当今提到的3.0版块。3.0版块主要针对的一个是端到端,端到端其实它和大模子有好多的相似场所,咱们知说念大模子齐有一个叫scaling laws,scaling laws内部有两个蹙迫的维度,一个是数据一个是算力。针对数据,咱们有端到端这么一个数据生成,来扶持端到端的仿真,来提供这种海量准确的数据。第二部分,针对这个算力其实咱们打造了百度的百舸,加上咱们我方开发的昆仑芯国产GPU来扶持端到端检修算力的需求。
另外是路侧数据的买通,这部分我背面会提到,它相称蹙迫。因为咱们作念端到端、作念自动驾驶其实咱们对准的是L4,传统这种单车智能在L4上会有表面上的劣势,这亦然为什么咱们一直在强调车路协同。背面我会伸开,先容一下这几个秉性、这几个秉性到底在说什么。
一个是端到端的这么一个仿真,其实在传统的仿果真话,它更多仿的是规控方法,然则到出现问题的时候,这些工程师更多是调汇集或者调数据,从这两方面进行优化。然则到端到端之后有很大变化,出现Corner Case的时候,可能咱们并不需要调汇集,汇集是保捏不变的。把更多的优先级或者元气心灵放在这些数据的优化上,也即是说咱们需要更多精确的海量数据,这些数据从那儿来?有两个部分,第一部分即是咱们仍是在路侧,千万公里路侧仍是有一个多数的场景库,包括这些视频、点云等等多数的数据,中枢的问题是若何把这些有用的数据挖掘出来,这里就有个大模子的智能搜索平台。
第二部分是长余数据合成,只是靠路侧蚁合的话这个本钱相称高的,跟着时间的发展其实咱们发现当今可以自动生成一些场景、自动生成一些数据,而且效果也还可以。这个时候咱们有一个叫作念数据生成的一个平台,同期还有一个仿真场景,也即是咱们基于这么一个端到端的仿真,它更多是基于这么一个真实场景的场景级别的效果考据,而不再是只是考据规控这个方法,这是扶持端到端的仿真。
第二个是扶持端到端的检修,检修来讲现时最大的一个瓶颈或者痛点就在算力,现时实验上是一个暴力的野心,然后在算力方面主要围绕着3个方面作念普及,第一个叫作念异构芯片的多芯混训,背面我会提到,也即是说咱们把不同厂家、不同型号的这些芯片把它组在全部、构成一个集群,这个集群可以让它完成合并个任务,这么可以极地面利用历史财富。
第二个是全链路模子的检修优化,这么是普及利用率。好多东说念主买了多数的GPU卡之后,其实这个集群的利用率是很低的,多数的时候包括算力齐是处于清闲状态,在这种情况下咱们通过软件的形势普及集群的利用率,也即是变相的你可以买到更多的卡。
第三个,扶持一个超大集群的,也即是万卡集群的闲暇的检修,这一部分口舌常蹙迫,因为量变产生质变,当一个万卡集群的时候是不可幸免地出现多样故障。若何让这个故障不影响检修的效果或者不影响检修的着力,是在端到端检修内部要科罚的一个相称蹙迫的问题。
第三部分,车路云协同,其实咱们发现岂论在高速照旧在城市内部其实有多数说念路的一些数据,这些数据对自动驾驶相称有匡助。百度也一直在和监管部门包括一些说念路财富的运营部门在相助,把这个车的数据和交通的数据能够买通,这么的话可以使自动驾驶能够愈加的安全、高效。
这个是咱们直不雅来看一下,这个用具在干什么,因为时候的相关我就不放视频。第一个,左边部分看到的是智能搜索,传统的搜索寰球照旧靠打标签的形势,结构化的一些标签,这个是费时劳苦的。还有一个更大的问题,跟着时间的迭代有些标签它不可舒适需求了,还要再再行打一遍。这种情况下本钱口舌常高的,然则咱们发现跟着昔日一年谈话大模子、视觉大模子时间的发展,然后咱们在探索是不是可以把这些时间谄媚起来提高数据搜索的着力。在此基础上咱们打造了一个基于视频特征库和图片特征库,同期谄媚语义的信息,然后完成这种跨模态的搜索,这方面比如这里左侧叫以图搜图。比如我有一个很难边幅的场景,假定说即是一辆车,它长得很奇怪,这个车我不知说念若何边幅它,以前也莫得打过标签,这个时候最简便的一个形势即是我去丢几张图片,它长的什么样,然后去搜一下。如果效果不好的话再丢几个反例的图片,这么把以前可能需要花周级别或者月级别的这么一个数据挖掘的任务,完了到这种分钟级别或者秒级别,这个叫作念智能搜索。
第二个,难例的挖掘。这部分主淌若以文搜图,也即是譬如说你可以通过语义和图片和这个视觉的谄媚,来定向挖掘多样难例数据。比如说这里,咱们这个极端类型的环境感知,比如说蹂躏路面遭逢车辆。还有极端的复杂的一些场景,比如在夜晚骑着电动车等红绿灯的东说念主,然后还包括这种空间相关的组合、缜密化的搜索,比如在这里即是一个堆积货品的货车,相称交运的是语义大模子可以强健什么是堆积货品,是以咱们可以径直搜索出来堆积货品的货车。它就可以把它缜密地给挖出来,这些齐为大模子或者端到端提供了这些准确的和海量的数据。
然则光靠现存的数据,也即是咱们传统的花式下的说念路蚁合、数据挖掘,它不可舒适端到端的条目,原因即是因为端到端模子检修它其实对数据的遮盖度条目相称高。这种情况下,其实咱们就沟通到在进行探索这种智能场景的数据生成,而且效果口舌常好。这里包括比如放置动态元素,这种场景也即是说咱们通过蚁合之后,把这些动态元素消撤退以后得到一个更为通用的、更为基础的一个场景,在这个场景上咱们谄媚着第四条,也即是重叠诬捏元素就可以形成斗量车载的泛化的真实场景来供模子进行检修,包括不同的角度,比如说主车的视角,包括变调天气环境等等,这些齐比拟好强健,因为时候相关视频不逐一播放,这个看上去还口舌常直不雅的。
同期,在一个端到端的仿真内部,另一个普及即是咱们在仿果真时候除了这种对规控的仿真,除了对单车的仿真以外,再更多的是针对这个场景的一个合座效果的考据,或者说一方面来讲是针对单车来讲它不再是只考据规控方法,而是考据某个场景下的端到端的效果。
第二部分,从单车到通盘这个词宏不雅的角度,因为寰球齐知说念百度在作念Robotaxi,咱们作念萝卜快跑,萝卜快跑追求营业化,在这种仿真内部它相称眷注的少量是运营的着力,在运营的着力内部它除了单车的智能以外,咱们更多的要看比如咱们在北京投放一辆车、投放一个车队,和在武汉投放一个车队,它们的交通流是全齐不雷同的,我若何样提高合座的车队的安全度、提高合座车队的运营着力,其实触及到的即是更宏不雅的或者咱们叫作念交通流的模子。在交通流内部咱们及时地蚁合交通真实的景况。
第二个,可以来建模,也即是说在这个环境内部不同的交通参与者他们的一些行为花式,然后不绝和真实情况来作念对比,从而提高自动驾驶的着力。咱们自动驾驶最终是对准L4的,L4最蹙迫的一个场景或者绝大多数的一个场景其实是分享出行,也即是Robotaxi,在分享出行内部不单是看到单车,咱们要看到通盘这个词车队的、通盘这个词城市的运营着力。
刚才一部分更多先容用具链,这部分跟业务紧密关联。底下这一部分先容更多的是咱们叫作念百舸平台,也即是咱们的AI大底座,AI大底座更多科罚的是算力的问题。就像刚才提到的,在算力问题中第一个来讲即是异构芯片的多芯检修,这部分科罚的问题是,咱们知说念好多车厂包括这些自动驾驶公司其实齐买了多数的卡,然则这个卡是在不同期期买过来的,有英伟达的卡、有国内的卡,英伟达的卡有不同的型号。
现存的场地基本上是合并类型的卡或者合并型号的卡构成一个小集群,这个集群内部完成一个单一的任务,比如完成一个推理任务、一个检修任务。然则跟着芯片的不绝迭代之后,这种芯片的厂家和它的型号越来越复杂,若何让这些不同型号以致不同厂家的这些卡在一个集群内部启动,这是一个相称蹙迫的问题。这个问题难度其实相称大,寰球知说念GPU卡的话,不同的供应商从他们的通信条约、架构、算子库齐是不兼容的,百度作念了一项使命,基础型的使命,即是咱们把通盘这些卡把它兼容起来。第一步完了的,也即是在单一集群内部多样不同厂家的卡、不同型号的卡可以混布在全部作念检修。
第二部分,这件使命天然也可以去作念,前提是这么作念下去不会变成性能的蚀本。性能蚀本很好强健,比如性能高的这些卡在完成任务的时候它跑的快一些,它跑完之后它就等,等着那些性能差的这些卡再提交任务。这个时候这些性能差的卡就形成了一个瓶颈,咱们若何来放置这些瓶颈,这是一个相称基础性的使命。通过昔日一年的时候,咱们可以作念到在万卡集群算力蚀本少于3%,也即是说基本上你可以看不到各异。
当咱们完成了集群的混布之后,还有一个蹙迫的课题即是算力的利用率是很低的,咱们若何来提高算力的利用率,算力利用率很低背面压根的原因即是,在GPU内部它的野心这一部分的性能口舌常高的,然则它的存储和汇集这部分性能相对来讲弱一些。是以不时变成野心任务完成之后在等数据,这么恭候的时候占了多数的时候,这个时候变成性能的瓶颈。
是以说,针对利用率的普及,其实咱们作念了多重的优化使命,包括显存优化、算子优化、存储优化和汇集优化,这些我就不逐一伸开,因为这些相称工程化,包括这些并行优化。然则寰球可以念念象的即是,它和交通流的花式相称相似的。也即是说我有多个任务的话,当它莫得一个很好的优化握住的话,比如在上海这个城市,当寰球齐去出行的时候,我为了保证不拥挤可能需要把车说念修到8车说念、10车说念,这是通过硬件来普及。然则通过这种软件优化之后,然后我通过合理的和谐,通过不同的政策包括像绿波等等,寰球可以并行的来出行。这么咱们可能不再需要8个车说念、10个车说念,可能只需要2个车说念、4个车说念,通过这种缜密化的截止就可以使着力得到提高,使出行不会产生拥挤,其实优化部分中枢科罚的即是这么一个使命。然后实验效果来讲,寰球可以看到在检修方面,关于一个70B的模子,这亦然现时主流的一个检修模子的限度。然后1.4T的语料在传统的,即是在莫得优化前通过A800的这么一个卡或者需要21天的检修时长,然后通过这个优化之后。21天检修时长在传统的莫得优化之前或者需要2000卡的A800,然后通过优化之后或者可以从简23%的算力。
然后在推理这个应用内部,这是一个真实的案例,也即是日活500万的AI应用,在传统莫得优化之前或者需要178张的A800的卡,通过优化之后或者可以从简55%的算力,这个从简的算力即是真金白银的降本增效。
第三部分科罚的是闲暇性的问题,闲暇性的问题中枢来讲,咱们其实看到底下有个公式,在通盘这个词万卡集群这么算下来它总归有些故障点,有一些硬件它失效,失效之后表面上就会变成任务的无效检修时候。这部分算了一半之后卡坏了,那我就要回到上一个保存的点再行再来算,这个即是从上一个咱们作念的阿谁保存点到失效的这个部分,其实即是个无效的检修时候。咱们若何压缩无效检修时候即是中枢问题,压缩无效检修时候左证这个公式的话主淌若3个方面。
一个是裁减故障的中断次数,天然硬件的故障咱们是没办法裁减的,但咱们可以通过平台、多维的故障感知之后,通过平台级的容错来使得在平台检修的任务层面让这个任务不中断。第二个,即是中断之后它有两个时候,即是是一个故障的归附时长加上故障的重算时长,这部分也就强健为就超越于这个硬件坏了之后我这个还没算完的这些任务就白算了,我若何减少白算的这些任务,这一部分即是通过多维的容错处理、包括这个节点的维修、秒级的冷搬动归附、自动故障阻拦、自动任务援救等等来减少这个时长。
第三部分是常态写Ckpt,因为有故障是以每隔一段时候咱们就要把使命保存一下,就像一个快照雷同,咱们把现存的检修保存一个快照,这个叫Ckpt。但这个写Ckpt是一个相称长的时候。在这一部分咱们就用了一些时间包括秒级的Ckpt写入,异步的加速、包括散布式加速等等来裁减Ckpt的总时长。
终末可以使咱们万卡集群的有用检修时长达到98.8%,带宽的有用性达到95%。这是一个相称了不得的设立,这亦然寰球知说念背后除了时间本人的跳动以外,中枢的照旧要降本,尤其是在这种大模子规模。
终末一部分咱们要说的是这么一个车路云的协同。咱们看到左侧有多样各种的Corner Case,其实有些Corner Case即是从隧说念的这种单车智能的话,岂论你有何等跳动的激光雷达等传感器,它有些遮拦或者有些天气情况即是失效,表面上它即是在ODD可启动以外的。也即是说,关于这一些部分的话其实单车智能并不是独一的一个路子,而关于这一部分Corner Case的话,其实关于说念路的财富握住部门来讲他们有相称精确的数据、相称及时的数据,这些数据百度就一直在,和监管部门相助,但愿这些数据能够来和车端的数据材干来交融,从而形成一个天主视角的路面情况。这种情况下就可以极地面提高车辆的安全性,因为有些Corner Case,说真话靠单车智能是无法去科罚的,也即是说科罚的一个旅途可能即是车路协同。其实中国在车路协同方面是有一定上风的,包括咱们的这种5G的这些汇集基础设施设备,包括有一个强力的大政府,即是咱们可以建立这种定约、这种设施。在这一方面咱们在旧年也和广杂乱团作念了相称多的一些探索,赢得了一些比拟好的着力,包括这两天寰球看了上海汽车城在这方面亦然走在前线。
咱们深信,车路协同在L4自动驾驶场景内部会越来越蹙迫。这么咱们也相称但愿和诸君行业同仁一块辛苦,共同打造这么一个有中国特色的、基于车路云一体的,全国跳动的自动驾驶科罚决策。

我的分享就到这里,谢谢寰球!
(注:本文左证现场速记整理,未经演讲嘉宾审阅)
数据模子端到端算力集群发布于:北京市声明:该文不雅点仅代表作家本东说念主,搜狐号系信息发布平台,搜狐仅提供信息存储空间办事。