当前位置 > 首页 > 新车频道 > 爱卡头条 > 解读DriveGPT:解谜的过程唯有躬身入局
[原创]

解读DriveGPT:解谜的过程唯有躬身入局

第 2/2 页:DriveGPT跑到什么程度了?
第 1/2 页:为什么DriveGPT也能称之为“GPT”?第 2/2 页:DriveGPT跑到什么程度了?
浏览全文 (共计2页)

  03、DriveGPT跑到什么程度了?

  DriveGPT大模型分成两个阶段。

  一个阶段是更通用、更基础的能力,即空间计算能力。毫末目前已经完成DriveGPT的模型搭建和第一阶段数据跑通,现在的参数规模可以对标GPT-2的水平。事实上,对于毫末智行这样一家自动驾驶初创公司,能够在ChatGPT这种超大模型应用推出之前,就已经开始对于大模型的应用,其技术布局和落地进度已经远超行业认知了。

DriveGPT跑到什么程度了?

DriveGPT跑到什么程度了?

  另一个阶段是驾驶决策能力,即怎么开车。这就是在空间计算能力的基础之上,叠加认知决策的能力。所谓驾驶决策,其实还算是一项特殊的技能,类似于我们学开车时候要去驾校学一遍一样,大模型就相当于做驾驶技能教学这个事情。驾驶的技能都需要依赖对周围空间的三维感知,这种空间感知能力也是一种通用能力,毫末希望这种通用感知的能力能对接不同的决策模型,完成不同的任务。

  DriveGPT目前仍然以云端训练和推理的方式为主,但它已可以通过多种方式来赋能车端智驾能力。首先,可以通过多模态大模型的场景理解能力,进行高效数据筛选,为车端小模型训练提供所需要的海量极端、困难场景数据。

DriveGPT跑到什么程度了?

  第二,DriveGPT也具备很强的驾驶场景识别能力。基于毫末DriveGPT所建立的4D Clips驾驶场景自动标注方案,可以使得单张图片的标注成本降到0.5元,相较目前行业平均成本的1/10。毫末目前正在将图像帧及4D Clips自动驾驶场景识别服务向行业开放使用,这将大幅降低行业使用数据的成本,提高数据质量。

  第三,在驾驶场景通用感知能力上,DriveGPT以恢复真实世界的三维结构和纹理分布为目标,通过构建统一的空间计算,实现通用视觉感知能力,在一个大模型中同时完成图片纹理、三维结构深度信息、实体语义信息、实体跟踪的学习,试图与人脑对物理世界的感知一样实现通用的视觉感知能力。DriveGPT可以支持单趟或多趟的纯视觉NeRF三维重建以及数据生成,从而可以构造大量自动驾驶的corner cases,为行业提供更低成本、更大规模的自动驾驶能力测试的仿真环境。

DriveGPT跑到什么程度了?

  DriveGPT在认知决策层面也进行了升级,当前的认知决策是把BEV感知结果作为输入进行驾驶决策训练。但是BEV感知结果会丢失很多信息,限制了驾驶决策的上限。DriveGPT则直接将空间计算对接驾驶决策,采用更丰富、更全面的感知信息来训练驾驶决策模型,结合海量的真实驾驶数据训练,最终实现端到端自动驾驶甚至达到无人驾驶。

  DriveGPT的出现,从底层技术上颠覆了以往自动驾驶认知决策过程采用人工规则、小模型的实现方式,首次探索以数据驱动的大模型方式实现自动驾驶的数据筛选、自动标注、驾驶决策,最终为实现端到端自动驾驶提供可能。

  04、自动驾驶的“ChatGPT时刻”什么时候到来?

  说了这么多专业知识,用户可能最想知道的是自动驾驶的“ChatGPT时刻”会在什么时候到来?

  如前文所说,毫末将自动驾驶分为三个阶段,而将自己定位为“3.0时代的冲刺者”。这意味着大模型的探索和布局只是一个开始。

  毫末CEO顾维灏曾在去年表示,为应对3.0时代的挑战,整个自动驾驶行业要努力解决三个问题:

  1、通过建设智算中心和优化训练效率,降低大模型的云端训练成本;

  2、通过改进车端芯片,定制Transformer专用加速芯片来提升计算效能;

  3、通过改进车端模型,通过轻量化模型来提升计算效率。

毫末智行CEO顾维灏

  从毫末近期的公开演讲来看,毫末已经在提出自己的方案。

  如前文所说,为打造云端的低碳算力,毫末在年初推出了自动驾驶的第一个智算中心,算力高达67亿亿次/秒。通过一系列的训练框架、性能、通信等优化,可单机实现训练100亿参数规模的大模型的能力,同时执行多任务、多模态并行的训练,大幅提升计算效率。

  在车端,毫末在探索和关注更适合具有Attention特点的轻量化模型和Transformer加速芯片,减少车端模型的计算量、耗能,同时增加计算效率,从而实现大模型在车端的应用。

自动驾驶的“ChatGPT时刻”什么时候到来?

  总体看,毫末找到了自己通向自动驾驶终局的“通路”。通过量产辅助驾驶的规模量产,积累海量数据,回到云端大模型实现数据的处理和算法的训练,然后再经过算法的优化和车端部署,实现更好的产品效果,完成数据闭环,形成毫末特色的技术路线。

  其实,ChatGPT之所以给了大家如此大的震撼,在于它天然是多面手,在于它可以不断学习,不断接近人类。但一方面,在自动驾驶领域里面,不同于ChatGPT只处理文本信号,自动驾驶还要处理图片、点云、交通法规、地图、驾驶行为等一系列信息,自动驾驶要处理的数据模态更复杂;另一方面,自动驾驶对模型的输出精度要求更高、可解释性要求也更强。面对这种特别复杂的模态、特别高的输出要求,实现自动驾驶大模型道阻且长,但行则将至。

  全文总结:

  如今,国内外大模型科研保持着高速迭代的态势,各类大模型层出不穷,模型性能不断提升,创新创业蓬勃兴起,展现了惊人的演进速度。相信未来,毫末也将继续用技术赋能自动驾驶发展,携手更多伙伴,推动行业发展,一同加速自动驾驶的“ChatGPT”时刻早日到来。

  解谜的过程,别无他法,唯有躬身入局。

精彩内容回顾:

长城毫末智行获Pre-A轮融资 金额数亿元

工信部:支持L3及更高级自动驾驶商业化

基于征程5芯片 地平线助力L4自动驾驶

上一页12下一页 >无广告读全文
微信
微博 QQ空间
 

最新文章

宝马M3 40周年限量版!轿车与旅行车:各限量20台
宝马M3 40周年限量版!轿车与旅行车:各限量20台

宝马M系列一直是孤傲的代名词,现在更稀缺、更有辨识度的宝马M3 40周年限量版来了!2026年刚好是宝马M3诞生40周年,这款经典性能车也迎来了专属纪念款,会在今年北京国际车展正式亮相,下半年就会在国内上市。这次一共推出两个版本,普通轿车版和旅行版,国内每个版本只卖20台,总量特别少,算是很有纪念意义的一款车型。

网上车市作者:网上车市 12026-05-19

王力宏代言!腾势N9闪充版上市,售40.98-46.98万元
王力宏代言!腾势N9闪充版上市,售40.98-46.98万元

腾势N9请来了王力宏当代言人!在现场王力宏也是说用代言费去买比亚迪股票,不得不说我觉得N9的颜值和王力宏还是挺配的,大家觉得呢?

智电出行作者:智电出行 12026-05-19

降价3万+续航升级!奇瑞新风云T9限时售10.99万元起
降价3万+续航升级!奇瑞新风云T9限时售10.99万元起

5月16日,奇瑞风云T9长续航版正式上市,官方指导价11.99万-13.99万元,叠加限时权益后,起售价低至10.99万元。

智电出行作者:智电出行 112026-05-16

鸿蒙智行首台MPV 智界V9售38.98万-51.98万元
鸿蒙智行首台MPV 智界V9售38.98万-51.98万元

智界V9是华为深度参与技术研发的旗舰MPV产品。硬件方面,全系标配896线双光路激光雷达,搭载华为乾崑智驾系统,支持全场景高阶辅助驾驶功能;配备±7度后轮转向系统,车身长度5.36米,官方公布转弯半径为5.35米。

智电出行作者:智电出行 152026-05-15

奥迪Q9中国特供车!轴距超3.25米 PK理想L9
奥迪Q9中国特供车!轴距超3.25米 PK理想L9

在豪华全尺寸SUV市场,奥迪Q9姗姗来迟,却一出手便瞄准标杆——它既是奥迪燃油车时代的全球旗舰SUV,更是专为中国市场量身定制的特供加长版(内部代号LWB for CN),以“全球骨架、中国专属”的定位,剑指宝马X7、奔驰GLS乃至迈巴赫GLS。

网上车市作者:网上车市 72026-05-15

×爱卡官方微信
用微信扫描二维码添加爱卡汽车为好友
您可以在微信上找车型、看热帖、读资讯,还能参加各种好玩的活动。