欙鳇茽餐新闻网
经观汽车
2025年5月8日(ri),距(ju)离“AI Talk”第一季播出已有130天,面对镜头,理想汽车首创人(ren)李想坦言:“人(ren)工(gong)智能发展(zhan)得这么(me)快,但我每天的工(gong)作时间并没有减少。”这一句话(hua),道出了他对AI技术落地(di)途径的镇定(jing)思索,也预示着(zhe)理想汽车在智能化道路上的阶段跃迁。
在这场持续数(shu)小(xiao)时的访谈中,李想零碎性地(di)阐述了他对AI工(gong)具分级的明白(jie)——从信息工(gong)具、帮助工(gong)具,到(dao)生产工(gong)具。而在理想的语(yu)境中,生产工(gong)具意味(wei)着(zhe)AI真正进入价值制造的核心。这场技术演(yan)化的关键,正在从模(mo)型的堆叠走向具象本领的整合与释放。
已往四个月,我国本(ben)土大模(mo)型迎(ying)来了日新月异的发展(zhan)。李想在谈话(hua)中频频提及DeepSeek——这一国产大模(mo)型体系,在技术架构、推理本领和工(gong)程效率上的显示,让理想汽车决议层重新评价了其VLA(视觉-语(yu)言-举措(dong))战略的实施途径。
“DeepSeek给了我们一个庞大的推动(dong)力。”李想坦承,原本(ben)计划在年底完成的基座模(mo)型,因DeepSeek的开源提早了九个月完成底子办法扶植。
展(zhan)开盈余(yu) 75 %也恰是出于这类“被帮助之后的反馈(kui)机制”,理想汽车挑选开源自研(yan)四年的星环OS整车操纵零碎。“我们遭到(dao)了那末(me)大的帮助,应当给社会做(zuo)一些贡献。”李想说。
他提到(dao),在已往的春节(jie)时代,理想团队围绕DeepSeek展(zhan)开了周全研(yan)究,从模(mo)型的MoE(混淆专家)布局、训练效率、到(dao)安排难度,举行了详尽评价。“这不是简单的‘借用’,而是站在伟人(ren)的肩膀(bang)上再进一层。”他说。
从规则到(dao)端到(dao)端,再到(dao)VLA
李想以为,人(ren)工(gong)智能走向生产力的关键在于Agent本领的释放,即AI不再只是帮助人(ren)类思索和推断,而是能够自力完成专业工(gong)作,承担“替代性”的角色。理想汽车以后的VLA战略,恰是对这一目标(biao)的途径设计。
VLA,即“视觉-语(yu)言-举措(dong)”模(mo)型,是理想汽车提出的帮助驾驶大模(mo)型计划。李想将(jiang)VLA的发展(zhan)划分为三个阶段:
第一阶段是以规则算法为主的“虫豸智能”,高度依(yi)赖地(di)图和预设规则,雷同蚂蚁在途径上的机械实行。
第二阶段是以后正在推进的端到(dao)端模(mo)型,通(tong)过大数(shu)据学习(xi)形成对举动的模(mo)仿(fang),雷同“哺乳动(dong)物式”的感知(zhi)和反应,虽不完整明白(jie)物理天下,但能完成一定泛化任务。
第三阶段,即VLA阶段,则是李想眼(yan)中“类人(ren)智能”的起点。它不仅能够看懂导航界面、识别3D场景,还能举行语(yu)义推理(Chain of Thought),具有主动(dong)推断和举措(dong)的本领。“这是我们的‘司机大模(mo)型’。”李想说。
为了达成这一目标(biao),理想汽车正在训练一个32B范围(mo)(即320亿(yi)参数(shu)范围(mo))的VL(视觉-语(yu)言)基座模(mo)型。李想详细介绍了训练的三个关键部份:
首(shou)先,是视觉方面的token和语(yu)料。理想在模(mo)型中纳入了大量3D视觉数(shu)据,即来自物理天下的三维信息,同时还引入了高清2D图像数(shu)据,分辨率相比开源多模(mo)态模(mo)型提拔了10倍,以解(jie)决以后2D视觉模(mo)态清楚度不敷、识别距(ju)离无限的问题。
其次,是语(yu)言部份的输入。模(mo)型训练到场了大量与交通(tong)、驾驶举动相干的语(yu)言语(yu)料,以强化其在现实场景中的语(yu)义明白(jie)本领。
第三个关键点,是视觉与语(yu)言的联合语(yu)料(VL语(yu)料)。李想强调,这一部份极(ji)易被忽视,但对VLA相当重要。联合语(yu)料指的是图像信息与语(yu)言语(yu)义同时存在于一个数(shu)据单位中,比如(ru)导航地(di)图与车辆对其的语(yu)义明白(jie)配合输入模(mo)型,帮助模(mo)型建立起从视觉到(dao)语(yu)言再到(dao)举措(dong)之间的深度联结本领。
“已往的VLM(视觉-语(yu)言模(mo)型)大多只是能看图语言(hua),但明白(jie)不了天下。我们要的是一个能看懂实在天下、明白(jie)物理规则、具有举措(dong)企图的大模(mo)型。”李想指出。
在谈及基座模(mo)型的研(yan)发投入时,李想透露表现:“我们今年的训练卡采(cai)购量,是原定计划的三倍。”这一扩张级别,反映出理想汽车在自研(yan)底子模(mo)型上的战略押注。
只管DeepSeek的开源带来了加速(su)效应,李想并未对自研(yan)途径抱有任何侥幸(xing)心理。他反复强调:“没有任何捷径。如(ru)果规则算法做(zuo)不好,根本(ben)不知(zhi)道怎样(me)走端到(dao)端。端到(dao)端不做(zuo)到(dao)极(ji)致,就没法训练好VLA。”
这也解(jie)释了为何(me)理想汽车仍然保持构建自己的基座模(mo)型,而不是完整依(yi)赖第三方平台。“我们的任务不仅仅是对话(hua)生成。我们要的是对多模(mo)态天下的明白(jie),是真正为汽车场景办事的智能体。”李想说。
谈及行业款式,李想将(jiang)DeepSeek比作“Linux时刻”,而理想追逐的,则是“安卓(zhuo)时刻”。
“语(yu)言模(mo)型只是底座,真正的爆发在于将(jiang)其安排于特定范畴,释放出完整的运用本领。”他透露表现,在交通(tong)范畴,理想进展借由(you)VLA构建出具有认知(zhi)、推理和举措(dong)本领的类人(ren)驾驶模(mo)型。
这一愿景面前,是理想汽车从底层操纵零碎到(dao)多模(mo)态大模(mo)型周全自研(yan)的技术链闭环。而在家当层面,这也意味(wei)着(zhe)一场从传统规则驱动(dong)到(dao)智能体驱动(dong)的范式跃迁正在发生。
李想以为,帮助驾驶行业以后正处于“拂晓前的阴郁”。争议与逆境并存,但这恰是新范式到(dao)来的前夕。“我最愿意解(jie)决的就是别人(ren)解(jie)决不了的问题。”他说。
在理想汽车的途径图中,AI不再是一个效率工(gong)具,而是一个零碎性、可扩展(zhan)、可以承担配角的“生产工(gong)具”。在这个界说之下,VLA不仅是技术跃迁的起点,更是理想汽车试图重塑人(ren)车关系、重塑交通(tong)智能家当的途径实验。
公布于:北京市