近日,Momenta首席执行官曹旭东在CCTV财经《对话》中介绍到,现在技术已经进化到第六代了,称为“强化学习的大模型”。
他提到,第五代是一个模仿学习,就是模仿人,能力的上限可能是接近人、达到人的水平。“有点像从小学到中学到大学一路在学习,都是有老师的指导的,但真的要超过老师很难。而强化学习是在实践中探索,成功了有奖励,失败了有惩罚。这样就能够探索出来更好的驾驶行为,有机会达到人类水平或者超过人类水平。”
曹旭东表示,现在公司已经量产了50多万台车了。“这是什么概念呢?1000万台车每年驾驶的里程会达到千亿公里,而人类一辈子可能只达到百万公里,那就10万倍的人类经验。它可以在云端的训练环境里面遇到10万次,可能第一次的时候手忙脚乱,等到1000次、1万次的时候就已经非常老司机了。”
“等到10万次的时候,它已经学会直觉驾驶了,知道这种挑战场景最优的驾驶策略是什么,能够实现最安全、最高效的驾驶。”他说。
本文标题: Momenta曹旭东谈“R6强化学习大模型”:将超越人类驾驶水平