文档解析
本文介绍了一种新颖的自主算法,旨在使自动驾驶车辆能够在最少的人工干预下,通过强化学习(RL)算法进行训练。该算法通过考虑自动驾驶车辆的学习进度来确定何时终止场景(episode)以避免进入不安全状态,并决定在何处重置车辆以收集信息丰富的转换。学习进度是基于当前和未来状态的新颖性来估计的,而新颖性通常在未见过的状态下更高。该算法利用传统的基于规则的自动驾驶算法,安全地将自动驾驶车辆重置到初始状态。实验结果表明,该算法与基线算法相比,在多种城市驾驶任务中实现了更好的驾驶性能,并且需要的手动重置次数更少。
该研究的主要贡献是提出了一种使现成的RL算法能够在最少人工干预下训练自动驾驶车辆的自主算法。该算法适用于多种驾驶场景,并且与任何RL算法兼容。此外,该工作还提出了一种新的方法,利用基于规则的算法通过RL训练自动驾驶车辆。据作者所知,这是首次提出使用RL算法训练自动驾驶车辆的自主算法。通过在城市驾驶环境中的无信号交叉路口和环形路口等常见场景中评估该自主算法与基线算法的性能,实验结果证明了该自主算法的有效性。
评论