首页 AI技术学习内容详情

谷歌DeepMind的深度强化学习:双足机器人在足球领域的突破性进展 2025-02-22 39 admin

深度强化学习的关键作用

深度强化学习在这一进展中起到了至关重要的作用。它允许机器人通过不断的试错和学习,逐步掌握复杂的运动技能和战术策略。

4234070c7e111ad7f482a4f48a72c773.jpg


ROBOTIS OP3机器人平台

研究团队选择了ROBOTIS OP3机器人平台作为研究对象。这款微型仿人机器人经济实惠,拥有20个可控关节,足以应对复杂的足球动作。机器人在训练中仅依靠板载传感器如关节位置加速计和陀螺仪来感知环境,并通过板载计算机计算目标关节角度,实现精准的动作执行。

训练方法与策略

分布式MPO算法与Teacher-Student策略

研究人员采用了分布式MPO这一非策略强化学习算法,对机器人进行了多阶段的仿真训练。他们首先训练了两个teacher策略,分别负责站立和射门,随后通过KL正则化方法将这两个策略融合,形成一个student策略。随着训练的深入,正则化逐渐减弱,最终行为得以自由优化任务奖励。

实战验证与安全性考虑

简化足球比赛与安全措施

为了测试机器人的实战效果,研究人员设计了一场简化的单对单足球比赛。机器人能够在这种激烈的对抗中逐步学会如何保持优势。同时,研究团队还加入了多种噪音和延迟,以增强机器人的鲁棒性和安全性。特别是针对膝关节产生的高扭矩设定了惩罚机制,成功地引导机器人学习和采用更为柔和、稳定的步态。