字节跳动 Seed 团队发布最新研究成果 GR-RL

sowang · 发表于 2025-12-2 23:39:52

字节跳动 Seed 团队发布最新研究成果 GR-RL，GR-RL 提出了一套从离线数据筛选到在线真机微调的强化学习框架，可以让机器人给整只鞋连续穿鞋带。

相较前作监督学习模型 GR-3，GR-RL 在穿鞋带任务上将成功率从 45.7% 提升至 83.3%，减少了近 70% 的失败情况。

据介绍，GR-RL 的工作验证了对于长时程、极高精度的柔性物体操作，真机强化学习是一条行之有效的技术路径。

它让我们在无法依赖仿真的情况下，依然能通过闭环交互突破模仿学习的性能天花板。 #人工智能##机器人##具身智能#

字节跳动 Seed 团队发布最新研究成果 GR-RL
https://weibo.com/tv/show/1034:5 ... om=old_pc_videoshow

		自动登录	找回密码
密码			禁止注册

字节跳动 Seed 团队发布最新研究成果 GR-RL

浏览过的版块