专栏算法工具链PPO这种强化学习的算法怎样做量化部署

PPO这种强化学习的算法怎样做量化部署

默认514562026-03-04
13
0

我们现在要在J6E的芯片上部署ppo的policy模型,但是在量化的部分看上去有比较大的误差,当前是采用模仿学习的方法,把强化学习模型的输出action作为真值,然后进行qat的训练,但是看上去离散的action之间存在一些误差,导致最终的结果误差较大,目前是存在layernorm合cross-attention两个看起来会比较敏感。有什么针对这种纯强化学习部署的方案嘛?

算法工具链
技术深度解析征程6
评论0
0/1000