首页   

又一篇CCF-A!强化学习+多目标优化,吊打传统方法!

PaperWeekly  · 科研  · 1 周前

正文

沃的顶会


强化学习(RL)与多目标优化(MOO)的深度融合正推动AI决策能力迈向新高度。港科大团队提出的动态梯度平衡框架,通过多任务协同优化,在自动驾驶场景中同时提升安全性(碰撞率↓38%)和能效(能耗↓21%);而MIT的Pareto策略搜索算法,利用进化计算与深度RL结合,在机器人控制任务中生成多样化最优策略,任务成功率提升至92%。更值得关注的是,阿里云最新发布的多目标大模型对齐技术,在金融交易RL系统中平衡收益与风险,夏普比率较单目标模型提高45%。


这场从“单一最优”到“全局权衡”的技术革命,正在重塑智能决策的未来边界。我整理了10篇【强化学习与多目标优化】的相关论文,感兴趣的同学欢迎扫码领取~

回复强化多目标即可领取

Continual Multi-Objective Reinforcement Learning via Reward Model Rehearsal


 文章解析 


文章首次将动态目标学习问题形式化为持续多目标强化学习(CMORL)问题,并提出CORE3算法。


通过设计动态网络和奖励模型排练技术,在多个基准测试中验证了该算法在处理动态目标场景时的有效性。


 创新点 


首次提出CMORL问题,考虑学习过程中目标的动态变化,拓展了多目标强化学习的研究范畴。


设计动态代理网络架构,可随新目标到来自适应扩展,实现快速适应和知识有效迁移。


引入奖励模型排练技术,恢复先前目标的奖励信号,缓解灾难性遗忘问题。


 研究方法 


定义CMORL问题,将其建模为多目标马尔可夫决策过程序列,明确任务目标和学习要求。


构建动态网络,针对离散和连续动作空间分别设计网络结构,以适应目标数量的变化。


训练多目标奖励模型,通过多头部架构预测奖励信号,利用其排练代理以减轻遗忘。


在四个CMORL基准测试中,对比CORE3与多个基线方法,用多种指标评估性能。


 研究结论 


CORE3在完成所有遇到的目标方面表现出色,相比基线方法能更好地缓解灾难性遗忘,平均超最佳基线171%。


CORE3能有效适应新目标,从帕累托前沿角度持续学习和扩展,不断逼近最优解。


超参数对CORE3性能有影响,如模型集成大小、训练批次大小等,存在最优取值以平衡性能和效率。


image.png

回复强化多目标即可领取

PARETO SET LEARNING FOR NEURAL MULTI-OBJECTIVE COMBINATORIAL OPTIMIZATION


 文章解析 


文章提出一种基于单偏好条件模型的多目标组合优化学习方法,设计相应强化学习算法,在多个问题上实验,验证其相比其他方法在解质量、速度和模型效率上的优势。


 创新点 


提出用单偏好条件模型近似整个帕累托集,让决策者无需搜索就能获取偏好解。


开发端到端强化学习算法同时训练模型适应不同偏好,还提出主动适应方法处理分布外问题。


方法可视为基于分解的多目标进化算法的学习扩展,用单模型处理所有偏好,提升效率。


 研究方法 


定义多目标组合优化问题,明确帕累托最优解等概念,采用分解和偏好标量化策略。


构建偏好条件神经网络模型,包括偏好无关编码器和基于偏好的注意力解码器。


设计多目标策略优化方法,用加权切比雪夫标量化成本函数,结合REINFORCE算法训练。


在多目标旅行商问题等多个问题上实验,对比多种基线方法,用超体积指标评估性能。


 研究结论 


该方法能有效近似不同问题的帕累托集,在解质量、速度和模型效率上显著优于其他方法。


主动适应方法可提升模型在分布外问题上的性能,对处理不规则帕累托前沿有一定作用。


单模型处理所有偏好的方法有潜力成为多目标优化的重要研究方向,但收敛性和近似集的计算仍面临挑战。


1744079583560.jpg

回复强化多目标即可领取

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com