首页   

大模型日报(12月30日 学术篇)

LLM SPACE  · 科技创业 科技自媒体  · 2 周前

主要观点总结

该文章介绍了关于搭建AI学习社群、大模型日报订阅、深度研究产品ResearchFlow的推广及相关知识库资源的链接。此外,还涉及了多模态大语言模型优化、基于强化学习的推理模型构建路线图、多机器人任务规划等主题的文章及其研究链接的分享。

关键观点总结

关键观点1: AI学习社群的搭建及资源分享

文章提及了搭建一个AI学习社群,让大家能够学习到最前沿的知识,共建一个更好的社区生态。并分享了相关社区如「奇绩潜空间」的活动和嘉宾介绍。

关键观点2: 多模态大语言模型优化的新方法

介绍了一种新的多模态大语言模型优化方法——任务偏好优化(TPO),旨在提升MLLM在视觉感知和推理任务中的表现。

关键观点3: 基于强化学习的推理模型构建路线图

文章提出了一种基于强化学习(RL)和搜索的路线图,以构建具有强大推理能力的大型语言模型(LLM)。通过策略初始化、奖励设计、搜索和学习等关键组件来构建高级推理模型。

关键观点4: 多机器人任务规划的分层强化学习方法

提出了一种基于分层强化学习(HRL)的多机器人任务规划方法,解决了大规模机器人移动履行系统(RMFS)中任务规划面临的挑战。通过结合多阶段课程学习、时间图神经网络和HRL算法,提高了规划质量和速度。


正文

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow -- 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

叶添揭秘大语言模型推理机制——超越人类的二级推理

奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。

第五季第二期潜空间邀请到的嘉宾是清华大学姚班,卡内基梅隆大学博士生,Physics of LLM 2.1作者,于 Meta 担任 Research Scientist Intern叶添,在本次活动中叶添将在北京现场与大家面对面交流,他分享的主题是《揭秘大语言模型推理机制——超越人类的二级推理》。

信号

01

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

本文提出了一种新的多模态大语言模型(MLLM)优化方法——任务偏好优化(TPO),旨在提升MLLM在视觉感知和推理任务中的表现。随着用户对模型多任务感知的要求不断提高,现有的多模态模型在进行特定视觉任务(如时序定位、分割和跟踪)时通常通过在文本格式的数据上微调,或者激活相应的任务头来增强感知能力。然而,这种方法虽然在单一任务上有所提升,但往往会牺牲多模态的综合性能,原因在于不同任务之间的学习差异,尤其是视觉密集预测和文本标记的表示差异。
为了提升MLLM的多任务处理能力,本文提出的TPO方法通过结合视觉任务知识,优化MLLM的多模态对话生成能力。具体来说,TPO通过区分视觉任务特征,将这些任务的标注作为用户偏好进行优化,通过可微的任务优化,指导MLLM生成更符合人类感知的预测。TPO通过将视觉任务头附加到MLLM的部分输出,并使用多个可学习的任务标记来帮助模型理解任务。这些任务头与任务标记一起训练,以增强模型在视觉任务中的理解能力,并通过多模态与视觉特定任务数据的联合训练,促进模型的感知与推理能力。
此外,TPO的有效性在多个开源的MLLM模型中得到了验证,例如LLaVA和VideoChat2等。通过TPO微调这些模型,显著提高了视觉理解能力和对话表现。本文的实验结果表明,TPO在多个图像和视频多模态基准上平均提高了14.6%,尤其在空间定位、时序定位、跟踪和分割等视觉任务中,与专家模型相比,表现出相当的性能。此外,TPO方法具有较好的可扩展性,在不同的任务头、任务数据规模下均能取得优异的表现,且随着任务数据量的增加,模型性能不断提升。
https://arxiv.org/abs/2412.19326
ResearchFlow链接:https://rflow.ai/flow/d8123d88-4c9a-4ea9-ba16-5e8121c8c0fc
02

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective

本文提出了一种基于强化学习(RL)和搜索的路线图,以构建具有强大推理能力的大型语言模型(LLM),如OpenAI的o1模型。o1代表了AI领域的重大突破,其推理能力超越了前代模型,能够进行长时间的推理、问题分解、自我修正、探索新方案等,展现了接近博士级的推理能力。本文重点介绍了如何通过四个关键组件——策略初始化、奖励设计、搜索和学习——构建像o1这样的高级推理模型。
创新点之一是提出了一种基于搜索的思维过程。搜索不仅在训练阶段生成高质量的数据,还在推理阶段帮助模型进一步优化其策略。通过引入搜索,o1模型能够在计算量更大的情况下生成更好的解决方案。这一方法与AlphaGo等经典强化学习系统类似,使用蒙特卡洛树搜索(MCTS)等技术优化决策过程。此方法的关键在于如何将搜索与训练相结合,使得模型能够通过不断的探索提高推理能力,而不需要依赖于昂贵的人工标注数据。
策略初始化是模型训练的起点。由于LLM的动作空间庞大,直接使用强化学习训练是非常困难的,因此可以利用大量的互联网数据进行预训练,形成初步的策略模型,并通过提示工程和监督微调使模型获得类人推理行为。这种策略初始化使得LLM能够系统地思考并验证其结果,进而更好地探索解决方案空间。
奖励设计为搜索和学习过程提供了引导信号。奖励信号的设计非常重要,特别是在环境中奖励信号稀疏或不存在的情况下。例如,在故事写作任务中,可以通过偏好数据学习奖励模型,将稀疏的结果奖励转化为密集的过程奖励,从而提升训练效率。
在搜索方面,训练时的搜索通过生成训练数据来提升数据质量,而测试时的搜索则进一步优化模型的子最优策略。本文提出,在测试阶段,尽管搜索计算量增加可能导致反向缩放问题(即政策、奖励和价值模型在不同的分布上训练和评估),但搜索仍然是提升模型性能的重要手段。
学习过程通过强化学习从环境的互动中获得数据,消除了对人工标注数据的依赖,并提供了超越人类水平的潜力。在该路线图中,强化学习通过策略梯度方法或行为克隆方法进行,前者具有高效的数据利用能力,后者则在简单性和内存效率上更具优势。与AlphaGo Zero类似,结合搜索算法(如MCTS)和学习方法(如行为克隆)最终实现了超人类表现。
https://arxiv.org/abs/2412.14135
ResearchFlow链接:https://rflow.ai/flow/747a3997-f300-462b-bbe8-202f374459dd
03

Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning

本文提出了一种基于分层强化学习(HRL)的多机器人任务规划(MRTP)方法,旨在解决大规模机器人移动履行系统(RMFS)中任务规划面临的挑战。RMFS系统通过多机器人协作提高仓库操作效率,其中涉及复杂的任务调度(TS)、任务分配(TA)和任务分解(TD)。传统的任务规划方法在面对高维度、动态变化和大规模任务时,常常面临维度灾难和性能不稳定的问题。为了克服这些困难,本文提出了一种基于异步多机器人时序图(C2AMRTG)的分层强化学习框架,并结合多阶段课程学习、时间图神经网络(HTAN)以及HRL算法(HCR-REINFORCE),显著提高了规划质量和速度。
创新点在于:首先,本文将MRTP问题建模为具有周期约束的异步多机器人时序图(C2AMRTG),并通过该图提取系统的特殊规律,为后续的规划提供理论基础。其次,采用集中式设计,确保规划过程中的全局最优性,并通过分层结构降低了动作空间的维度,从而提高了规划效率。再次,本文设计了一个基于C2AMRTG的时序图神经网络(HTAN),该网络通过引入特殊的时序嵌入层,增强了空间-时序特征提取能力,能够在更大规模的系统中保持良好的扩展性。为了减少分层框架中不公平的信用分配问题,本文还提出了HCR-REINFORCE算法,并结合行为克隆损失和深度强化学习损失的联合优化方法,加速了训练初期的收敛速度。
此外,本文还设计了多阶段课程学习方法HCR2C,通过逐步扩展训练实例的随机边界,进一步提升了系统在不同规模和未见过的任务地图上的泛化能力,同时避免了灾难性遗忘。最终,实验结果表明,该方法在最大可扩展至200个机器人、1000个取货架和2000个空闲存储架的随机实例中,能够显著优于其他启发式方法和强化学习方法,在现实世界中的RMFS实例中也成功超越了传统规划器。
https://arxiv.org/abs/2412.19538
ResearchFlow链接:https://rflow.ai/flow/ebc4b3cd-24e2-4878-8236-761cb288591a


推荐阅读
  --- END ---
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

推荐文章
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com