高效且鲁棒！华为诺亚、MILA提出全新框架PoT，全面提升大模型复杂关系推理能力

PaperWeekly · 科研 · 昨天

正文

文章背景

大型语言模型（如 GPT-4）在自然语言理解和生成方面表现出色，例如对话问答、代码生成等。这种能力得益于在大量真实世界语言数据上的预训练，这使得 LLMs 可以隐式地学习实体、关系和推理模式 [1]。

尽管如此，LLMs 在处理自然语言关系推理（例如亲属关系推理 [2]、空间关系推理 [3] 等）任务时表现依然有限。

该任务要求 LLMs 从输入的文本描述中整合实体间的多跳关系，并最终推导出目标实体间的关系，其对于基于 LLMs 的真实场景应用（例如机器人规划、路线导航、智能问答等）至关重要。但在真实场景中存在广泛存在的与目标推导无关的信息会对 LLMs 的理解与推理造成干扰，进而导致错误的推理结果。

另一方面，在 [4] 等中的研究显示，人类能够通过环境中的多种线索构建认知地图（Cognitive Map，一种抽象关系图），来处理复杂推理任务。而 LLMs 缺乏这种构建能力，其关系推理依赖于文本中的隐含模式，而没有直接利用到文本所描述出的结构信息。

为了克服上述 LLMs 的局限性，来自华为诺亚方舟实验室以及麦吉尔大学， MILA 魁北克人工智能研究所的研究者们一起提出了一个更高效且鲁棒的关系推理框架，Path-of-Thoughts（PoT），其动机来源于以下几点：

1. 减少 LLMs 的浅层推理倾向：通过构造推理过程中的“认知地图”，将复杂任务分解为“图抽取-路径识别-推理”三个阶段，让模型专注于小的、具体的子任务，从而提高复杂推理的准确性。

2. 提升对上下文错误的鲁棒性：利用图结构的特性，允许多路径推理，从而缓解由文本自身歧义或 LLM 抽取错误所引起的推理矛盾。

3. 简化任务特定的依赖：使用图这种通用结构作为推理基础，无需像神经求解器的方式为每个任务构建特定的符号表示或规则集合。

4. 降低模型调用成本：通过减少重复调用 LLMs，降低计算资源需求，提高推理效率。

论文标题：

Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models

论文链接：

https://arxiv.org/abs/2412.17963

框架概述

论文提出的新架构 PoT 用于解决 LLMs 在复杂关系推理任务中的局限性。其将推理任务分解为图抽取，路径识别，推理这三个阶段，提高了推理的准确性和鲁棒性。

2.1 图抽取（Graph Extraction）

从输入文本中抽取关系图，包含所有关键的实体、关系及其属性。

首先，通过所设计的 prompt，从文本中抽取实体、关系和属性（例如“小明是小红的父亲”或“物品 A 在物品 B 的右侧”），抽取的内容被组织为三元组的形式（例如（A, relation, B））。

随后，将抽取的三元组作为图的边，实体作为节点，构建关系图 G =（N, E），其中 N 是节点集，E 是边集。

最后，从问题中抽取出查询目标（例如 “X 和 Y 的关系是什么？”中的 X 与 Y），并将其映射到关系图中的对应节点，设为 n_src与 n_tar。

2.2 路径识别（Path Identification）

在关系图中检索所有连接两个查询目标的推理路径。

推理路径（p）是关系图中从 n_src到 n_tar的一条边序列（p = [e₁, e₂, ..., e_k]），其中 e_i 属于边集 E。每条路径代表一条可能的推理链。当关系图中存在矛盾（输入本身存在歧义内容或由 LLM 的抽取错误造成）时，通过识别所有可能的推理路径，能够增强框架的鲁棒性。

2.3 推理（Reasoning）

基于识别出来的推理路径，推导出所有可能的答案。论文设计了 2 种推理器来进行推理。

LLM 推理器：

使用 LLM，以自然语言形式进行推理。
将推理路径自然语言化后作为 LLM 的输入，其有助于 LLM 聚焦于关键推理链，避免受到无关上下文或矛盾信息干扰。
无需预定义的规则，泛用性好。

符号推理器：

使用符号推理工具（如 CLINGO [5]），根据图中路径和预定义的逻辑规则推导答案。
符号推理特别适用于领域规则明确的问题（如亲属关系问题或空间几何问题）。
借助预定义的规则，能在特定推理问题上达到更佳效果。

实验效果&分析

3.1 实验设置

3.1.1 数据集

论文在四个数据集上评估了 PoT 框架的性能，涉及不同的任务类型和推理复杂性：

StepGame：评估空间推理能力，涉及2维方向关系（如上下、左右），评估的推理长度 k 为 3, 4, 10 不等。
CLUTRR：评估英文亲属关系推理能力，推长度从 2 到 10 不等。
SPARTUN：评估空间推理能力，与 StepGame 数据集不同，其涉及更广泛的 3 维空间关系（如“覆盖”、“前后”等）。
中文亲属数据集：自定义数据集，用于评估复杂中文亲属关系推理。

3.1.2 基线方法

论文将 PoT 与以下基线方法进行了比较：

Prompting 方法：包括直接向 LLM 提问（IO）、Few-shot prompting （Few-Shot）、Chain-of-Thought（CoT）、CoT with Self-Consistency（CoT-SC）。
Neural symbolic 方法：LLM-ASP [6]，通过 LLM 抽取三元组关系后调用符号推理器进行推理。

3.1.3 基础 LLMs

论文使用了 GPT-3.5-turbo、GPT-4-turbo 以及 GPT-4o 作为 backbone LLMs 来进行评测。

3.1.4 测试指标

检查模型是否能够预测出至少一个可能的正确关系。

实验结果

4.1 推理准确性表现

StepGame：在 k=3, 4, 10 的不同推理长度的2维空间推理任务中，PoT 显著优于 Prompting 方法。在复杂推理任务（k=10）中，PoT-LLM 准确率为 40.1% （GPT-4-turbo），高于最佳 Prompting 方法（34.4%）。使用符号推理器时，进一步提升准确率至 85.6%。

CLUTRR：在英文亲属推理任务上，PoT 的提升尤为显著。PoT-LLM 达到 57.6% 的准确率，高于 CoT-SC 的 54.6%。PoT-Symbolic 准确率进一步提升至 66.1%，相比 LLM-ASP 的 48.1% 具有明显优势。

SPARTUN：在更复杂的 3 维空间关系推理任务中，PoT 也同样表现出色。PoT-LLM 准确率为 52.7%（GPT-3.5-turbo）。当使用更强的 LLM（如 GPT-4o）时，PoT-LLM 则能够达到 83.1% 的准确率，超过所有 Prompting 基线。

中文亲属数据集：PoT-LLM 在 GPT-4o 上准确率为 71.2%，优于所有 Prompting 基线（如 CoT-SC 的 68.5%）。

4.2 图抽取性能

论文测试了不同 prompt 设计对图抽取准确性的影响：所设计的 prompt 实现了高达 95.9% 的整体抽取准确率，优于普通 CoT Few-shot prompt（91.9%）。

4.3 鲁棒性测试

论文总结了 7 种常见噪声（如“错误边方向”、“无关节点”、“矛盾关系”等）并添加在人工清洗后的 CLUTRR 数据集上，用于对比评测 PoT-Symbolic 和 LLM-ASP 对噪声的鲁棒性。噪声添加方式分为按类别添加或按数量添加两种。

结果显示 PoT-Symbolic 的鲁棒性在所有噪声类型下均优于 LLM-ASP，尤其是在“添加无关边”（type_D）和“添加主链边”（type_E）情况下。另一方面，随着噪声数量的增加，PoT 的准确率下降幅度也要明显小于 LLM-ASP。

结论

本文提出了 Path-of-Thoughts（PoT）框架，专注解决 LLMs 在多步关系推理任务中的局限性。其将任务分解为三个阶段：图抽取（从文本中抽取关系图）、路径识别（检索与问题相关的所有关键推理链）和推理（利用 LLM 或符号推理器推理答案）。

实验表明，PoT 在四个数据集上显著优于基线方法，尤其在长推理链和复杂关系任务中表现突出。PoT 通过多路径推理提升了鲁棒性，同时减少了模型调用成本，为复杂推理任务提供了高效且通用的解决架构。

参考文献

[1] Roma Patel and Ellie Pavlick. 2022. “Mapping language models to grounded conceptual spaces'. In Proceedings of the International Conference on Learning Representations.

[2] Koustuv Sinha, Shagun Sodhani, Jin Dong, Joelle Pineau, and William L. Hamilton. 2019. 'CLUTRR: A diagnostic benchmark for inductive reasoning from text.' In Proceedings of the Conference on Empirical Methods in Natural Language Processing and the International Joint Conference on Natural Language Processing.

[3] Zhengxiang Shi, Qiang Zhang, and Aldo Lipani. 2022. 'StepGame: A new benchmark for robust multi-hop spatial reasoning in texts.' In Proceedings of the AAAI Conference on Artificial Intelligence.

[4] Mona M Garvert, Raymond J Dolan, and Timothy EJ Behrens. 2017. 'A map of abstract relational knowledge in the human hippocampal–entorhinal cortex'. eLife, 6:e17086.

[5] Vladimir Lifschitz. 2008. 'What is answer set programming?' In Proceedings of the National Conference on Artificial Intelligence - Volume 3.

[6] Zhun Yang, Adam Ishay, and Joohyung Lee. 2023. 'Coupling large language models with logic programming for robust and general reasoning from text.' In Findings of the Association for Computational Linguistics: ACL.

更多阅读