AAAI 2025 | 北航、港城大提出POI-Enhancer：基于大模型的POI表征学习增强框架（微信文章未删减版）

正文

本篇分享 AAAI 2025 论文 POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning。本文提出了一种基于大语言模型的 POI 表征学习增强框架。

论文标题：

POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning

论文作者：

博士生程佳伟、王静远教授、博士生张艺川、博士生寄家豪、博士生朱元绍、硕士生张智博、赵翔宇教授

作者单位：

北京航空航天大学、香港城市大学

通讯作者：

王静远教授、赵翔宇教授

课题组：

北航智慧城市课题组 BIGSCity（https://www.bigscity.com/）、香港城市大学应用机器学习实验室（https://aml-cityu.github.io/）

研究方向：

时空数据挖掘

论文链接：

https://arxiv.org/pdf/2502.10038

代码仓库链接：

https://github.com/Applied-Machine-Learning-Lab/POI-Enhancer

背景介绍

兴趣点表征学习在处理与用户移动数据相关的任务中起着至关重要的作用。最近的研究表明，用多模态信息来丰富兴趣点表征可以显著提高它们的任务性能。以前，兴趣点表征中包含的文本信息通常只涉及兴趣点类别或签到内容，导致现有表示方法中的文本特征相对较弱。

相比之下，在大量文本数据上训练的大型语言模型（LLM）被发现拥有丰富的文本知识。

然而，利用这些知识来增强兴趣点表征学习面临两个关键挑战：第一，如何有效地从 LLM 中提取与兴趣点相关的知识，第二，如何整合提取的信息以增强兴趣点表征。

为了应对这些挑战，我们提出了 POI-Enhancer，这是一个可移植的框架，它利用 LLM 来改进由经典兴趣点学习模型生成的兴趣点表征。我们首先设计三个专门的提示来有效地从 LLM 中提取语义信息。

然后，双特征对齐模块增强了提取信息的质量，语义特征融合模块则保留了其完整性。然后，交叉注意力融合模块充分地将这些高质量信息集成到兴趣点表征中，而多视图对比学习则进一步将人类可理解的语义信息注入这些表示中。

我们在三个真实世界数据集上进行的大量实验证明了这个框架的有效性，显著提高了所有基线表示模型的表现。

方法

▲ 图1 POI-Enhancer 框架图

为了应对这些挑战，我们提出了一个兴趣点表示增强框架，称为 POI-Enhancer，如上图所示。旨在利用 LLM 中的文本信息来加强嵌入向量。具体来说，为了更好地利用 LLM 来提取兴趣点的文本特征，我们开发了独特的提示来单独提取与兴趣点地址、访问模式和周围环境相关的特征。

在此之后，我们设计了双特征对齐模块来利用文本特征之间的关系，从而能够获取更高质量的语义信息。语义特征融合模块专门设计用于确保高质量语义信息的保存。

然后，为了将提取的信息与表示向量充分集成，我们引入了基于注意力机制的交叉注意力融合模块。最后，我们结合多视图对比学习，进一步将人们更容易理解的语义信息注入兴趣点表示中，以增强其捕获真实世界模式的能力。

纵览方法，本文所提出的框架可以被细分为三个部分：提示词生成与特征提取、兴趣点表征的增强与多视图下的对比学习，分别对应图中的（a）（b）（c）三个部分。

提示生成和特征提取

在生成提示词之前，除了数据集中提供 POI ID，POI 类型，POI 坐标数据，我们还根据 POI 的经纬度额外爬取了每个 POI 的地址信息，并且根据 POI 的访问数据和周围 POI 数据，统计处理得到每个 POI 的访问模式信息和邻近环境信息，用于接下来的提示词生成，并且以此数据为指引来设计后续的表征增强模型。

在提示词生成与特征提取部分，如图 1（a）所示，我们为利用大语言模型中的地理知识增强兴趣点表征这一任务设计了提示词模板，有角色导入、兴趣点信息、问题三部分构成。

在角色导入部分，提示词指示大语言模型扮演一名熟悉当地地理信息的居民；在兴趣点信息部分，根据提示词类型的不同，我们将对应的兴趣点信息以自然语言的形式传入大语言模型中；而在问题部分，我们为不同类型的提示词设计了不同的问题，力图充分调动大语言内部的地理知识，提高大语言模型输出的质量。

此外根据提示词模板，我们为兴趣点访问模式、兴趣点地址、兴趣点周边生成三类提示词，这样做的目的是能帮助 LLM 更准确的找到 POI 的丰富的地理信息。

而在特征提取过程中，我们将三类提示词依次传入大语言模型中，并忽略其最终输出的文字，从大语言模型的最后一个隐层中提取向量并进行进一步的处理，因此我们根据兴趣点访问模式、兴趣点地址、兴趣点周边三类提示词分别得到三个对应的特征向量。

其中是三个类别的提示词提取 LLM 得到的特征向量。

兴趣点表征的增强

图 1（b）中的兴趣点表征增强部分一共分为三个步骤：双特征对齐、语义特征融合与交叉注意力融合。

双特征对齐环节涉及将具有一定关系的特征向量进行对齐，从而进一步提高特征向量的质量。在这一环节中，上一步得到的三个特征向量将被转换为更高维度的隐向量。

接着考虑到地址是 POI 特征中最重要的一环节，而 POI 地址和 POI 访问模式，POI 地址和周围环境都存在着密切关系，因此这些隐向量会根据自身的来源特征分两成两组进行对齐，送往接下来的语义特征融合，语义融合延用的是多头注意力机制的原理。

下一个步骤是是语义特征融合，由于 POI 访问模式与周遭环境也是存在互相影响，基于此我们会把上一步得到的两个向量通过加权融合的方式形成一个来自于 LLM 的综合的语义信息向量。

而在第三步交叉注意力融合中，交叉注意力融合方法能够将需要增强的 POI 表征向量与上一步中综合语义信息进行充分的融合，达到增强的效果，这里我们使用的多模态融合中常用的交叉注意力机制。

多视图下的对比学习

在最后的多视图对比学习环节中，与常用的只考虑地理距离为基础的对比学习不同，我们为了提高向量增强的鲁棒性和泛化能力，采用了三种不同的视图来挑选正负样本对。

1. 从用户的签到记录序列来看，用户在同一天内访问的各个兴趣点很可能具有相似性，因此我们规定用户在同一天内访问的某一兴趣点与其之前、之后访问的两个兴趣点互为正样本。

2. 从地理角度来看，地理位置相近的兴趣点应当具有相似性，因此对于任意兴趣点，我们以其为中心在地图上构造一个大小固定的方形区域，并规定该区域内的所有兴趣点点为该兴趣点的正样本。

3. 从功能角度上来看，从属于同一兴趣点类别并且用有着相似的访问模式的兴趣点应当语义相近，因此我们规定满足这两条条件的兴趣点互为正样本；而负样本则通过随机抽样产生。

损失函数

首先对比学习函数，我们选用了经典的 InfoNCE：

此外为了保证增强向量与原本向量的分布相似，我们加入了以余弦相似度为基础的相似度损失函数，如下所示：

总损失函数就是两者之和。

实验分析

4.1 实验设置

在实验分析环节，我们使用了 Foursquare-NY，Foursquare-SG， Foursquare-NY 三个分别采集于纽约、新加坡与东京的用户签到序列数据集。为了减少数据中的噪声，我们移除了签到次数少于 5 次的兴趣点以及长度小于 10 的用户签到序列，处理后的数据集的统计信息如表 2 所示。

在所有实验中，我们对数据集中的数据进行了打乱，并按照 7:1:2 的比例划分了训练集、验证集与测试集。

为了充分展现我们所提出的模型的能力，我们选择了六个不同的兴趣点表征模型 Skip-Gram, POI2Vec, Geo-Teaser, TALE, Hier 与 CTLE 来进行实验，并在兴趣点推荐、签到序列分类、兴趣点访问流量预测这三个不同的下游任务上进行了测评。

对于兴趣点推荐任务，我们使用 Hit@k，即模型推荐的前 k 个兴趣点命中的频率作为评测指标；对于签到序列分类任务，我们使用准确度（ACC）与 Macro-F1 作为评测指标；对于兴趣点访问流量预测，我们使用平均绝对误差（MSE）与均方根误差（RMSE）作为评测指标。

4.2 实验结果

▲ 图2 下游任务综合实验结果

实验的总体结果如上图所示，不难发现表明 POI-Enhancer 显著提高了所有数据集中所有基线的性能。

我们知道Skip-Gram 和 POI2Vec 以不同的方式合并空间信息：Skip-Gram 使用共现频率，而 POI2Vec 使用地理二叉树，两者都忽略了时间特征。Geo-Teaser 包括粗粒度的空间和时间数据，而 TALE、Hier 和 CTLE 集成更细粒度的时空数据。

然而，所有六种方法都忽略了 POI 语义知识。我们的框架解决了这一差距，显著提高了性能。

在兴趣点推荐任务上，我们的模型是的 POI2VEC 在纽约数据集上的表现提升了超过 20%，这很有可能是因为 POI2Vec 模型注重捕捉序列内各条签到信息之间的关系，而忽略了其他模态的信息。

在签到数据序列分类任务上，POI2Vec 模型同样获得了极高的提升，而 Skip-Gram 算法则提升较少，这可能是因为 Skip-Gram 模型更加注重对用户轨迹的建模，其可优化空间相比于其他算法而言较少。

在兴趣点访问流量预测上，作为 SOTA 模型的 CTLE 在经过加强后表现获得了较大的提升，这进一步说明了我们模型在加强 POI 表征方面的有效性。

同时，我们在几乎所有的数据集、模型与下游任务上都得到了提升，这也说明从大语言模型中提取额外的地理知识，并将其融合到兴趣点表征中这一方法的可行性与有效性。

▲ 图3 消融实验结果

我们用四个变体设置进行综合实验，以评估我们设计的组件的有效性：

POI-Enhancer/P 我们移除了包括角色扮演、属性标题和问题在内的特殊提示设计。
POI-Enhancer/D 我们移除了双特征对齐和语义嵌入融合。取而代之的是，我们生成了一个单一的提示，它在保持相同格式的情况下积累了前三种提示的内容。LLM 从这个提示中提取的特征将直接输入到交叉注意力融合中。
POI-Enhancer/F 我们移除了交叉注意力融合，并将 EP OI 和 ELLM 连接起来作为最终向量。
POI-Enhancer/C 我们只考虑空间视角。具体来说，给定一个 POI，我们定义一个以它为中心的正方形区域来收集正样本，参数与地理对比学习一致。

我们使用纽约数据集在三个下游任务上测试了它们，以 Hit@1、ACC 和 MAE 作为评估指标。如图 3 所示，POI-Enhancer 优于所有变体设置，我们可以得出以下结论：

1. 专门的提示可以增强框架的性能，因为它们刺激 LLM 更有效地提取时空知识；

2. 双特征对齐和语义特征融合有助于获得和维护高质量的语义向量，提高 POI 表示的能力；

3. 交叉注意力融合实现了更彻底的集成，允许最终向量捕获更丰富的语义信息，从而提高性能；

4. 与基于距离的正样本相比，多视图对比学习从不同的角度选择更丰富的样本，增强了嵌入向量的能力。

▲ 图4 质量分析实验结果

质量分析的实验结果如上图所示。为了进一步测量通过本框架强化的兴趣点表征的质量，我们使用 K-means 算法在三个数据集上进行了聚类任务的测试。在这一过程中，我们使用 K-means 算法对加强前与加强后的兴趣点表征向量进行聚类，并使用归一化互信息（NMI）指标对聚类结果进行了评估。

从实验结果中可以发现，相比于增强前的结果，经过增强后的兴趣点表征的质量得到了明显的提升。

这说明了以下三点：

1. 我们成功地从大语言模型中提取出了高质量的特征，而这一特征对提高兴趣点表征的质量有着关键的作用；

2. 我们高效的将提取出来的特征融合到了未经加强的兴趣点表征中，使得其各方面的性质得到了提升；

3. 本框架中使用的多视图的对比学习方法能够做到拉近相同类型的表征向量在隐空间中的距离，同时拉远不同类型的表征向量之间的距离。

结论

我们提出了一个名为 POI-Enhancer 的、能够利用大语言模型增强几乎所有兴趣点表征的框架。

为了达成这一目标，一方面，我们通过设计三类特殊的提示词克服了大语言模型对数字不敏感，难以从大语言模型中提取信息这一挑战；另一方面，为了更好的将获得的信息进行对齐与融合，我们设计了双特征对齐、特征融合、交叉注意力融合三个步骤以替代较为简陋的拼接方法。

此外，我们还为这一框架的训练设计了多视图对比学习这一训练方式。实验证明我们的框架能够显著地提高几乎所有兴趣点表征方法在各类下游任务上的表现。

如果你觉得本文有用的话，请引用：

Plain Text
@misc{cheng2025poienhancerllmbasedsemanticenhancement,
      title={POI-Enhancer: An LLM-based Semantic Enhancement Framework for POI Representation Learning}, 
      author={Jiawei Cheng and Jingyuan Wang and Yichuan Zhang and Jiahao Ji and Yuanshao Zhu and Zhibo Zhang and Xiangyu Zhao},
      year={2025},
      eprint={2502.10038},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2502.10038}, 
}

![](https://files.mdnice.com/user/4425/d0b3a59e-2ed8-4520-a793-8958259005e4.png)