本文提出了 TEXTGAMES 这一创新的文本谜题游戏基准评测，-20250227060342（微信文章未删减版）

正文

2025-02-27 06:03
本条微博链接

本文提出了 TEXTGAMES 这一创新的文本谜题游戏基准评测，揭示了当前大型语言模型在复杂逻辑推理能力上存在的显著不足，并通过多轮交互式评测和对不同模型的对比分析，强调了推理能力的重要性以及自我反思机制对提升模型性能的潜力，并反直觉地发现了 GPT-o3 Mini 在高难度推理任务中推理长度与性能之间的反向扩展现象，为未来 LLM 推理能力的研究和提升提供了新的视角和启示。

[CL]《TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning》F Hudi, G I Winata, R Zhang, A F Aji [NAIST & Capital One & Brown University] (2025)

网页链接 #机器学习##人工智能##论文##AI创造营#