首页   

本文提出了 TEXTGAMES 这一创新的文本谜题游戏基准评测,-20250227060342

爱可可-爱生活  · AI  · 17 小时前

正文

2025-02-27 06:03

本文提出了 TEXTGAMES 这一创新的文本谜题游戏基准评测,揭示了当前大型语言模型在复杂逻辑推理能力上存在的显著不足,并通过多轮交互式评测和对不同模型的对比分析,强调了推理能力的重要性以及自我反思机制对提升模型性能的潜力,并反直觉地发现了 GPT-o3 Mini 在高难度推理任务中推理长度与性能之间的反向扩展现象,为未来 LLM 推理能力的研究和提升提供了新的视角和启示。
[CL]《TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning》F Hudi, G I Winata, R Zhang, A F Aji [NAIST & Capital One & Brown University] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com