大型语言模型(LLM)在复杂任务上可以展现卓越性能。然而,它们却经常在看似简单的问题上失败。
近日,牛津大学的研究团队发表了一篇论文,研究LLM 是否编码了一种与人类判断相符的问题难度概念,并追踪了这种表征在基于可验证奖励的强化学习(RLVR)数学推理过程中的演变。
团队使用了 60 个模型训练线性探针,并在 Easy2HardBench 的数学和编码子集上评估了它们的难度估计性能。
研究表明,人类得出的难度评级可以从模型激活中强而线性地解码,而 LLM 得出的难度评级则显示出明显较弱的编码。
同时,将模型推向“更简单”的表征可以减少输出长度,并通过防止幻觉来提高准确性。
团队还发现,在 GRPO 训练过程中,人类难度表示随着模型能力的增强而增强,而 LLM 难度表示则退化——随着模型的改进,自动难度估计变得越来越不协调。
实验结果
团队使用可验证奖励强化学习 (RLVR) 来增强模型推理能力。它将强化学习融入到具有基于规则的结果奖励的低阶模型中,可以根据模型对数学问题最终答案的准确性给予二元奖励。
他们使用 Easy2HardBench 中的两个数学子集构建探测数据集,每个问题都有一个难度分数。
同时,团队从18 个模型家族的 60 个变体中提取激活值,包含 DeepSeek、Qwen-2.5等大模型,以检验增强的推理能力是否能带来更好的难度表征。
结果表明:
人类难度在 LLM 激活中呈线性编码。模型激活更好地编码了人类对难度的评价,而非 LLM 推导出的难度估计。
难度表征随模型大小而变化。更大的模型能更好地表征编码难度。
最佳探测位置因任务而异。虽然最后一个标记位置通常在所有数据集上都能产生最优探针,但某些位置在特定模型中表现出色,这表明最后一个标记位置并非普遍最优。
线性探针可以引导模型进行更长的迭代,并诱导工具推理。
结论
团队发现,人类难度表征在训练过程中保持稳定或有所提升,相比之下,LLM 难度表征在早期层和中间层普遍退化,性能下降幅度高达50%。这种层级范围内的退化表明,LLM 难度表征是一个噪声信号,GRPO 会系统性地覆盖它。
但是,这也存在几个局限性。团队仅关注 E2H 中的编码和数学任务,而忽略了其他三个子集。计算资源的限制使得模型无法在所有 E2H 子集上进行广泛的实验,也无法在更大的模型上进行 GRPO 训练。
鉴于此因,研究人员将开展更广泛的跨模型研究,这对于全面刻画沿难度方向的转向效应至关重要。
相关人员表示,未来的研究应该调查探测结果是否能推广到 Codeforces 以外的其他需要编码和推理的智能体任务,并探索难度表征在推理和多轮对话过程中是如何演变的。
参考资料:
https://arxiv.org/pdf/2510.18147
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1153.html
