牛津大学最新论文：大模型如何编码问题难易程度？-机器人产业网

导读：大型语言模型（LLM）在复杂任务上可以展现卓越性能。然而，它们却经常在看似简单的问题上失败。近日，牛津大学的研究团队发表了一篇论文，研究LLM 是否编码了一种与人类判断相符的问题难度概念，并追踪了这种表征在基于可验证奖励的强化学习（RLVR）数学推理过程中的演变。团队使用了 60 个模型训练线性探针...

大型语言模型（LLM）在复杂任务上可以展现卓越性能。然而，它们却经常在看似简单的问题上失败。

近日，牛津大学的研究团队发表了一篇论文，研究LLM 是否编码了一种与人类判断相符的问题难度概念，并追踪了这种表征在基于可验证奖励的强化学习（RLVR）数学推理过程中的演变。

团队使用了 60 个模型训练线性探针，并在 Easy2HardBench 的数学和编码子集上评估了它们的难度估计性能。

研究表明，人类得出的难度评级可以从模型激活中强而线性地解码，而 LLM 得出的难度评级则显示出明显较弱的编码。

同时，将模型推向“更简单”的表征可以减少输出长度，并通过防止幻觉来提高准确性。

团队还发现，在 GRPO 训练过程中，人类难度表示随着模型能力的增强而增强，而 LLM 难度表示则退化——随着模型的改进，自动难度估计变得越来越不协调。

实验结果

团队使用可验证奖励强化学习 (RLVR) 来增强模型推理能力。它将强化学习融入到具有基于规则的结果奖励的低阶模型中，可以根据模型对数学问题最终答案的准确性给予二元奖励。

他们使用 Easy2HardBench 中的两个数学子集构建探测数据集，每个问题都有一个难度分数。

同时，团队从18 个模型家族的 60 个变体中提取激活值，包含 DeepSeek、Qwen-2.5等大模型，以检验增强的推理能力是否能带来更好的难度表征。

结果表明：

人类难度在 LLM 激活中呈线性编码。模型激活更好地编码了人类对难度的评价，而非 LLM 推导出的难度估计。

难度表征随模型大小而变化。更大的模型能更好地表征编码难度。

最佳探测位置因任务而异。虽然最后一个标记位置通常在所有数据集上都能产生最优探针，但某些位置在特定模型中表现出色，这表明最后一个标记位置并非普遍最优。

线性探针可以引导模型进行更长的迭代，并诱导工具推理。
结论
团队发现，人类难度表征在训练过程中保持稳定或有所提升，相比之下，LLM 难度表征在早期层和中间层普遍退化，性能下降幅度高达50%。这种层级范围内的退化表明，LLM 难度表征是一个噪声信号，GRPO 会系统性地覆盖它。
但是，这也存在几个局限性。团队仅关注 E2H 中的编码和数学任务，而忽略了其他三个子集。计算资源的限制使得模型无法在所有 E2H 子集上进行广泛的实验，也无法在更大的模型上进行 GRPO 训练。
鉴于此因，研究人员将开展更广泛的跨模型研究，这对于全面刻画沿难度方向的转向效应至关重要。
相关人员表示，未来的研究应该调查探测结果是否能推广到 Codeforces 以外的其他需要编码和推理的智能体任务，并探索难度表征在推理和多轮对话过程中是如何演变的。
参考资料：
https://arxiv.org/pdf/2510.18147

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1153.html

实验结果

结论

相关文章