机器人产业网

牛津大学最新论文:大模型如何编码问题难易程度?

2025-11-14 16:57:43 浏览:20
导读: 大型语言模型(LLM)在复杂任务上可以展现卓越性能。然而,它们却经常在看似简单的问题上失败。近日,牛津大学的研究团队发表了一篇论文,研究LLM 是否编码了一种与人类判断相符的问题难度概念,并追踪了这种表征在基于可验证奖励的强化学习(RLVR)数学推理过程中的演变。团队使用了 60 个模型训练线性探针...

大型语言模型(LLM)在复杂任务上可以展现卓越性能。然而,它们却经常在看似简单的问题上失败。

近日,牛津大学的研究团队发表了一篇论文,研究LLM 是否编码了一种与人类判断相符的问题难度概念,并追踪了这种表征在基于可验证奖励的强化学习(RLVR)数学推理过程中的演变。

团队使用了 60 个模型训练线性探针,并在 Easy2HardBench 的数学和编码子集上评估了它们的难度估计性能。

研究表明,人类得出的难度评级可以从模型激活中强而线性地解码,而 LLM 得出的难度评级则显示出明显较弱的编码

同时,将模型推向“更简单”的表征可以减少输出长度,并通过防止幻觉来提高准确性。

团队还发现,在 GRPO 训练过程中,人类难度表示随着模型能力的增强而增强,而 LLM 难度表示则退化——随着模型的改进,自动难度估计变得越来越不协调。

实验结果

团队使用可验证奖励强化学习 (RLVR) 来增强模型推理能力。它将强化学习融入到具有基于规则的结果奖励的低阶模型中,可以根据模型对数学问题最终答案的准确性给予二元奖励。

他们使用 Easy2HardBench 中的两个数学子集构建探测数据集,每个问题都有一个难度分数。

同时,团队从18 个模型家族的 60 个变体中提取激活值,包含 DeepSeek、Qwen-2.5等大模型,以检验增强的推理能力是否能带来更好的难度表征。

结果表明:

  • 人类难度在 LLM 激活中呈线性编码。模型激活更好地编码了人类对难度的评价,而非 LLM 推导出的难度估计。

  • 难度表征随模型大小而变化。更大的模型能更好地表征编码难度。

  • 最佳探测位置因任务而异。虽然最后一个标记位置通常在所有数据集上都能产生最优探针,但某些位置在特定模型中表现出色,这表明最后一个标记位置并非普遍最优。

  • 线性探针可以引导模型进行更长的迭代,并诱导工具推理

  • 结论

    团队发现,人类难度表征在训练过程中保持稳定或有所提升,相比之下,LLM 难度表征在早期层和中间层普遍退化,性能下降幅度高达50%。这种层级范围内的退化表明,LLM 难度表征是一个噪声信号,GRPO 会系统性地覆盖它。

    但是,这也存在几个局限性。团队仅关注 E2H 中的编码和数学任务,而忽略了其他三个子集。计算资源的限制使得模型无法在所有 E2H 子集上进行广泛的实验,也无法在更大的模型上进行 GRPO 训练。

    鉴于此因,研究人员将开展更广泛的跨模型研究,这对于全面刻画沿难度方向的转向效应至关重要。

    相关人员表示,未来的研究应该调查探测结果是否能推广到 Codeforces 以外的其他需要编码和推理的智能体任务,并探索难度表征在推理和多轮对话过程中是如何演变的。

    参考资料:

    https://arxiv.org/pdf/2510.18147

【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1153.html