今年的 International Conference on Learning Representations(ICLR)2026 审稿阶段掀起波澜。一份流出的数据分析显示,大约21%的审稿意见被判定为由 AI 完全生成——这一数字迅速在学术圈炸开了锅。
在对 75800 篇论文的审稿意见统计中,完全由人类审稿人撰写的仅占43%。
其中,21% 由 AI 完全生成、4%由 AI 重度编辑、9%由 AI 中度编辑、22% 由 AI 轻度编辑。
数据显示,AI 审稿的意见篇幅更长,而且AI 审稿更可能给出高分。
有用户在 Reddit 论坛吐槽,“我很担心审稿的质量,很多审稿人根本没有在做他们应该做的工作“,“这一批审稿质量简直是我见过最差”,“根本就是随机打分”。
与此同时,ICLR 会议在今年早期已发布针对 LLM 使用的政策里明确指出,作者与审稿人如使用 LLM 必须披露;若 LLM 被用来完全生成审稿意见或破坏对稿件的保密义务,将有伦理违规风险。
研究数据
为什么会产生这样的问题?
一个猜测是 ICLR 今年投稿爆炸式增长,审稿周期紧、稿件量大,AI 可生成合规且高效的评审文本。
此次事件,是 Pangram Labs 机构对 ICLR 2026 投稿人和审稿人使用 AI 的情况进行了详尽的分析。这是一家专门检测 AI 生成的科技公司。
由于评审文本很短,无法区分AI 辅助与AI 生成。因此,Pangram Labs 使用了 EditLens—— 一个可以量化一段文本中 AI 辅助程度的新模型。
一个有趣的发现是,论文中的 AI 使用程度与较低的评分呈相关性。被 Pangram Labs 标记为90–100%AI 内容的投稿,平均得分竟然只有2.9。
同时,完全由 AI 生成的评审平均得分居然比人类撰写的评审高出0.3分,长度也长了26%。
Pangram Labs 使用 ICLR 2022 的审稿意见来验证模型准确性(假阳性率)。结果显示,完全由 AI 生成的未出现任何假阳性。
官方回应
ICLR 2026 马上发布了一则官方回应,表示“已经注意到低质量的评审以及由大语言模型生成的评审,目前正在讨论应采取的适当措施”。
8月份 ICLR 发布的政策显示,审稿人使用 LLM 生成或辅助撰写意见,若未披露,将被视为违反伦理守则。
针对审稿人极端使用 LLM 生成的情形,会议保留取消其审稿/作者资格的权利。
除此之外,作者在投稿中,若使用 LLM 进行论文撰写或实验分析,也必须在论文中注明使用方式。
参考资料:
https://www.reddit.com/r/MachineLearning/comments/1otlqqv/d_iclr_2026_paper_reviews_discussion/?utm_source=chatgpt.com
https://blog.iclr.cc/2025/08/26/policies-on-large-language-model-usage-at-iclr-2026/?utm_source=chatgpt.com
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1273.html
