刚刚,马斯克在社交平台上发布了 Grok 4.1 新鲜出炉的消息。“你会看到速度和质量上的提升。”
官方表示,Grok 4.1 在创意、情感和协作互动方面表现出色。能够更敏锐地感知细微的意图,更易于沟通,同时又完全保留了敏锐的智能和可靠性。
团队沿用了 Grok 4 的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、实用性和一致性。
为了优化这些不可验证的奖励信号,他们开发了新的方法,通过使用前沿的智能推理模型作为奖励模型,进行大规模地自主评估和迭代响应。
创意和情感
在 LMArena 的文本榜单中,Grok 4.1 Thinking 以1483 Elo分高居榜首,比排名最高的非 xAI 模型高出 31 分。
Grok 4.1 的非推理模式不使用任何思考标记进行即时响应,以 1465 Elo 分位列第二。Grok 4 总排名仅为第 33 位。
团队使用 EQ-Bench3 对 Grok 4.1 进行了人际交往评估。EQ-Bench 是一项由 LLM 评判的测试,用于评估主动情商、理解力、洞察力、同理心和人际交往能力。
测试集包含 45 个具有挑战性的角色扮演场景,通过验证模型对多个标准的响应来评估模型的性能。Grok 4.1 在测试中高居榜首。
4.1 版本模型在创意写作 v3 基准测试上也获得了不错的成绩。在该基准测试中,模型需要对 32 个不同的写作提示进行 3 次迭代并生成答案。
幻觉减少
由于推理深度受限和工具调用预算有限,模型可能容易出现事实错误。
研究人员观察到,对于抽样生成的信息检索提示,幻觉发生率显著降低。
基于生产环境流量的真实信息搜索查询分层样本评估幻觉发生率,团队还评估了 FActScore,这是一个包含 500 个关于个人传记问题的公开基准测试。
Grok 4.1 现已面向所有用户开放,可通过 Grok 官网和 X 以及 iOS 和 Android 应用使用。
参考资料:
https://x.ai/news/grok-4-1
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1271.html
