Grok 4.1 发布！霸榜各大榜单-机器人产业网

导读：刚刚，马斯克在社交平台上发布了 Grok 4.1 新鲜出炉的消息。“你会看到速度和质量上的提升。”官方表示，Grok 4.1 在创意、情感和协作互动方面表现出色。能够更敏锐地感知细微的意图，更易于沟通，同时又完全保留了敏锐的智能和可靠性。团队沿用了 Grok 4 的大规模强化学习基础设施，并将其应用...

刚刚，马斯克在社交平台上发布了 Grok 4.1 新鲜出炉的消息。“你会看到速度和质量上的提升。”

官方表示，Grok 4.1 在创意、情感和协作互动方面表现出色。能够更敏锐地感知细微的意图，更易于沟通，同时又完全保留了敏锐的智能和可靠性。

团队沿用了 Grok 4 的大规模强化学习基础设施，并将其应用于优化模型的风格、个性、实用性和一致性。

为了优化这些不可验证的奖励信号，他们开发了新的方法，通过使用前沿的智能推理模型作为奖励模型，进行大规模地自主评估和迭代响应。

创意和情感

在 LMArena 的文本榜单中，Grok 4.1 Thinking 以1483 Elo分高居榜首，比排名最高的非 xAI 模型高出 31 分。

Grok 4.1 的非推理模式不使用任何思考标记进行即时响应，以 1465 Elo 分位列第二。Grok 4 总排名仅为第 33 位。

团队使用 EQ-Bench3 对 Grok 4.1 进行了人际交往评估。EQ-Bench 是一项由 LLM 评判的测试，用于评估主动情商、理解力、洞察力、同理心和人际交往能力。

测试集包含 45 个具有挑战性的角色扮演场景，通过验证模型对多个标准的响应来评估模型的性能。Grok 4.1 在测试中高居榜首。

4.1 版本模型在创意写作 v3 基准测试上也获得了不错的成绩。在该基准测试中，模型需要对 32 个不同的写作提示进行 3 次迭代并生成答案。

幻觉减少

由于推理深度受限和工具调用预算有限，模型可能容易出现事实错误。

研究人员观察到，对于抽样生成的信息检索提示，幻觉发生率显著降低。

基于生产环境流量的真实信息搜索查询分层样本评估幻觉发生率，团队还评估了 FActScore，这是一个包含 500 个关于个人传记问题的公开基准测试。

Grok 4.1 现已面向所有用户开放，可通过 Grok 官网和 X 以及 iOS 和 Android 应用使用。

参考资料：

https://x.ai/news/grok-4-1

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1271.html

创意和情感

幻觉减少

相关文章