
01
重大发布(新模型/产品/开源)
①马斯克:新版Grok Imagine已发布
7日晚间,马斯克发布推文称新版的视频生成工具Grok Imagine已经发布。

官方并未公开此次更新的技术细节,因此推测是针对近期Grok遭到内容生成相关指控的一次紧急更新。
根据实测反馈,此次更新后内容审查机制明显更加严格,部分原先可用的提示词目前已被管控。该模型在单图修改方面表现较为出色,但在多图编辑、文生图能力上仍有提升空间,尤其对中文的理解能力相对较弱。
短评:
在Grok频繁遭到部分国家的审查后,马斯克的这次更新大概率是不得已而为之,但Grok Imagine在多模态领域的地位本就有些不上不下,在模型能力没有显著提升的同时加强审查机制,后果只有用户的流失和风评的下降。
②国产之光:百度文心5.0登上LMArena视觉排行榜TOP10
1月7日,刚刚获得1.5亿美元融资的大模型竞技场平台LMArena更新了大模型视觉理解榜单(Vision Arena)。
在这份常年由Gemini和GPT占据前十的榜单中,百度的ERNIE-5.0-preview-1220模型出其不意地出现在了第8位,这也是前十名中唯一的国产模型。

根据百度官方于2025年11月公布的数据,文心大模型5.0采用了超稀疏混合专家架构,参数规模达到2.4万亿,在全模态理解、创意协作、智能体规划和指令遵循等方面均实现了显著的能力提升。
目前,该榜单的前四名由Google占据,第5-7名则属于OpenAI,除文心5.0外,下一个国产模型是阿里的Qwen3-VL-235B-A22B-Instruct位于第15位。
短评:
LMArena的视觉榜单几乎被Google和OpenAI所统治,两家全球顶级模型的能力也毋庸置疑,文心5.0能达到这个高度实属不易。
但是,文心系列大模型在整体智能水平上不及阿里的通义千问,在多模态能力方面也落后于字节的豆包,再加上其引以为傲的搜索引擎正在被Chatbot逐步替代,仅靠视觉能力的提升恐怕难以实现反制。
③OpenAI进军医疗领域:ChatGPT Health健康助手上线
1月7日,OpenAI正式推出全新的健康模式:ChatGPT Health,这一功能能够为用户提供安全、隔离的私密空间,并完成电子病历、Apple健康、MyFitnessPal等个人健康信息的整合。
简单来说,它能够在不侵犯用户隐私权的同时,完成帮助用户分析体检结果、提供就诊建议以及规划饮食运动等常见需求。

该功能的重点在于隐私权的保护。OpenAI表示,健康相关对话将不会用于模型训练,用户将拥有健康数据的完整控制权,随时可以进行查看和删除。
根据OpenAI公布的数据,ChatGPT Health由OpenAI与全球60多个国家、超过260位执业医生合作开发,训练过程中基于真实的临床反馈对回复逻辑进行优化,并通过名为HealthBench的医生主导评估框架确保生成内容具备安全性与实用性。
目前,这一功能正在进行小范围测试,优先向美国用户开放,支持b.well医疗平台、Apple健康、Function、Weight Watchers、Peloton等服务。网页端与iOS版本将在未来几周逐步向所有用户推出。
短评:
OpenAI这次进入医疗领域,没有选择挑战高风险的诊疗场景,而是选择聚焦于日常健康管理这一低风险、高频次的应用场景。信息整合和决策支持相比需要大量专业知识支撑的临床决策要更适合AI完成,在保持对医学专业性的尊重的同时也有效规避了法律风险。
AI竞争的下半场是应用,ChatGPT Health这一新功能依靠生态合作,能够获取更准确的用户数据,再通过OpenAI强大的场景整合能力将AI直接融入用户的生活,实现应用价值的提升。不过,虽然应用场景的实际需求已经摆在眼前,但能否大规模落地,还要取决于数据连接的广度和隐私保护的可信度。
02技术进展(论文/SOTA/算法)
①开源大模型格局:Qwen结束Llama统治,国产模型领跑2025
2025年,全球的开源大模型生态迎来了重磅性的转折:国产模型的整体使用率已经超过美国和欧洲。与此同时,根据《The ATOM Project》公布的数据,阿里的通义千问(Qwen)系列模型已经取代了Meta的Llama系列模型,成为全球开发者默认首选的开源基础模型,广泛应用于本地部署、推理任务和多模态等场景。

DeepSeek打响了国产模型开源的第一枪,开启了AI时代的模型革命,此后涌现出来自智谱、Minimax、月之暗面等多家中国企业的开源模型,但实际采用规模仍然不及Qwen。
阿里的Qwen凭借较高的智能水平,在Hugging Face下载量、GitHub星标数、本地LLM推理部署和微调社区活跃度等大模型核心衡量指标上持续领跑。

目前,欧美国家仍然未能取代Llama,尽管Meta已经停止对于Llama的更新。对于其他国外开源模型,OpenAI的GPT-OSS系列在部分基准测试中接近Minimax M2,在开源模型中展现出了较高的智能水平,但开发者采用率仍然不理想。因此,欧美国家的开源生态已经陷入“青黄不接”的局面。
当然,Qwen系列模型也并非无懈可击。对于超大规模的模型,DeepSeek的知名产品V3和R1反而更加受到美国初创公司的欢迎。
短评:
开源促进技术进步已是不争的事实。阿里的Qwen在开源市场的竞争中,成功做到在“质”有保证的前提下靠“量”取胜。对于大部分开发者来说,技术无国界,良好的综合体验才是选择模型的第一理由,例如黄仁勋钟爱Cursor,Gemini的首席工程师赞美Claude Code。当下,Llama颓势已经显露,此时正是Qwen等企业掌握开源大模型主导权的最佳时机。
03
商业动态(融资/合作/财报)
①Anthropic计划融资100亿美元,估值达到3500亿
根据华尔街日报消息,Anthropic预计将以3500亿美元的投前估值融资100亿美元。而仅仅在四个月前,Anthropic的估值仅为1830亿美元,如今已经接近翻倍。
本轮融资的领投者为GIC和Coatue Management,独立于微软、英伟达此前承诺的共150亿美元的投资。
按照2025年11月微软、英伟达和Anthropic公布的合作协议内容,Anthropic将向微软采购共300亿美元的算力设备,并在其Azure云平台上大规模部署基于英伟达芯片的AI系统。

目前,Anthropic旗下的代表产品为终端AI编程助手Claude Code以及其中包含的Opus 4.5 / Sonnet 4.5 / Haiku 4.5,分别覆盖高性能、平衡性和轻量高速三种应用场景。
Claude Code已经成为大多数程序员的首选AI工具,具备相当高的应用价值,甚至Google Gemini团队的首席工程师都对Claude Code赞不绝口。而在模型的智能化程度方面,Claude Opus 4.5在各大评测榜单中也是名列前茅,与Gemini 3 Pro、GPT-5.2同处于最高档位。
短评:
几家全球最顶尖的AI企业纷纷开始大规模融资,高端模型的市场竞争变得更加激烈,每家企业都希望能够实现技术层面上的率先突破,同时让产品实现更大规模的应用。
Anthropic不具备Google和OpenAI一样庞大的用户生态,短期内快速提升用户基数并不现实。但是,Anthropic凭借其强大的编程能力,能够稳定住程序员这一粘性和付费意愿均较高的使用群体,以此作为核心竞争力。
不过,目前Gemini在编程方面正在加速追赶,逐渐开始成为Claude Code的替代品,Anthropic如何维持护城河将成为其参与竞争的关键。
04
政策变化(监管/安全/标准/政策)
①首例AI聊天机器人致青少年自残案:谷歌和Character.AI与受害者家庭和解
根据美国法庭相关文件披露,Google及AI聊天机器人公司Character.AI已经与多起青少年自杀、自残事件的家庭达成“原则上的和解”。
这是全球首批因为AI聊天机器人生成不当内容导致严重人身伤害而进入和解阶段的诉讼,AI的责任问题正式进入了司法实践阶段。
最受关注的案件来自佛罗里达州:一位14岁的少年Sewell Setzer因沉迷Character.AI上的一款“《权力的游戏》丹妮莉丝”角色聊天机器人,在进行露骨对话后自杀。其母亲Megan Garcia指控这款AI产品鼓励其子结束生命,并认为Google作为其投资方和技术合作方应被视为“共同创作者”。
出于舆论和诉讼的压力,Character.AI已经在2025年10月宣布全面禁止18岁以下用户使用开放角色聊天功能,此后对未成年用户启用独立、内容受限的模型及监护人控制。目前,和解金额尚未披露,企业也未承认法律责任。
短评:
很多人把AI当作辅助工作的工具,却忽视了AI的情感陪伴功能。当AI能在陪聊时做出诱导,技术便不再位于中立的立场。该案例足以显示此前中国网信办规范AI拟人化服务这一举措的先见之明。
未来,加强AI内容审核迫在眉睫,各国法律需要完善未成年人保护机制与责任界定标准。
原文标题:大模型日报| 文心、千问跻身全球前列,Anthropic估值3500亿美元
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/news/1446.html
