机器人产业网

谷歌新论文发现 DeepSeek 竟然有多重视角!

谷歌最新研究表明,增强的推理能力并非仅仅源于更长的计算量,而是源于对复杂、类似多智能体交互的隐式模拟。他们发现,像 DeepSeek-R1 和 QwQ-32B 这样的推理模型比基线模型和仅进行指令调整的模型展现出更大的视角多样性,从而在推理过程中激活了更广泛的异质人格特征和专业知...

DeepSeek Model1 代码现身:R1 周年庆的“技术彩蛋”

今天是 2026 年 1 月 21 日,距离 DeepSeek-R1 发布刚好一周年。这款曾在去年 1 月 20 日引爆全球 AI 社区的开源模型,不仅登上了《Nature》封面,更被 Hugging Face 评为平台获赞最多的模型。R1 发布整一年,DeepSeek 的 GitHub 仓库迎来了...

字节 Seed 大概念模型:自适应语义空间中的潜在推理

大型语言模型 (LLM) 对所有词元应用统一的计算,这种词元统一的计算方式会将计算资源浪费在局部可预测的跨度上,而对语义关键转换的计算资源分配不足。字节跳动 Seed 团队提出了动态大型概念模型(DLCM),这是一个分层语言建模框架,它从潜在表示中学习语义边界,并将计算从词元转...

清华大学联手生数科技开源视频生成框架:提速200倍!

近日,清华大学 TSAIL 团队联手生数科技提出了一种名为 TurboDiffusion 的视频生成加速框架,它能够在保持视频质量的前提下,将端到端扩散生成速度提升100-200 倍。TurboDiffusion 主要依靠以下几个组件来实现加速: 注意力加速:TurboDiffusion 使用低比特...

字节跳动推理专用模型 Seed Prover 1.5:拥有更强数学推理表现

据学者观察,大型语言模型在形式语言中进行定理证明仍然面临挑战,且计算成本高昂。近日,字节跳动 Seed 团队今日宣布推出新一代形式化数学推理专用模型 Seed Prover 1.5,该模型通过大规模智能强化学习进行训练,并配备了高效的测试时扩展(TTS)工作流程。通过和其他工具的广泛交互,...

谢赛宁团队新作:空间结构才是 iREPA 的关键

近日,谢赛宁团队又创新作,灵感竟来源于 4 个多月前一次与网友的辩论。这位网友表示,自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖的是patch tokens中的空间和局部信息,而不是 [CLS] token所代表的全局分类性能。谢赛宁则表示,使用...

MIT 最新论文:这十年我们高估了算法的进步

据估计,2012 年至 2023 年间,算法将人工智能训练的浮点运算效率提升了22,000 倍。MIT 最新的一篇论文则对这一时期内的关键创新进行了小规模消融实验,结果发现这些提升仅占其中不到 10 倍。据学者估计,未包含在消融实验中的其他创新带来的提升也不到 10 倍,总提升幅度不到 100...

Google 新论文 Titans + MIRAS:帮助人工智能拥有长期记忆

Transformer 架构引入了注意力机制,使模型能够回顾早期输入,从而优先处理相关的输入数据。然而,计算成本会随着序列长度的增加而急剧上升,这限制了基于 Transformer 的模型扩展到超长上下文的能力。近日,Google 在两篇新论文 Titans 和 MIRAS 中提出了一种架构和理论蓝...

黑客成功“欺骗”ChatGPT、Grok与谷歌:诱导用户执行恶意指令

据外媒 Engadget 报道,近年来,随着人工智能在搜索、技术支持及日常生活中的普及,一类新型网络攻击正悄然成型。安全公司 Huntress 最新发布的分析报告显示,黑客正在利用用户对 AI 的信任,结合搜索引擎排名策略,将精心设计的恶意命令伪装成正常技术建议,通过谷歌等搜索引擎自动呈...

补完JEPA理论,这可能是LeCun在Meta的最后一篇论文

联合嵌入预测架构(JEPA)由于缺乏实践指导和理论,研发工作大多是临时性的。Facebook 首席人工智能科学家、图灵奖得主 LeCun 提出了一套全面的 JEPA 理论——一个精简、可扩展且理论基础扎实的训练目标。他引入了一种新的目标函数——草图化各向同性高斯正则化(SIGReg)——来约...

「21%」审稿竟出自 AI?看 ICLR 2026 如何回应

今年的 International Conference on Learning Representations(ICLR)2026 审稿阶段掀起波澜。一份流出的数据分析显示,大约21%的审稿意见被判定为由 AI 完全生成——这一数字迅速在学术圈炸开了锅。在对 75800 篇论文的审稿意见统计中,完...

监督稀疏解决了!DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

近日,特斯拉在 ICCV 的会议中就分享了其当下面临的挑战 ——监督稀疏。监督信号是低维、稀疏的驾驶动作,和 VLA 高维、稠密的视觉信息流不符。即便使用海量数据也无法释放 VLA 模型的巨大潜力。针对这个问题,一支由国内顶尖技术机构和华为合作的论文给出了解答。他们提出了D...

π*0.6:一款能从经验中学习的VLA模型

今日,美国具身智能创业公司 Physical Intelligence(简称 PI )发布了最新机器人基础模型π*0.6。官方称,过去一年,机器人成功完成一半任务并不难,但要让它每次都成功却非常困难,更不用说在现实世界达到人类水平。现实世界的机器人任务需要一个可靠且快速运行的系统。PI 开发了一...

Grok 4.1 发布!霸榜各大榜单

刚刚,马斯克在社交平台上发布了 Grok 4.1 新鲜出炉的消息。“你会看到速度和质量上的提升。”官方表示,Grok 4.1 在创意、情感和协作互动方面表现出色。能够更敏锐地感知细微的意图,更易于沟通,同时又完全保留了敏锐的智能和可靠性。团队沿用了 Grok 4 的大规模强化学习基础...

何恺明新作:Just Image Transformer让去噪模型回归基本

当今的去噪扩散模型并非传统意义上的“去噪”。它们并不直接预测干净的图像。相反,神经网络预测的是噪声或带噪声的量。ResNet 之父、麻省理工副教授何恺明新论文发现了这一问题。预测干净数据和预测带噪声的量本质上是不同的。根据流形假设,自然数据应该位于低维流形上,而...

Gemini 3 来势汹汹,学习建构规划一应俱全

今天,谷歌开发者关系负责人、Google AI Studio 负责人在社交媒体上发布了一条仅含“Gemini”一词的推文,引爆话题。就在昨日,马斯克刚刚宣布 Grok 4.1 的发布。Gemini 3 的发布,多少有点正面叫板的意味。Sam Altman 还在社交平台上祝贺 Gemini 3 的发布...

Meta“分割一切”的SAM 3D 来了!

就在刚刚,Meta MSL 实验室发布三维重建模型 SAM 3D。“分割一切”现在可以直接生成 3D 模型了。前不久,Meta 发表 SAM 3 论文,能够检测、分割和跟踪图像和视频中的对象,还支持简短的文本短语和示例提示。现在,SAM 3 更是带来 3D 新范式,将模型引入到三维空间,从单个 2D...

Claude 新增三项测试版功能:发现、学习并执行工具

AI Agent 在未来能够使模型与成百上千种工具协同工作。例如,集成 Git 操作、文件处理、包管理器、测试框架和部署管道的 IDE 助手;以及能够同时连接 Slack、GitHub、Google Drive、Jira、公司数据库和数十个 MCP 服务器的运维协调器。为了构建更高效的 Agent,...

Gemini 3 Pro 上线后,Nano Banana Pro 又来了!

几个月前,Google 发布了 Nano Banana ,一款基于 Gemini 2.5 闪存图像处理软件的产品。还未等大家反应过来,Google 又迅速推出 Nano Banana Pro(Gemini 3 Pro Image) ——一款全新的、最先进的图像生成和编辑模型。Nano Banana...

90 后华人副教授攻破 30 年数学猜想,生成式 AI 受益

塔拉格兰卷积猜想,困扰数学界 30 多年的问题,在近日被一名 90 后的华人副教授攻破。1989 年,法国数学家 Michel Talagrand 提出了一个关于卷积应用于布尔超立方体上的 L 函数所产生的正则化效应的猜想。论文证明了布尔超立方体上的塔拉格兰卷积猜想(Talagrand’s conv...

Anthropic 推出 Claude Opus 4.5:编码能力排名第一

今日,Claude Opus 4.5 正式发布。它在编码、智能 Agent 和计算机应用方面表现优秀;在深度研究、处理幻灯片和电子表格等日常任务方面也取得了不错的成绩。目前,Claude Opus 4.5 在真实世界软件工程测试中排行第一。测试人员指出,在无需知道的情况下,Claude Opus 4...

Rock & Roll:阿里打造智能体“实战训练场”

阿里最新开源的项目 ROCK,瞄准了智能体训练中最棘手的问题——缺乏可扩展、可标准化的真实交互环境。过去,开发者在训练复杂任务时常常需要手工搭建环境:配置依赖、调试状态、处理兼容性等,一系列工程工作让大规模训练难以推进。而ROCK的目标,是把“训练场”也做成一种标准化...

月之暗面强化学习训练系统 Seer:吞吐量提升 30%

近日,月之暗面和清华大学联合发表了一篇论文,详细介绍了一个强化学习训练系统 Seer——在不改变核心训练算法的前提下,大幅度提升大模型的强化学习训练速度。在生产级 RL 工作负载上的评估表明,Seer 将端到端部署吞吐量提高了 74% 到 97%,并将长尾延迟降低了 75% 到 93%,从而显...

延迟优先:英伟达发布 Nemotron-Flash,小模型也要“算得更快”

小型语言模型(SLM)的设计工作主要集中于减少参数数量以实现参数最优的 SLM,但参数效率并不一定能转化为实际设备上的相应加速。英伟达近日发表的论文解决了这一难题。该论文旨在识别 SLM 实际设备延迟的关键决定因素,并为以实际设备延迟为主要考虑因素的 SLM 设计和训练提...