刚刚,DeepSeek 一口气推出两个新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。前者专注平衡推理能力与模型长度,可达到GPT-5 级别的性能,适用于日常问答等使用需求。后者的推理能力全面提升,可与 Gemini-3.0-Pro 相媲美。值得注意的是,V3....
刚刚,DeepSeek 开源了全新的数学模型 DeepSeekMath-V2,专注可自验证的数学推理框架。DeepSeek-Math-V2 在 IMO-ProofBench 和 IMO 2025(6 道题中的 5 道)和 Putnam 2024(接近完美的 118/120 分)等比赛中表现出色。新模...
了解人工智能系统是否真正具备内省能力,这将有助于理解其推理过程并调试行为问题。Anthropic 的最新研究表明,目前的 Claude 模型具备一定程度的内省意识,并且能够控制自身的内部状态。虽然种内省能力仍范围有限。研究团队还发现,能力最强的模型(Claude Opus 4 和 4.1)在内省测...
AGI 或许会成为人类历史上最重要的技术发展之一,但遗憾的是,这个术语的定义一直模糊不清。近日,一篇由多位名校学者共同创作的学术论文探讨了 AGI 的定义。他们基于 Cattell-Horn-Carroll(CHC) 理论,提出了一个可量化的框架,将 AGI 分解为十个核心认知领域,包括推理、记忆和...
当人工智能模型仍以“刷题+打分”为主流训练模式时,一支来自上海人工智能实验室、澳门大学、南京大学与香港中文大学的研究团队提出:训练不仅是做题,更要复盘、温习、内化。他们近期发布了题为《ExGRPO: Learning to Reason from Experience》的论文,首次系统性地呈现出“经...
22 日凌晨,国际计算机视觉大会 ICCV(IEEE International Conference on Computer Vision)揭幕了本年度最佳论文获得者。最佳论文奖来自卡耐基梅隆大学青年学者朱俊彦团队。论文题目为《Generating Physically Stable and Bu...
近日,一篇博客讲述了 LLM 在处理字符级文本时的能力提升。作者表示,他一直在测试最新一代大型语言模型处理自然语言的能力,特别是字符计数、句子中的字符操作以及编码和密码解析。令人惊讶的是,与前几代 LLM 不同,最新模型能够解决这类任务。LLM 处理单个字符的能力较差。这是...
大型语言模型 (LLM) 尽管仅基于文本进行训练,却意外地能够发展出丰富的视觉先验。这些先验使得模型能够利用相对少量的多模态数据来解锁潜在的视觉能力,从而完成视觉任务。在某些情况下,甚至无需任何图像即可执行视觉任务。Meta 与牛津大学研究团队近日发布的一篇论文表示,LL...
刚刚,X 上的一篇推文分享了关于 Meta SAM 3 的论文。该论文已被投稿至 ICLR 2026。SAM 是 Meta 提出的“分割一切”模型。该模型于 2023 年 4 月公开,在自然语言和视觉领域中表现出较强的性能。这次推出的 SAM 3 是一个统一模型,它基于概念提示来检测、分割和跟踪图像...
近日,Anthropic Alignment Science 团队发现,只需 250 份恶意文档即可在大语言模型(LLM)中产生 “backdoor“ 漏洞——无论是多大的模型规模或训练数据。尽管 130 亿参数模型的训练数据量是 6 亿模型的 20 多倍,但同样少量的中毒文档都可能对两者都产生 “...
近日,斯坦福大学发布关于 Paper2Agent 的论文,探索将学术论文转换为 AI Agent的自动化框架。传统的研究论文需要读者投入大量精力去理解论文的代码、数据和方法,并将其应用到自己的工作中,这给论文的传播和重用带来了障碍。Paper2Agent 将研究成果从被动的产物转化为主动的系...
9月15日,宇树宣布开源 UnifoLM-WMA-0,其为宇树科技跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计,其核心理念在于设计一个可以理解机器人与环境交互物理规律的世界模型。该世界模型提供两项关键功能: 模拟引擎——作为交互式模拟器运行,生成用于机器人学...
“ 逐帧视频生成与语言模型中的思维链相似。正如思维链(CoT)使语言模型能够用符号进行推理一样,“帧链”(CoF)使视频模型能够跨越时间和空间进行推理。DeepMind 最新发表的 Veo 3 论文首次提出了Chain of Frames(CoF)的概念。Veo 3 新兴的零样本能力表明,视频模型正...
DeepSeek 开源了最新的实验模型——V3.2-Exp。V3.2-Exp 在 V3.1-Terminus 的基础上引入了DeepSeek 稀疏注意力机制——可以优化长上下文场景下训练和推理的效率。团队对 Transformer 进行持续研究,特别注重提高处理扩展文本序列时的计算效率。为了提高效率...
大型语言模型(LLM)在复杂任务上可以展现卓越性能。然而,它们却经常在看似简单的问题上失败。近日,牛津大学的研究团队发表了一篇论文,研究LLM 是否编码了一种与人类判断相符的问题难度概念,并追踪了这种表征在基于可验证奖励的强化学习(RLVR)数学推理过程中的演变。团队使用了 60...
在自动驾驶系统的感知硬件中,激光雷达与车载摄像头是众多车企的核心选择。但由于激光雷达成本高昂,且其探测的信息对于决策系统来说非常重要,便有技术提出可以用毫米波雷达作为替代方案。传统毫米波雷达因无法有效探测目标的高度信息而存在短板,为克服这一问题,具备俯仰角测高...
每当提到自动驾驶模型,很多人关注的是模型的算法和采用的架构,但是对于给模型进行训练的数据,却鲜有人去关注。其实一个模型想变得“聪明”,是需要给他不断投喂数据让其学习的,而这些数据,也不是拿过来就能使用,而是需要人工或半自动的方式先对数据进行“标注&rd...
在自动驾驶场景中,稀疏地图通常是由一系列关键帧和若干三维稀疏特征点构成的地图,每个特征点包含三维坐标和描述外观的描述子;而视觉SLAM是运行在车辆上的实时算法,它一边通过相机估计自身位置,一边在未知环境中构建或更新地图。将两者结合的目的其实非常明确,利用预先构建好的...
在人工智能与机器人技术蓬勃发展的今天,“具身智能”与“自动驾驶”作为两个备受瞩目的领域,既在核心思想上同根同源,又在技术落地上各具特色。理解它们“是什么”、“为何相似”以及“有何不同&rdqu...
把自动驾驶汽车想象成一个不断学习并做决定的人,车上的“眼睛”负责看(感知)、“记忆/推理”负责想(预测与决策)、“手脚”负责做(规划与控制),决策系统则处在这个链条的中间位置。它把来自感知(相机、雷达、激光雷达、定位、地图等)的...
自动驾驶行业发展至今,特斯拉一直被很多企业对标,其FSD系统的每一次更新,都会获得非常多人的关注。早期自动驾驶是一个分层的、由多模块组成的系统,感知、定位、预测、规划、控制等环节各自负责不同的功能,各模块用显式代码和规则来完成任务。随着数据规模和算力增长,特斯拉开...
我们之前文章《特斯拉 FSD V14 上车!10倍参数模型,真实现“车位到车位”》中分享到特斯拉FSD V14的泊车聪明到有人评价为“Game Changer”。Jack也指出了特斯拉FSD V14的行泊车一套基于真正端到端算法的功能,国内基本没有人能...
为什么自动驾驶要做“预测”自动驾驶汽车要安全行驶,光知道眼前有什么还不够,更重要的是能预判接下来会发生什么。打个比方,开车的人不仅看前方的车位,还会判断那辆车是不是要并线、那个行人是不是准备过马路。自动驾驶也是这样,如果只是把物体的位置和速度报出来,规...
特斯拉号称10倍当前模型参数,和当前特斯拉在奥斯汀以及旧金山的Robotaxi上跑的软件一样的FSD V14,已经开始在特斯拉的HW 4.0量产车型上释放。那么FSD V14从功能上有哪些新增和变化,性能和使用体验到底怎么样?本文根据外媒各种视频资料总结和评论,给大家带来一些特斯拉FSD V14...
把自动驾驶比作人的大脑和感官系统,数据就是外界感知的原始输入,而标注就是告诉大脑“这是啥,这在哪儿,这会怎么动”。没有高质量的标注,即便是再先进的感知模型、跟踪模型与预测模型都会像没吃过饭的人,理论上能动,但做不了持久、可靠的工作。标注的任务不是单纯把图...