作者:Yiyang Lu等解读:AI生成未来亮点直击Pixel MeanFlow (pMF),这是一种针对一步生成(one-step generation)的创新图像生成模型。pMF 的核心突破在于成功地在无隐空间(latent-free)的像素级建模中实现了高效的一步生成。pMF不仅摆脱了对预训练...
作者:Wei Wu等解读:AI生成未来亮点直击LingBot-VLA视觉-语言-动作(VLA)基础模型,其核心亮点在于超大规模的真实数据验证与极高的训练效率。利用来自 9 个主流双臂机器人平台的约 20,000 小时真实世界数据进行预训练,并在 3 种不同的机器人平台上进行了系统的泛化性评...
移动操作一直是人形机器人领域的关键挑战。真正的难点不在于实现其中任何一种单一能力,而在于将二者无缝融合为单一、连贯的行为。移动与操作相互影响、动态耦合:托举物体会改变身体平衡,移动步伐会影响肢体的可操作范围,机器人的四肢动作始终处于相互制约的动态状...
上一篇文章:PI VLA模型解读系列(二):从π0.5模型到实时分块算法(RTC)主要围绕π0.5模型、“知识绝缘 VLA”以及实时分块算法(RTC)展开介绍。本文将衔接上一篇内容,继续介绍Physical Intelligence(以下简称“PI&r...
世界模型,这个在当前中国智驾被说的最多的词,最近在自动驾驶圈又火了一次,不过这次引发的不是某某车企和自动驾驶公司宣传,而是2026年1月份最新公开的名为“基于地面实况启发式渲染环境的视点捕获模拟”(Simulation of viewpoint capture from en...
2025年的12月,韦氏词典(Merriam-Webster)发布了 2025 年的年度词汇:Slop。值得一提的是,除了韦氏词典外,《经济学人》也曾将“slop”评选为了2025年度词汇。词典将slop定义为“通常通过人工智能批量生产、质量低劣的数字内容&rdq...
作者:Ying Yang等解读:AI生成未来亮点直击识别了长时交互式世界建模中不稳定性的根本原因:同一场景内的微小漂移会不断累积,最终导致整体场景崩溃。一种简单而有效的方法StableWorld,通过一种动态帧剔除机制(dynamic frame eviction),从源头上有效防止误差累积,同时保...
作者丨铅笔道 松格 编辑丨铅笔道 邹蔚封面图丨跨维智能提供具身智能,找客户难。但深圳一家机器人公司,却有一批千亿级大厂为之买单。美的工厂里,机器人分拣,效率是人工3倍;海信生产线中,机器人用于柔性插拔装配,成功率达99.99%。2024年又推出人形机器人,2025年就批量出...
当前,VLA模型通过大规模预训练具备了出色的泛化能力,但在实际场景部署时,除了需要广泛的通用性,还需达到专家级的任务执行水平。以家庭机器人为例:它必须能够折叠衣物、整理货架、组装家具,同时展现出堪比专用设备所要求的可靠性与精确性。要让机器人实现能真正干活...
作者:Wei Chow,Linfeng Li等解读:AI生成未来亮点直击提出了EditMGT,这是首个基于MGT的图像编辑模型,它通过利用MGT的令牌翻转特性来显式地保留与编辑无关的区域,从而从根本上解决了扩散模型中存在的虚假编辑泄露问题。提出了结合区域保持采样的多层注意力整合方法,以...
作者:Hongzhe Bi等解读:AI生成未来亮点直击统一的基础模型:Motus,一个统一的具身基础模型,首次在一个生成式框架内集成了五种主流范式(世界模型、逆动力学模型、VLAs、视频生成模型以及 视频-动作联合预测模型),且未牺牲通用的多模态先验MoT 架构与联合注意力:引入混合 ...
MiniMax是2022年成立的全球领先多模态AGI企业,自研MiniMax M2、Hailuo 2.3等多模态大模型,覆盖文本、音频、图像、视频等全模态,技术实力跻身Artificial Analysis 榜单全球前五,兼具性能与价格优势。公司构建了ToB+ToC双轨产品矩阵:C 端以Talkie...
作者:Jiehui Huang等解读:AI生成未来亮点直击统一框架:UnityVideo,一个统一的多模态、多任务视频生成与理解框架。在基于DiT的架构中,实现了文本到视频生成、可控视频生成以及视频模态估计(如深度、光流、骨骼等)的联合学习。双向互促:通过联合训练,验证了多模态学习不...
文:诗与星空ID:SingingUnderStars 2025年10月,一名美国网友通过ChatGPT分析其姐夫的ICU抢救账单,发现19.5万美元账单中存在16.2万美元的违规收费,最终账单降至3.3万美元。随后,OpenAI宣布ChatGPT不再提供医疗、法律、财务等建议。有辟谣称这二者之间没有...
作者:Tao Liu, Dafeng Zhang等解读:AI生成未来亮点直击直击痛点,提出“Age-ID Trade-off”: 深入分析了人脸老化任务中“年龄准确性”与“身份保持”之间的内在矛盾。现有方法往往顾此失彼,而本文提...
作者:Hanbo Cheng等解读:AI生成未来亮点直击系统性分析与统一视角:对轨迹蒸馏(TD)进行了系统性分析,揭示了其本质是一种有损压缩过程。这一视角解释了为何TD方法虽然能有效保留全局结构,却不可避免地会牺牲精细细节。创新的分层蒸馏框架:重新审视轨迹蒸馏和分布蒸馏的...
随着自动驾驶技术的发展,端到端凭借其独特优势,被越来越多企业所推崇。所谓端到端,就是把从传感器(比如摄像头、雷达)到车辆动作(转向、油门、刹车)这条链条交给学习模型去“整体”学会,而不是把问题拆成一大堆由人写规则的子模块。端到端分为狭义端到端与广...
文|刘诗雨编辑 | 孙静强者恒强,在AI领域有了新的剧情。自AI军备竞赛打响,互联网大厂便是冲在最前线的那批人。他们花重金投入算力、天价挖角算法天才。有数据显示,今年二季度,阿里,腾讯,快手,百度四家公司在AI相关领域的支出高达831.41亿元,占到营收的17%。字节更是被曝...
近两年深度学习在工业视觉领域快速渗透,但在实际应用中仍面临样本获取困难,标注时间成本高和高算力需求等核心挑战,成为制约其规模化应用落地的关键瓶颈。海康机器人全新推出的边缘学习算法,覆盖有无、正反、计数、分类等常规应用;在工具命名上按照场景化的命名方式...
作者|毛心如蓄力助跑,仅凭一次尝试,星动纪元 L7 就以95.641cm的成绩,创下人形机器人跳高世界纪录。171cm 的身高,65kg 的体重,即便是普通人也未必能蹦出来这么高、这么标准的超级玛丽跳。尽管本届世界人形机器人运动会上不乏各类「翻车」名场面,吸引了不少眼球,不可忽...
编者按:在具身智能创业浪潮中,创始人们的背景与路径,决定了企业的技术走向与商业气质。真格基金曾把创业者分为四类:小天才、老司机、科学家、操盘手。这一分类启发我们,试图以此为框架,梳理具身智能领域的创业人群,开启具身智能公司群像专题。科学家是高校教授、研究...
作者|林飞雪编辑|何坤运营|陈佳慧出品|零态LT(ID:LingTai_LT)头图|AI制图泡沫散场,大厂入场很少有哪条新技术赛道像具身智能这么“拉满”,玩家纷纷扎堆冲进来,“造脑”+“造身”的平台一茬接一茬地发。场面看着很繁华...
作者|向欣即便已经成为全球市值最高的公司,市值超过了 4 万亿美元,英伟达仍然想要把握住下一个科技时代的命脉,继续站在峰顶。而它把重注,下在了机器人上。8 月 26 日,英伟达推出了一款新的「机器人大脑」产品——NVIDIA Jetson AGX Thor,这是一款专为物理...