字节 Seed 大概念模型：自适应语义空间中的潜在推理-机器人产业网

导读：大型语言模型 (LLM) 对所有词元应用统一的计算，这种词元统一的计算方式会将计算资源浪费在局部可预测的跨度上，而对语义关键转换的计算资源分配不足。字节跳动 Seed 团队提出了动态大型概念模型(DLCM)，这是一个分层语言建模框架，它从潜在表示中学习语义边界，并将计算从词元转移到更高效的推理压缩概...

大型语言模型 (LLM) 对所有词元应用统一的计算，这种词元统一的计算方式会将计算资源浪费在局部可预测的跨度上，而对语义关键转换的计算资源分配不足。

字节跳动 Seed 团队提出了动态大型概念模型(DLCM)，这是一个分层语言建模框架，它从潜在表示中学习语义边界，并将计算从词元转移到更高效的推理压缩概念空间。

DLCM 可以端到端地发现可变长度的概念，而无需依赖预定义的语言单元。分层压缩从根本上改变了模型的扩展行为。

团队引入了第一个压缩感知扩展定律，该定律解耦了 token 级容量、概念级推理容量和压缩比，从而在固定的 FLOPs 下实现合理的计算资源分配。

为了稳定地训练这种异构架构，Seed 进一步开发了一种解耦的 μP 参数化方法，该方法支持跨宽度和压缩机制的零样本超参数迁移，能将大约三分之一的推理计算重新分配到容量更高的推理主干中。

在匹配的推理 FLOPs 下，在 12 个零样本基准测试中实现了平均+2.69%的改进。

DCLM 架构

DLCM 通过四个阶段处理词元序列：

编码提取细粒度的词元表示；

动态分割识别语义边界并将词元归纳为概念；

概念级推理对压缩序列进行深度计算；

token 级解码通过关注推理后的概念来重构预测结果。

研究人员有意将离散分割决策与语言建模损失解耦，以避免优化过程中的干扰。这种设计牺牲了完全端到端的离散性，换取了训练稳定性和可控的压缩，这在大规模应用中至关重要。

解码器通过关注推理出的概念来重构 token 级别的预测。这包含两个组成部分：概念平滑和因果交叉注意力。

团队实施独立的内核分析方法 Flash Attention Varlen，其中有三个主要发现：

Flash Attention Varlen 持续的性能优势：速度提升幅度在 1.26 倍到 1.73 倍之间，验证了“内存与计算”权衡的有效性。

对隐藏层大小不敏感：性能瓶颈主要在于注意力机制的内存访问模式，而非隐藏层维度的计算复杂度。Flash Varlen 优化的规则内存访问模式在各种模型宽度下均保持稳定。

序列长度的卓越可扩展性：Flash Varlen 的性能优势会随着序列长度的增加而提升。在 2K 序列长度下，平均加速比约为 1.44 倍。当序列长度增加 8 倍至 16K 时，平均加速比攀升至约 1.70 倍，在隐藏层大小为 2048 时达到峰值 1.73 倍。

7 个实验

结果显示，DLCM 的平均准确率达到了43.92%，比基准分数 41.23% 提高了 2.69%。然而，这些提升在不同任务中并不均衡，这表明以推理为主导的基准测试与那些依赖细粒度词级对齐的基准测试之间存在明显的差距。

在强调多步骤推理、假设选择和隐式常识推理的基准测试中，性能持续且往往显著提升。

DLCM 通过压缩局部可预测跨度，并将大部分模型容量分配给高维概念骨干，从而将计算集中在结构显著的区域。

编码器-压缩-解码范式不可避免地降低了概念内部的词元级粒度，这可能会掩盖此类任务所需的微观层面区别。重要的是，这种性能下降是局部的而非均匀的：虽然边界词元的建模更加精确，但概念中间位置的词元可能会牺牲一些细粒度精度来换取更高的全局连贯性。

在知识库和多语言基准测试中，DLCM 的结构优化目标是在非均匀信息密度下进行推理，而不是在均匀的、以记忆为主的检索中。

实验结果还验证了研究团队的核心设计原则：将计算从冗余的词元级处理转移到密集的概念级推理，可以在不增加相应推理成本的情况下，显著提高有效容量。

在消融实验中，团队比较了两种用于序列压缩的边界预测机制：一种是学习到的神经预测器，具有压缩率正则化，另一种是使用余弦相似性的基于规则的预测器。

学习型预测器表现出严重的不稳定性。初始压缩至约 2000 个标记后，压缩长度稳步增加，最终稳定在约 4300 个标记，模型随着时间的推移逐渐学会减少压缩量。相比之下，基于规则的预测器（紫色）表现出卓越的稳定性，迅速收敛至约 2000 个标记，并在整个训练过程中始终保持这一水平。

除此之外，不同内容类型的压缩密度存在显著差异。在 8 倍压缩目标下，技术英语每个概念保留的 token 数 (10.58) 明显高于技术中文 (6.09) 或代码 (6.14)。

图源：https://arxiv.org/pdf/2512.24617

它证实了全局正则化机制成功地将压缩目标与严格的序列级约束解耦。该模型并非强制使用统一的片段长度，而是根据固有特性调整粒度。

参考资料：

https://arxiv.org/pdf/2512.24617

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1449.html

DCLM 架构

7 个实验

相关文章