DeepSeek研发mHC人工智能架构以增强模型性能

发布时间：2026-02-06 22:54:07admin

DeepSeek的研究人员研发出一项名为流形约束超连接（Manifold-Constrained Hyper-Connections，简称mHC）的技术，其目的是增强人工智能模型的性能。

这家中国AI实验室首次推出了这款软件。相关论文已于周三发表。

DeepSeek构建mHC的目的，是为了强化大型语言模型里用于学习新信息的残差连接机制。这一机制在2015年被提出，之后被不少视觉模型所运用。虽然DeepSeek并非首个尝试对残差连接进行改进的市场主体，但此前的相关尝试效果好坏不一。

一个AI模型包含众多被称作层的软件组件。当用户输入提示后，文本会先进入第一层，完成生成提示响应所需计算的一小部分。接着，第一层把计算结果传送至第二层，第二层再完成另一部分计算工作，并将结果传递给第三层，这个过程会持续下去。最终，由最后一层输出针对用户问题的答案。

在AI模型的训练环节里，最后一层扮演着至关重要的角色。一旦模型给出了错误的提示回复，最后一层就会接收到一个名为梯度的信号。这个梯度不仅能指出AI存在的错误，还包含着模型优化方向的相关信息。随后，梯度会从最后一层出发，反向流经AI的其他结构部分，一直传递到第一层为止。

2015年，研究人员提出了一种名为残差连接的梯度管理机制。它相当于一种快捷路径，能让梯度直接在AI模型中两个距离较远的层之间传输，无需途经中间的所有层级。凭借减轻多种常见AI训练问题的特性，残差连接在大语言模型（LLM）与视觉模型中得到了广泛应用。

去年九月，研究人员提出了一种可替代残差连接的新方案，命名为超连接。该方案弥补了残差连接机制存在的若干不足，不过也有其自身的局限之处。而DeepSeek于本周发布的mHC架构，则是对超连接的增强型实现版本。它规避了超连接机制所面临的部分技术难题，从而让这一架构在生产场景中具备了更强的适用性。

mHC的核心创新点在于引入了流形这一概念。流形属于一类涵盖范围极广的数学对象，它们的复杂程度各不相同。其中一部分流形是像圆形这样的简单几何形态，还有一些流形则能延伸至三维以上的空间维度。据DeepSeek介绍，mHC借助流形来确保AI模型各层之间梯度传递过程中的稳定性。

公司采用该架构训练了参数规模分别为30亿、90亿和270亿的3个大语言模型（LLM）用于测试。随后，它借助超连接技术又训练了参数数量相同的另外三个模型，mHC正是从这一技术中衍生而来。据DeepSeek介绍，由mHC驱动的LLM在八项不同的AI基准测试中展现出更优的性能。

公司表示，该架构在硬件效率上也优于超连接。后者机制在训练期间显著增加了LLM的内存需求。在其内部测试中，DeepSeek确定mHC仅产生6.27%的硬件开销。

DeepSeek研究人员在mHC论文中指出：“通过进一步理解拓扑结构对优化及表示学习的影响机制，mHC有望突破当前面临的局限，甚至可能为下一代基础架构的发展开拓全新方向。”

攻略资讯

查看更多 →