DeepSeek研发mHC人工智能架构以增强模型性能

发布时间:2026-02-06 22:54:07admin

DeepSeek的研究人员研发出一项名为流形约束超连接(Manifold-Constrained Hyper-Connections,简称mHC)的技术,其目的是增强人工智能模型的性能。

这家中国AI实验室首次推出了这款软件。相关论文已于周三发表。

DeepSeek构建mHC的目的,是为了强化大型语言模型里用于学习新信息的残差连接机制。这一机制在2015年被提出,之后被不少视觉模型所运用。虽然DeepSeek并非首个尝试对残差连接进行改进的市场主体,但此前的相关尝试效果好坏不一。

一个AI模型包含众多被称作层的软件组件。当用户输入提示后,文本会先进入第一层,完成生成提示响应所需计算的一小部分。接着,第一层把计算结果传送至第二层,第二层再完成另一部分计算工作,并将结果传递给第三层,这个过程会持续下去。最终,由最后一层输出针对用户问题的答案。

在AI模型的训练环节里,最后一层扮演着至关重要的角色。一旦模型给出了错误的提示回复,最后一层就会接收到一个名为梯度的信号。这个梯度不仅能指出AI存在的错误,还包含着模型优化方向的相关信息。随后,梯度会从最后一层出发,反向流经AI的其他结构部分,一直传递到第一层为止。

2015年,研究人员提出了一种名为残差连接的梯度管理机制。它相当于一种快捷路径,能让梯度直接在AI模型中两个距离较远的层之间传输,无需途经中间的所有层级。凭借减轻多种常见AI训练问题的特性,残差连接在大语言模型(LLM)与视觉模型中得到了广泛应用。

去年九月,研究人员提出了一种可替代残差连接的新方案,命名为超连接。该方案弥补了残差连接机制存在的若干不足,不过也有其自身的局限之处。而DeepSeek于本周发布的mHC架构,则是对超连接的增强型实现版本。它规避了超连接机制所面临的部分技术难题,从而让这一架构在生产场景中具备了更强的适用性。

mHC的核心创新点在于引入了流形这一概念。流形属于一类涵盖范围极广的数学对象,它们的复杂程度各不相同。其中一部分流形是像圆形这样的简单几何形态,还有一些流形则能延伸至三维以上的空间维度。据DeepSeek介绍,mHC借助流形来确保AI模型各层之间梯度传递过程中的稳定性。

公司采用该架构训练了参数规模分别为30亿、90亿和270亿的3个大语言模型(LLM)用于测试。随后,它借助超连接技术又训练了参数数量相同的另外三个模型,mHC正是从这一技术中衍生而来。据DeepSeek介绍,由mHC驱动的LLM在八项不同的AI基准测试中展现出更优的性能。

公司表示,该架构在硬件效率上也优于超连接。后者机制在训练期间显著增加了LLM的内存需求。在其内部测试中,DeepSeek确定mHC仅产生6.27%的硬件开销。

DeepSeek研究人员在mHC论文中指出:“通过进一步理解拓扑结构对优化及表示学习的影响机制,mHC有望突破当前面临的局限,甚至可能为下一代基础架构的发展开拓全新方向。”