本报讯 1月12日,深度求索(DeepSeek)联合北京大学提出“条件记忆”(Conditional Memory)作为大语言模型稀疏化的新维度,并开源其核心模块Engram。相关成果已在论文Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models中发布。
研究指出,当前主流的混合专家(MoE)架构虽能通过条件计算扩展模型容量,但缺乏原生的知识检索机制,导致模型不得不耗费宝贵的计算资源来“重建”静态知识。为解决此问题,研究团队创新性地将经典哈希N-gram思想现代化,构建了Engram模块。该模块能根据局部上下文,以O(1)时间复杂度从超大规模静态嵌入表中检索知识。
实验表明,在总参数量和计算量完全相同的情况下,集成Engram的270亿参数模型不仅在MMLU、CMMLU等知识密集型任务中表现优异,更在BBH、ARCChallenge等复杂推理及HumanEval、MATH等代码数学领域取得明显提升。该研究有望为下一代稀疏大模型提供关键基础架构支持。 (潇栋)