Token去哪了？大量用户质疑智谱GLM：存在词元泄露和缓存计费问题_街坊资讯

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：网易科技）

近期，大量用户集中反馈称GLM系列模型在长上下文、高并发调用场景下，可能出现了异常缓存命中、上下文混杂以及计费不透明等问题。一些开发者甚至怀疑，系统可能存在词元（Token）串扰现象，即某个用户的上下文内容被错误混入另一个用户的推理过程当中。

这场争议其实最早并不是从计费问题开始的。

今年以来，部分开发者在使用GLM-5进行编程任务时发现，模型偶尔会输出大量无意义字符、重复内容，甚至突然插入与当前任务毫无关系的代码片段和思维链内容。有用户反馈，在上下文长度超过数万Token之后，这种现象出现的概率明显增加。

随着讨论不断发酵，一些开发者开始怀疑问题可能并非单纯的模型幻觉，而是推理系统底层缓存机制出现异常。有用户表示，在模型输出的内容中，看到了明显属于其他开发项目的代码片段、文件路径、函数名称以及与当前任务完全无关的技术讨论内容，因此推测不同用户之间的数据可能在推理过程中发生了混杂。

相关讨论迅速引发关注，因为现代大模型为了提高推理效率，普遍会采用KV Cache（键值缓存）技术。简单来说，当用户输入大量上下文后，系统会把已经计算过的内容缓存起来，后续推理时无需重复计算，从而降低GPU负载并减少响应时间。

与此同时，许多AI平台还推出了“缓存计费”机制。当系统发现新请求与之前缓存内容高度一致时，会按照远低于正常输入Token的价格收费。对于开发者而言，这意味着可以大幅降低API成本。

而问题恰恰出在这里。

部分开发者发现，自己明明没有重复提交大量内容，却在账单中出现了异常高的缓存命中率；也有人反映，相同请求在不同时间调用时，缓存Token数量变化极大，难以解释具体计算逻辑。因此有人开始质疑，缓存统计机制是否准确，以及用户是否真正享受到了官方宣称的缓存优惠。

还有开发者进一步提出一种猜测：如果缓存系统在高并发环境下出现错误，理论上不仅可能影响模型输出，也可能影响缓存计费结果。换句话说，如果系统错误地把某些内容认定为缓存命中，那么用户最终支付的费用和实际消耗之间就可能出现偏差。

不过截至目前，这些说法主要来自开发者社区讨论，并没有公开证据能够证明Z.AI存在系统性错误收费行为。

值得注意的是，今年4月，Z.AI曾发布一份技术复盘，承认GLM-5在高并发生产环境中出现过异常输出问题。根据官方披露的信息，问题最终被定位到推理系统中的KV Cache竞态条件以及缓存同步错误，而并非模型本身训练质量导致。官方表示，在极端负载情况下，缓存数据可能出现读取顺序异常，从而产生乱码、重复输出以及错误内容等现象，相关问题已经完成修复。

这份官方说明虽然没有承认用户数据泄露，但却从侧面证明，缓存系统确实曾经发生过影响模型输出的底层故障。

与此同时，Z.AI官方文档对于缓存机制的描述也较为谨慎。文档显示，目前缓存功能仍处于开放测试阶段，具体命中规则、缓存保留时间以及触发条件并未完全公开。官方仅表示，当请求命中缓存时，费用会按照正常价格的五分之一计算。

正因为底层机制并不透明，开发者很难独立验证每一次缓存命中是否准确，这也成为此次争议持续发酵的重要原因。

真正的“数据泄露”和“缓存故障”其实是两件不同的事情。如果只是缓存同步错误导致模型出现乱码或上下文混杂，那么问题属于推理基础设施故障；如果能够证明一个用户的私有内容被完整暴露给另一个用户，那就属于更加严重的数据安全事件。目前公开讨论中，后者尚未获得确凿证据支持。

随着大模型上下文越来越长，缓存优化越来越复杂，推理系统实际上已经成为决定产品稳定性的关键环节。很多用户关注模型参数规模、排行榜成绩和推理能力，却容易忽视底层缓存、调度系统和计费系统同样可能成为风险来源。

截至目前，关于“词元泄露”和“缓存计费异常”的争议仍在持续发酵，社区讨论远未结束。

对于智谱而言，仅仅修复技术问题或许还不够，如何提升缓存机制透明度、提供更详细的计费解释以及增强开发者信任，可能才是这场风波真正需要解决的问题。

【延伸阅读】

街坊秀

Token去哪了？大量用户质疑智谱GLM：存在词元泄露和缓存计费问题

热门标签

热门排行

最新更新

友情链接