街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

Token去哪了?大量用户质疑智谱GLM:存在词元泄露和缓存计费问题

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:网易科技)

近期,大量用户集中反馈称GLM系列模型在长上下文、高并发调用场景下,可能出现了异常缓存命中、上下文混杂以及计费不透明等问题。一些开发者甚至怀疑,系统可能存在词元(Token)串扰现象,即某个用户的上下文内容被错误混入另一个用户的推理过程当中。

这场争议其实最早并不是从计费问题开始的。

今年以来,部分开发者在使用GLM-5进行编程任务时发现,模型偶尔会输出大量无意义字符、重复内容,甚至突然插入与当前任务毫无关系的代码片段和思维链内容。有用户反馈,在上下文长度超过数万Token之后,这种现象出现的概率明显增加。

随着讨论不断发酵,一些开发者开始怀疑问题可能并非单纯的模型幻觉,而是推理系统底层缓存机制出现异常。有用户表示,在模型输出的内容中,看到了明显属于其他开发项目的代码片段、文件路径、函数名称以及与当前任务完全无关的技术讨论内容,因此推测不同用户之间的数据可能在推理过程中发生了混杂。

相关讨论迅速引发关注,因为现代大模型为了提高推理效率,普遍会采用KV Cache(键值缓存)技术。简单来说,当用户输入大量上下文后,系统会把已经计算过的内容缓存起来,后续推理时无需重复计算,从而降低GPU负载并减少响应时间。

与此同时,许多AI平台还推出了“缓存计费”机制。当系统发现新请求与之前缓存内容高度一致时,会按照远低于正常输入Token的价格收费。对于开发者而言,这意味着可以大幅降低API成本。

而问题恰恰出在这里。

部分开发者发现,自己明明没有重复提交大量内容,却在账单中出现了异常高的缓存命中率;也有人反映,相同请求在不同时间调用时,缓存Token数量变化极大,难以解释具体计算逻辑。因此有人开始质疑,缓存统计机制是否准确,以及用户是否真正享受到了官方宣称的缓存优惠。

还有开发者进一步提出一种猜测:如果缓存系统在高并发环境下出现错误,理论上不仅可能影响模型输出,也可能影响缓存计费结果。换句话说,如果系统错误地把某些内容认定为缓存命中,那么用户最终支付的费用和实际消耗之间就可能出现偏差。

不过截至目前,这些说法主要来自开发者社区讨论,并没有公开证据能够证明Z.AI存在系统性错误收费行为。

值得注意的是,今年4月,Z.AI曾发布一份技术复盘,承认GLM-5在高并发生产环境中出现过异常输出问题。根据官方披露的信息,问题最终被定位到推理系统中的KV Cache竞态条件以及缓存同步错误,而并非模型本身训练质量导致。官方表示,在极端负载情况下,缓存数据可能出现读取顺序异常,从而产生乱码、重复输出以及错误内容等现象,相关问题已经完成修复。

这份官方说明虽然没有承认用户数据泄露,但却从侧面证明,缓存系统确实曾经发生过影响模型输出的底层故障。

与此同时,Z.AI官方文档对于缓存机制的描述也较为谨慎。文档显示,目前缓存功能仍处于开放测试阶段,具体命中规则、缓存保留时间以及触发条件并未完全公开。官方仅表示,当请求命中缓存时,费用会按照正常价格的五分之一计算。

正因为底层机制并不透明,开发者很难独立验证每一次缓存命中是否准确,这也成为此次争议持续发酵的重要原因。

真正的“数据泄露”和“缓存故障”其实是两件不同的事情。如果只是缓存同步错误导致模型出现乱码或上下文混杂,那么问题属于推理基础设施故障;如果能够证明一个用户的私有内容被完整暴露给另一个用户,那就属于更加严重的数据安全事件。目前公开讨论中,后者尚未获得确凿证据支持。

随着大模型上下文越来越长,缓存优化越来越复杂,推理系统实际上已经成为决定产品稳定性的关键环节。很多用户关注模型参数规模、排行榜成绩和推理能力,却容易忽视底层缓存、调度系统和计费系统同样可能成为风险来源。

截至目前,关于“词元泄露”和“缓存计费异常”的争议仍在持续发酵,社区讨论远未结束。

对于智谱而言,仅仅修复技术问题或许还不够,如何提升缓存机制透明度、提供更详细的计费解释以及增强开发者信任,可能才是这场风波真正需要解决的问题。

【延伸阅读】

未经允许不得转载: 街坊秀 » Token去哪了?大量用户质疑智谱GLM:存在词元泄露和缓存计费问题