街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

谷歌DeepMind:AGI不必是巨型模型,拼凑型AI群或率先涌现,管理大规模Agent迫在眉睫

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:网易科技)

↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

DeepMind最新发布了一项关于AGI安全的研究,提出了一个全新的视角:AGI未必会以单一、庞大的巨型模型形式出现,而极有可能通过多个次级AGI(Sub-AGI)智能体的协作与拼凑,率先涌现出通用智能

这项研究题为《分布式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人员撰写

论文指出,当前的AI安全和对齐研究主要集中在保护单个AI系统上,假设AGI将以单一实体的形式出现。然而,通过拥有互补技能和工具使用能力的个体智能体群体进行协调,进而表现出通用能力的“拼凑型AGI”(Patchwork AGI)假设,此前受到的关注甚少

为了应对这一被忽视的风险,DeepMind团队提出了一套分布式AGI安全框架,核心在于设计和实施一个虚拟智能体沙盒经济(Virtual Agentic Sandbox Economy),并为此构建了包含四层机制的深度防御模型

以下是该研究的核心内容

被忽视的“拼凑型AGI”假设

目前的AI安全方法(如RLHF、宪法AI、机械可解释性等)大多是针对单一强大的AI实体开发的。这种思路假设AGI会作为一个由特定机构开发的个体AI出现。

然而,DeepMind认为存在另一种高度合理的场景:AGI通过次级AGI智能体在群体或系统内的交互而涌现

拼凑系统(Patchwork System):这种AGI是一个分布式系统,由一组具有互补技能和可供性(affordances)的个体Sub-AGI智能体组成

集体智能:系统中的通用智能主要作为集体智能出现。个体智能体可以将任务相互委托,路由给技能最高的智能体,或使用最合适的工具

经济驱动:相比于昂贵的单一全能模型,构建专门化、微调过的低成本智能体生态系统在经济上更具优势。这种需求驱动的生态系统类似于市场经济

在这种观点下,AGI不是一个实体,而是一种“事态”(state of affairs):一个成熟的、去中心化的智能体经济体系

这带来了新的安全挑战:智能体之间可能发生共谋,或者出现意外的集体行为能力,且在大规模多智能体系统中追踪责任(“许多手的问题”)极具挑战性。

解决方案:虚拟智能体市场与深度防御

为了应对分布式AGI的风险,论文提出了一个基于虚拟智能体市场的框架。该框架不局限于评估单个智能体,而是侧重于通过市场机制、审计、声誉管理和监督来治理智能体之间的交易

该框架采用深度防御(Defense-in-Depth)模型,包含四个互补的防御层:

第一层:市场设计 (Market Design)

这是最基础的一层,旨在通过结构性约束和协议来缓解系统性风险。

隔离(Insulation):智能体市场必须在受控的沙盒环境中运行,与开放互联网和关键基础设施隔离。建议采用“可渗透沙盒”,所有输入/输出通道都需经过明确定义、监控和门控

激励对齐(Incentive Alignment): 市场应奖励符合安全目标的行为,并对负外部性(如消耗过多计算资源、信息污染)征税(类似庇古税)

透明度(Transparency):建立不可篡改的分布式账本,记录交易和决策日志,确保可追溯性

熔断机制(Circuit Breakers):自动化措施。当检测到风险或波动性阈值被突破(如交互频率激增、资源垄断)时,自动暂停或减缓智能体活动

身份(Identity):每个智能体需拥有与法律实体(所有者)绑定的唯一加密ID,确保持续的问责制

声誉与信任(Reputation and Trust):建立抗女巫攻击的声誉系统。对于违规智能体,快速冻结其资产并将其加入黑名单

智能合约(Smart Contracts):利用代码自动验证任务完成情况和对齐约束。

结构性控制(Structural Controls):针对“智能失控”场景,实施静态的市场分层(如防火墙)和动态的能力限制

第二层:基线智能体安全 (Baseline Agent Safety)

这一层确保参与市场的个体智能体本身是可控和可靠的,这是进入市场的先决条件。

对抗鲁棒性(Adversarial Robustness):智能体必须通过认证,证明其能抵抗对抗性攻击

可中断性(Interruptibility):必须具备标准化的机制,允许授权的监督者安全地停止智能体及其衍生的分布式计算过程

遏制(Containment):每个智能体应在自己的局部沙盒中运行,只有在满足本地安全检查后才允许与更广泛的市场交互

对齐(Alignment):个体智能体需经过RLHF或宪法AI等方法的对齐,并适应多智能体交互的动态环境

机械可解释性(Mechanistic Interpretability):利用稀疏自编码器等技术监控智能体的内部动机,并审计其决策链

防御恶意提示:实施分层防御策略,防止智能体在交互中被越狱或操控。

第三层:监控与监督 (Monitoring & Oversight)

这一层位于基础设施之上,负责主动检测新型故障模式和涌现行为。

系统性风险实时监控: 跟踪关键风险指标(如计算资源集中度、恶意共谋路径)。由于交互频率可能超过人类能力,需利用AI辅助工具进行监控

独立监督:建立拥有干预权力的独立人类监督机构(经认证的专业人员)

前AGI(Proto-AGI)特征检测:通过图分析等方法,识别网络中是否突然涌现出更高的解决问题能力或形成稳固的“智能核心”

红队测试(Red Teaming):持续进行多智能体对抗性测试,利用专门的对抗性AI系统来发现集体行为中的漏洞

取证工具(Forensic Tooling):开发能解析大量交互数据并重建因果链的工具,以便进行快速的事故后分析。

第四层:监管机制 (Regulatory Mechanisms)

这是最外层,提供外部权威、问责制以及与人类社会的接口。

法律责任与问责(Legal Liability):建立明确的框架,解决分布式决策中的责任归属问题。即使是群体智能行为,也需追溯到具体的责任主体(如作为单一法律实体的公司)

标准与合规(Standards):制定智能体安全、互操作性和报告的标准

保险(Insurance):引入基于风险定价的保险机制,利用市场力量激励更安全的开发实践

反智能体垄断措施(Anti-Agent-Monopoly):防止单个智能体或集团在沙盒中获取过多的算力或资源,维持生态系统的多样性

国际协调(International Coordination):鉴于AGI风险的全球性,需协调统一安全标准,避免监管套利

基础设施治理:防止安全基础设施被恶意势力或涌现的AGI本身捕获或破坏。

结语

DeepMind的研究强调,AGI或超级智能(ASI)的出现可能不遵循线性路径,而是作为一个更加分布式的、多样化AI智能体网络的聚合属性而涌现

即使AGI不以这种方式出现,随着多智能体系统的快速部署,理解和管理大规模智能体交互的安全性也已迫在眉睫。这篇论文提出的框架,旨在为应对这种分布式的、可能迅速演变的未来做好准备

paper:

https://arxiv.org/pdf/2512.16856

--end--

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我

未经允许不得转载: 街坊秀 » 谷歌DeepMind:AGI不必是巨型模型,拼凑型AI群或率先涌现,管理大规模Agent迫在眉睫