《科创板日报》12月21日讯(记者 张洋洋)在模型能力快速迭代的2024年之后,大模型产业正在进入一个新的阶段。
在上海举行的火山引擎 Force 原动力大会上,火山引擎总裁谭待在与《科创板日报》等多家媒体进行了一次对话,系统性阐述了火山引擎对多模态、Agent、AI原生架构以及安全与商业化路径的最新判断。
▍多模态加速“落地拐点”
2024年年底,国内外头部模型密集更新多模态能力,豆包、Gemini、OpenAI等均在视觉、语音、视频等方向持续强化。
对此,谭待的判断是,多模态的集中突破并非偶然,而是模型应用从“对话”走向“执行”的必然结果。
“以前模型主要解决的是聊天问题,文字输入就够了;但当模型开始帮你处理事情,输入和输出都会变得复杂。”谭待表示,在车载、产品质检、餐饮、制造等真实场景中,模型不仅需要理解文本,还必须理解视觉信息,同时还要处理来自不同工具的可视化结果。
在他看来,多模态的意义不在于生成能力本身,而在于让模型具备像人一样理解环境的能力,从而降低对复杂API或定制接口的依赖,扩大模型可适用的场景范围。
“你理解了视觉,就可以像人一样去操作很多东西,而不是每一个工具都要去做一个MCP server或者复杂的接口。”谭待认为,这正是多模态成为构建复杂Agent基础能力的原因。
针对行业普遍关注的“多模态仍存在数据与工程挑战”,谭待也给出了相对克制的回应。他认为,相比一年前,模型已经解决了大量问题,而模型的进化路径本身就是“能力解锁—应用爆发—新问题出现”的循环过程。
▍模型不再是瓶颈,Agent的开发与运行成为关键约束
如果说模型能力是AI应用的上限,那么在谭待看来,Agent体系的成熟度,正在成为决定AI落地速度的下限。
在他看来,当前行业面临的现实是:模型能力已经足够强,但能够真正将模型能力转化为稳定、可规模运行Agent的企业仍然不多。
“现在模型已经很强了,但真正把强模型用好的企业并不多,核心问题不在模型,而在Agent的迭代太慢。”谭待直言。
以豆包为例,无论是APP形态还是手机助手,其本质都是由大量Agent构成的复杂系统。搜索、客服、内容生成、分析推理等能力,背后往往是不同逻辑、不同任务目标的Agent协同运行。
在内部实践中,火山引擎逐步发现,Agent真正走向线上规模化应用,必须同时解决三个问题:一是模型能力本身;二是Agent的开发效率;三是Agent在真实线上环境中的运行稳定性与安全性。
此次大会上,火山引擎正式对外系统化推出AgentKit,将内部Agent实践经验拆解为一套完整的开发与运行组件。
谭待透露,通过AgentKit,一些原本需要数千行代码、数周开发周期的Agent能力,可以被大幅简化。
“我们现在看到的一个现实问题是,模型已经够强了,但Agent开发跟不上。”他表示,Agent时代需要的是为Agent而设计的AI原生架构,而不是沿用传统软件时代的开发范式。
▍AI原生架构浮现,云基础设施围绕Agent重构
在更底层的云基础设施层面,谭待给出了一个更长期的判断:AI时代的核心计算主体,正在从Web和App,转向Agent。
回顾技术演进路径,他认为,每一次平台级技术变革,都会重塑基础设施形态。PC时代围绕网站与数据库构建,移动互联网时代围绕App与云原生架构展开,而AI时代,Agent将成为新的核心单元。
“你现在要思考的是,Agent需要什么样的runtime,什么样的中间件,什么样的数据库,以及什么样的数据湖和DevOps体系。”谭待表示。
他认为,Agent的运行方式与传统应用存在显著差异。传统应用通常是“少量表、海量数据”,而Agent则是“大量表、单表数据量小、随用随建、随时销毁”,这对数据库与数据管理提出了全新的要求。
正是在这一背景下,火山引擎推出了面向Agent的数据湖、多模态数据能力以及配套的开发工具链。谭待强调,这并非概念驱动,而是源于豆包自身在大规模Agent实践中的真实需求。
“为什么我们能抽象出这些东西?因为我们自己做过。”他说,豆包在实际业务中踩过的坑,最终被整理为对外可复用的产品能力。
▍从Token到Agent:商业模式的抽象层正在上移
在商业模式层面,随着大模型调用规模快速增长,“按token计费是否过于原始”成为行业讨论的焦点之一。
对此,谭待的态度相对务实。他认为,token计费并非错误,而是处在AI商业化的底层抽象层级。“API本身就是原材料,原材料按用量计费是很自然的。”
但他同时强调,真正决定市场空间的,并非token本身,而是更高抽象层的Agent形态。
在他看来,当模型被封装为可直接解决问题的Agent,其商业逻辑将从IT预算,转向业务预算甚至BPO(业务流程外包)市场。
他以“深度研究型Agent”为例指出,这类Agent的调用频率可能并不高,但每一次调用背后,都可能是数小时甚至数天的多轮推理、搜索与数据处理,消耗极高的token量。
“你不能只看哪个场景起量快,还要看长期天花板。”谭待表示,陪伴聊天等C端场景起量快但天花板有限,而科研、教育、医疗、企业决策等场景起量慢但长期价值更高。
▍AI时代云安全是“必选项”而非“附加项”
在本次大会中,安全被火山引擎放在了一个相对靠前的位置,这在云厂商发布会上并不多见。
谭待的解释是,模型能力越强,对安全的要求就越高。如果安全问题无法被系统性解决,AI很难在企业级场景中被真正规模化采用。
他指出,传统的软件时代,企业往往通过私有化部署或一体机来解决安全问题,但在AI时代,这种方式正在逐渐失效。一方面模型更新周期极短,另一方面Agent体系高度依赖云端能力,私有化方案很难跟上技术演进。
火山引擎的解决方案是,通过AICC(机密计算)等方式,将安全能力与MaaS、AgentKit深度融合,使安全成为云与AI体系的内生能力,而非外挂组件。
“AI时代,云的重要性会更大,而不是更小。”谭待表示,未来越来越多企业会意识到,安全不应以牺牲模型能力和迭代速度为代价。
此外,在谈及大模型竞争格局时,谭待多次强调“竞争不是最重要的变量”。
在他看来,大模型市场仍处于高速扩张阶段,关键并非零和博弈,而是如何加速AI在真实业务中的落地。“如果市场明年还能再涨10倍,大家关注的就不是存量竞争。”