中经记者 许璐 李晖 北京报道
数据标注行业的生产方式正在发生变化。
近日,国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》)。在标注环节,《实施方案》提出,发展“模型预标注+人工校准”“人工标注+模型检验”“模型预标注+模型检验”等智能化标注服务。推动形成“人机协同、专家深度参与”的多层次标注模式。梯次布局数据标注创新试验区。培育一批数据标注龙头企业、独角兽企业、瞪羚企业等。
《中国经营报》记者梳理海天瑞声(688787.SH)、世纪恒通(301428.SZ)、数据堂(831428.NQ)公开信息发现,模型预标注、辅助标注、质量检验等技术已开始进入数据生产流程,企业的业务范围也向大模型训练、自动驾驶、多模态和行业专业数据延伸。
深度科技研究院院长张孝荣在接受《中国经营报》记者采访时表示,数据标注行业的商业模式正在从“卖劳力”到“卖资产”转变,即不再按数据量“一口价”卖数据,而是转向卖API调用、卖全栈解决方案,甚至探索“Token(词元)交易”和数据订阅制。数据服务商与客户之间的关系也将由外包服务逐步转向长期协作。
从人工逐条处理转向人机协同
高质量数据集建设提速,进一步扩大了数据采集、清洗、标注和质量检验等环节的需求。国家数据局发布的《全国数据资源调查报告(2025年)》显示,2025年,全国高质量数据集数量超过11万个、规模超过908PB,同比分别增长61.13%和142.58%。
在数据集规模扩大、产业政策持续落地的同时,数据标注的生产方式也在发生变化。当前,数据标注正在从人工逐条处理,转向模型批量处理与人工重点复核相结合。公开信息显示,2025年全球数据标注解决方案与服务市场规模达204.1亿美元,复合年增长率达24.5%。
作为数据标注产业链的代表性企业,海天瑞声方面在接受记者采访时表示,行业整体正从传统劳动密集型作业模式,全面转向以智能化人机协同为核心的现代化数据生产体系。
据海天瑞声方面介绍,目前公司已覆盖《实施方案》提出的三类智能化标注服务,各模式分属不同应用阶段。
其中,“模型预标注+人工校准”是现阶段规模化落地最成熟的主力生产模式。实际作业中,系统会同步调用2—3个差异化预训练模型独立输出标签并交叉融合,再通过主动学习筛选模型分歧、低置信度及识别偏差样本,由人工校准;其余无争议、高置信度样本直接免检。
“人工标注 + 模型检验”模式更适配医疗影像、金融文本、法律文书等高知识密度、强合规约束赛道。作业流程中先由专业专家或资深标注人员完成带有专业判断的基础标注,再由 AI 模型后置开展一致性核查,自动捕捉错标、漏标、逻辑异常等问题数据,弥补人工标注标准不统一、细节疏漏等短板,也是尚无成熟行业预训练模型的新兴专业赛道起步阶段的核心方案。
“模型预标注+模型检验”模式,更多是在一些客户侧自有数据体系或特定工具链中使用,海天瑞声的角色更多是围绕高质量数据集构建,提供更完整的人机协同生产能力。
对于海天瑞声在业务中三类模式的占比,公司方面透露:“随业务场景动态浮动。完全人工标注占10%—30%,多用于无适配预训练模型的全新长尾赛道;人机协同模式占50%—70%,为行业主流;自动化参与较深的流程,主要体现在部分标准化、结构化任务中,以模型预标注与辅助质检为主,但通常仍需人工参与关键校验与收敛。”
“场景越简单、标准化程度越高,自动化的介入程度就越深。”张孝荣认为。
针对不同类型数据的自动化程度和技术难点,海天瑞声方面称,通用图文自动化程度最高,难点集中在遮挡、小目标、多语义歧义;自动驾驶点云自动化中等,难点为极端天气噪点、微小障碍物、多传感器时空对齐;具身智能自动化程度最低,行业标准尚未统一,时序动作、空间匹配高度依赖人工与专家;多模态数据自动化中等,核心痛点是跨模态时序对齐、语义一致性校验,语义冲突样本均需人工校准。
记者注意到,除海天瑞声外,其他企业也在搭建标注平台和生产体系。世纪恒通2025年年报显示,其数据标注业务覆盖文本、图片、音频、视频、直播等数据形态,并依托太阳湖数据标注基地形成“标注师+标注平台+标注作业基地”的业务布局。
数据服务向专业化和持续化延伸
数据标注生产方式变化的同时,企业的服务内容也开始向知识密集型场景延伸。
随着人工智能应用向多模态、智能体、自动驾驶和具身智能等场景拓展,数据标注开始涉及多轮对话、复杂推理、工具调用、环境感知、任务规划和运动控制。金融、医疗、法律、工业等专业数据,还需要相应的行业知识。
海天瑞声方面回复称,公司当前重点布局三类高知识密度标注场景:一是STEM、金融、医疗、法律等专业大模型文本语料;二是高阶自动驾驶、工业机械臂、具身机器人等复杂感知决策数据;三是医疗影像、车载交互、跨语言对话等多模态专家校验数据集。
财报显示,海天瑞声的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。2025年海天瑞声实现营收3.77亿元,同比增长59%。
张孝荣认为,数据标注企业的竞争能力主要体现在技术平台、行业知识和安全合规三个方面。技术平台得有自研的智能标注工具,靠“AI打底+人工把关”实现降本增效。行业知识要求企业必须懂行(如医疗、自动驾驶),能调动行业专家为数据注入专业知识。安全合规则覆盖数据采集、存储、处理和交付流程。
不同企业也在形成不同业务模式。例如,数据堂采用版权数据集授权与定制化数据服务并行的方式,其官网显示,公司拥有1500余个版权数据集,覆盖200余种语言和方言。2025年数据堂实现营业收入3.62亿元,同比增长49.20%。
世纪恒通将重心从基础数据服务向前沿AI产品延伸,重点投入AIGC文创Agent及AIHub等产品的研发与推广。根据公司2025年年报,数据标注已成为商务流程服务的核心增长方向,当年商务流程服务实现营收2.65亿元,同比增长10.67%,占总营收比重为25.06%。
在张孝荣看来,数据标注行业正在告别纯靠“堆人力”的劳动密集型模式,全面进入了人机协同的新阶段。现在的主流玩法是“机器打底,人工把关”。这种模式不仅让效率翻了倍,也让标注质量有了保障,整个行业正在向智能化和平台工程化转型。
针对行业智能化转型存在的痛点,海天瑞声方面指出,技术工具上,模型跨场景泛化能力不足,多模态工具链割裂;质量标准上,缺少全国统一、跨企业互认的量化测评体系;专业人才上,兼具行业知识与AI标注能力的复合型人才稀缺,专家留存成本高;数据安全上,金融、医疗、车企敏感数据全流程合规管控成本持续走高;商业回报上,基础标注低价竞争,智能化研发投入周期长,数据资产化交易模式尚未普及。
根据艾瑞咨询的数据,2024年中国人工智能基础数据服务市场规模为58亿元,2028年规模将达到170亿元,年复合增长率为30.84%。
记者注意到,《实施方案》同时提出,发展专家型数据标注服务,建立行业专家认证机制,推动专家深度参与指令微调、强化学习等阶段的专业知识标注。
针对专家参与机制,海天瑞声方面回复称,公司已搭建覆盖30余个行业、规模超过5万人的全球专家协同网络,并依托DOTS平台实现智能派单、线上评审与全流程溯源,形成常态化专家协同体系。此外,公司对专家实施分级认证和动态考核,根据项目难度匹配不同层级专家,并在项目初期专家参与制定标注规则和疑难样本判断标准。平台筛选出的高专业风险样本自动流转专家仲裁,修正后的样本再用于垂直领域模型训练。