1
PART1 测评背景介绍
去年8月,本公众号开展了一次CPA全科真题测试。结果显示,测试的3款大模型(GPT-4o、智谱清言、讯飞星火)在各自的六门测试中,均未达到60分的及格线。
2025年1月20日,国产AI公司深度求索发布新一代推理大模型DeepSeek-R1,凭借开源生态+超低价格+深度推理能力,迅速成为全球焦点,更在财务领域掀起巨浪。
那么,面对专业度极高的CPA考试,DeepSeek能否再次证明实力?如果DeepSeek通过CPA考试,对会计人意味着什么?未来我们还需要再考CPA吗?会计人应该如何规划自己的职业方向?
2
PART2 测试结果
从整体结果来看,DeepSeek在CPA六科测试中共通过4门,这也是AI大模型在国内公开测评中首次通过CPA考试。
DeepSeek通过的四门分别为《经济法》《税法》《财管》和《审计》,其中经济法得分高达81.5分,而《战略》与《会计》两科表现虽然相对较弱,但也仅略低于及格线。
与2024年8月的测试结果对比,DeepSeek在CPA六科测试中全面超越去年各模型最高分,法规相关(经济法、税法)及复杂逻辑相关(财管、会计)提分尤为明显,平均增幅约为39%;《战略》科目提分甚微,仅有2%。
3
PART3 测试方案
【测试题目】
2023年CPA专业阶段六科整套真题
【测试工具】
1.DeepSeek-R1
2.斯尔教育主观题AI阅卷工具
【测试方式】【判分标准】
4
PART4 结果分析
针对未通过的两门,我们展开了具体分析:
从《会计》科目得分分布看,DeepSeek以显著优势领先,其凭借深度思考能力,在会计分录编制上较其他大模型表现大幅提升。但所有模型均未达到60分及格线,尤其是在合并报表抵消和调整分录、长期股权投资以及金融工具等难度较高的知识点上得分率较低,说明会计科目对大模型仍具挑战性。
DeepSeek相较于智谱与GPT4o,在《战略》科目未展现出明显优势。四个模型均未达到及格线,可能原因如下:
1.不熟悉答题套路:《战略》主观题要求答案严格遵循“理论框架+案例原文”范式,而大模型生成内容普遍缺乏原文引用,理论论述与案例脱节;
2.知识点理解不够精准:多选题得分率较低(仅30%),难以结合题干背景应用知识点。
进一步,基于《2023年注册会计师全国统一考试分析报告》公布的考生得分的分布情况,我们将DeepSeek得分与CPA考生平均分进一步对比,发现:DeepSeek已经在CPA所有科目超越人类考生的表现,其在法规相关科目(经济法、税法)上已形成显著超越优势,如下图所示。
5
PART5 DeepSeek锐评
针对本次测评表现,我们也邀请本次测评的“主人公”DeepSeek老师锐评自己的表现及CPA考试体系,并给会计人一些一针见血且切实可行的建议。DeepSeek的回答如下,仅供参考,请自行甄别。
主要参考文献[1]姚冬萍,陈曦,王珺.2023年注册会计师全国统一考试分析报告[J].中国注册会计师,2024,(06):70-78.