全国首个金融大模型评测体系升级2.0版，国产模型均分比去年大幅提高_街坊资讯

（来源：上观新闻）

近日，2025金融大模型评测体系在上海发布，这是去年全国首个金融大模型评测体系发布以来第一次全面升级至2.0版，主要聚焦在标准引领、数据驱动、安全可信与生态共建四方面。

大模型评测体系通常是评估大模型的性能、安全性、可靠性等方面的指标、方法、基准和流程的集合，对于大模型行业的标准化发展有至关重要的作用。特别是近年来，国内涌现出多个金融大模型，但行业还缺少较为权威和认可的评测体系。而2025金融大模型评测体系，相当于为行业提供了科学选型与能力对标的重要“标尺”。

据介绍，该评测体系汇聚了4个公开数据集与22个自建数据集，约3.6万条评测数据，采用循环选项打乱机制和多样化提示词，并研发金融裁判大模型，实现评测全流程自动化、标准化，为上海金融领域银行、券商、基金、投资等企业或者机构人员提供权威、精准的大模型能力评估，助力机构选型、优化及风险把控。

在最新的评测体系下，今年的金融大模型测试结果全面超越去年，行业平均71.9分提升到87.37分。同时，测试结果还发现，海内外大模型整体能力上相差不大，但在中文领域，国内大模型处于领先水平。另外，国内金融大模型在语言理解、术语消歧、法规政策更新和合规对齐等领域领先，国外金融大模型则在数学计算、跨步推理、跨语言推理和超长文本处理上领先。

库帕思首席运营官施佳樑介绍，在银行柜面操作等高度标准化场景中，模型回答的专业度已达到从业人员水平。不过，在隐性合规风险识别能力普遍不足，部分模型对“打擦边球”行为识别率低于50%。值得一提的是，金融大模型在角色扮演场景下，安全边界更易被突破，存在“越狱风险”，同时英文指令比中文指令更易绕过大模型的安全机制。

原标题：《全国首个金融大模型评测体系升级2.0版，国产模型均分比去年大幅提高》

栏目主编：李晔题图来源：上观题图

来源：作者：解放日报查睿

街坊秀

全国首个金融大模型评测体系升级2.0版，国产模型均分比去年大幅提高

热门标签

热门排行

最新更新

友情链接