街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

AI做量化差在哪?7个顶级LLM实测,策略通过率不足一半

(来源:浪说量化)

四月以来,市场的热度轮动很快,FOMO情绪推着资金涌入,每个人都有一套叙事---AI、降息、财报超预期;大量的资金押注某一个赛道,激发了讨论:这样的趋势能否持续?当下的市场形态和dot.com泡沫有怎样的区别和共性?

但叙事不是策略,投资不是拍脑袋的决定。当真正想回答"这轮行情能不能持续""我该怎么配置"的问题时,人们需要的不是更多观点,而是可验证的模型、数据、和纪律化的框架;也正是大量信息聚集的当下,AI最可能帮上忙的地方。但在高风险的严肃金融场景里,问题变得尖锐:AI给我的分析和回测结果是否可信?AI能不能真正把研究灵感,转化成可执行、可检验、可迭代的交易策略?这篇文章做三件事:评估现有大模型的投研能力,提出一套统一benchmark,以及展示Alagent引入验证引擎和领域知识后的实际提升

代码只是量化的基础,更前端的研究理解、数据口径和清洗、交易约束和成本、回测设定和核对、风险管理和分析等细节,才是最易出错、最耗时间的部分。而当下市场信息繁杂,认知优势的半衰期越来越短,信号衰减加速。故而对于很多中小型fund或团队而言,即使市场下沉,问题依然存在:团队人少、分工有限,同一个研究员往往要身兼数职,甚至独立完成整个工作流;很多本该由系统承接的工作,由于infra质量和dev有限,仍然依赖人工串联,研究效率和结果稳定性都易受影响。

输入五花八门,语义无法自动对齐

论文、研报、交易所数据、公众号文章、宏观新闻、一个twitter post、一句自然语言描述,输入本质上都是非结构化研究材料——没有统一结构、没有统一语义、没有统一接口;海量的噪音,极少的信号。真正困难之处,是把其中隐含的有用信息、指标定义、信号逻辑、调仓条件、执行约束和风控规则,稳定抽取成标准化策略规范。

工作流割裂,研究难以迭代

现实里的量化工作分散在阅读材料、手工摘录、代码编写、调试、回测和结果整理等多个环节。大型机构可能有专门的平台和流程去支撑;但对新团队或小fund而言,跨环节切换成本高、错误传递链长,策略改动一处,后面很多步骤都需要重来。

写得出代码,但写不对金融逻辑

LLM已在通用代码生成展现出很强的能力;但在策略生成这类高约束任务里,真正出错的往往不是代码语法,而是金融语义本身:数据窗口是否正确、是否处理前视偏差和退市偏差、是否考虑市场冲击成本、收益口径是否一致、组合构建是否偏离研究原意、订单执行假设是否成立等。

2 | 从实验观察:顶级LLM为何还不能直接胜任量化研究?

为客观比较不同coding agent在量化任务上的表现,我们采用统一benchmark进行评测,并同时覆盖商业原生agent与统一开源scaffold 下的不同模型后端。每个任务都会提供研究论文、用户指令和策略所需数据文件;所有实验均在隔离环境中运行,使用相同的数据快照、运行环境和资源预算。我们由量化和AI专业人士协同拟定了一系列判断策略复现是否达标的properties,包括了domain-levelpaper-specific properties两类集成。模型在执行过程中无法访问参考实现或验证结果、执行失败、超时、输出缺失以及接口违规都统一记为失败。

我们的实验结果验证了前文结论——现有coding agent在量化任务上仍不可靠:一是平均成功率不高;二是无法处理好量化策略的时序,方向以及一些细节要求。

图1 展示了各类coding agent在QuantCodeEval上的pass@1(一次即通过)与pass@5(五次后才通过)分布,给出了不同agent的成本与交互步数

从结果可以看到,即使允许多次尝试,pass@5有所提升,但整体成功率仍然有限;与此同时,不同agent在成功率、成本和交互复杂度之间也存在明显差异。这说明量化代码生成并不是一个靠“多试几次”就能稳定解决的问题。

图2 展示了不同coding agent在策略属性要求m(Properties)上的通过情况

同时,任务中的失败并不是单点式的,而是分散出现在不同任务维度和不同约束检查中。对于现有LLM:问题不只在“会不会写代码”,而在“有没有量化know-how”和“能不能把研究语义稳定地落实到实现和验证流程里”。

目前项目上线一周下载量已达1.5k+完整项目结果详见:www.quantcodeeval.cloud

dataset:https://huggingface.co/datasets/quantcodeeval/task_data

相关论文目前under review中

图3 QuantCodeEval Benchmark主页

3 | Alagent的解决方案:

Agentic投研交易基础设施

Alagent AI由香港大学CS和Finance教授和专业从业人员发起,从量化研究多智能体和验证引擎切入,研发AI原生交易基础设施。任何输入结构和接口,系统都能一键执行如下工作流,将其转成可验证的策略规范、可执行代码和可信赖的回测结果。我们认为Agent的应用价值并不取决于单轮生成结果的流畅性,而取决于其是否具备准确性、可验证性、可追溯性以及支持多角色协同的流程承载能力。

相对于最强开源/商业coding agent baseline,Alagent不但能生成更高质量的、更贴近现实交易的代码,还让整个LLM生成流程更加可控。

核心能力解析

多模态输入适配

支持超长文本PDF、Markdown草稿、Docx报告、纯图片、URL、自然语言等多格式输入,自动识别结构,细颗粒度吞咽。

五层递进式LLM萃取

摒弃黑盒生成,通过多策略检测、指标提取、信号逻辑拆解、执行计划生成、风控规则梳理,将非结构化文本转化为标准化的策略规范,精准实现多策略文献的每个策略细节

多层验证,准确的代码生成

基于策略规范生成可执行代码,逐项回溯校验;系统会对于不确定或非标准化专业领域细节逐一问询,而非自行决定生成随机的数据/公式/参数,保证代码正确性,杜绝无效幻觉代码。因此,基于高性价比模型(DeepSeek V4, flash和PRO)的策略生成质量也可超过SOTA模(详见Part 4)

拟真可配置的回测框架与偏差诊断

所有策略均可接入Backtrader框架进行可配置回测,直连券商而非基于pandas,支持更真实地纳入手续费、滑点、杠杆等交易约束;自动提取绩效指标,智能比对并标注偏差点,给出诊断报告。

IDE 无缝集成

Agent Skill version可直接接入VS Code Copilot、Claude Code等工具,无需跨平台切换,无缝衔接科研工作流,降低上手门槛。

中英双语研究支持

支持多语种文献、策略说明和自然语言输入。

4 | Alagent的表现:复现一个顶尖论文策略,Sharpe偏差仅0.002

本节以Kelly等人的Universal Portfolio Shrinkage为例,展现 Alagent的能力。构建投资组合时,历史数据不一定可靠。某个因子过去几年表现很好,可能是碰巧;组合风险看起来很低,可能是样本太短。Shrinkage意即“别太冲动”:看到极端的历史结果时,不是完全相信它,而是把它往更稳、更保守的方向拉。UPSA提供不同程度不同拉法的保守方案,并用历史数据检验:哪种方案在样本外更靠谱。最后,它在不同因子组合之间重新分配权重,让组合不要太依赖某个看起来漂亮、但可能只是运气好的历史信号。

UPSA看起来只是一个投资组合算法,但生成时极易“踩坑”:哪个公式才是优化目标,哪些权重只是中间变量,样本外日期怎么对齐,加多少杠杆。一个地方理解错,最后的Sharpe、回撤和净值都会差很多。Alagent要做的事情,就是把这些容易被人和模型误读的细节定位、检查是否对齐,保证代码真的按论文的意思在跑。

我们使用与论文设定一致的数据口径和OOS评估窗口(Out-of-Sample)对UPSA策略进行生成。论文headline OOS Sharpe为1.92,而我们的golden implementation复现到1.918,偏差仅-0.002,且24个active checker全部通过。

在同一样例上,其他agent的常见失败主要来自金融语义层:论文脚注里的方差归一化定义理解错漏,导致Sharpe普遍落在1.36左右; full sample period和OOS evaluation window混淆,Sharpe被直接稀释到 0.014;虽然大体理解了思路,却把ridge space的全局维度写错,导致后续矩阵结构整体失真等等。

此外,Alagent是唯一一个在论文结果复现上达到正确数量级、并通过完整checker验证的实现;同时,也是唯一一个将复现结果落地到可连接券商回测执行框架中的实现。我们得到的不是一个停留在pandas计算层面的复现样例,而是一套能够继续纳入交易成本、杠杆和保证金约束,并向真实执行环境延伸的策略。

综上,量化研究的难点,从来不只是把想法写成代码,而是把研究假设、时间语义、数据口径、交易约束和评估标准完整地保留下来。很多系统已经能够生成看起来合理的策略,但一旦进入多策略复现、组合构造和回测验证这些更严肃的场景,仍缺乏对金融语义的理解能力,以及从spec到实现再到验证的闭环能力。这也是我们致力解决的问题:把原始输入、spec、代码中的参数配置、公式、策略的数据流一一对应,进行细粒度验证,并提醒用户澄清模糊表达,从而提高生成代码正确性,再进行回测级验证。量化研究的门槛没有因为AI而消失,但正确使用AI的方式正在改变。我们的目标是帮助每一个有研究想法的人。

未经允许不得转载: 街坊秀 » AI做量化差在哪?7个顶级LLM实测,策略通过率不足一半