AI做量化差在哪？7个顶级LLM实测，策略通过率不足一半_街坊资讯

（来源：浪说量化）

四月以来，市场的热度轮动很快，FOMO情绪推着资金涌入，每个人都有一套叙事---AI、降息、财报超预期；大量的资金押注某一个赛道，激发了讨论：这样的趋势能否持续？当下的市场形态和dot.com泡沫有怎样的区别和共性？

但叙事不是策略，投资不是拍脑袋的决定。当真正想回答"这轮行情能不能持续""我该怎么配置"的问题时，人们需要的不是更多观点，而是可验证的模型、数据、和纪律化的框架；也正是大量信息聚集的当下，AI最可能帮上忙的地方。但在高风险的严肃金融场景里，问题变得尖锐：AI给我的分析和回测结果是否可信？AI能不能真正把研究灵感，转化成可执行、可检验、可迭代的交易策略？这篇文章做三件事：评估现有大模型的投研能力，提出一套统一benchmark，以及展示Alagent引入验证引擎和领域知识后的实际提升。

代码只是量化的基础，更前端的研究理解、数据口径和清洗、交易约束和成本、回测设定和核对、风险管理和分析等细节，才是最易出错、最耗时间的部分。而当下市场信息繁杂，认知优势的半衰期越来越短，信号衰减加速。故而对于很多中小型fund或团队而言，即使市场下沉，问题依然存在：团队人少、分工有限，同一个研究员往往要身兼数职，甚至独立完成整个工作流；很多本该由系统承接的工作，由于infra质量和dev有限，仍然依赖人工串联，研究效率和结果稳定性都易受影响。

输入五花八门，语义无法自动对齐

论文、研报、交易所数据、公众号文章、宏观新闻、一个twitter post、一句自然语言描述，输入本质上都是非结构化研究材料——没有统一结构、没有统一语义、没有统一接口；海量的噪音，极少的信号。真正困难之处，是把其中隐含的有用信息、指标定义、信号逻辑、调仓条件、执行约束和风控规则，稳定抽取成标准化策略规范。

工作流割裂，研究难以迭代

现实里的量化工作分散在阅读材料、手工摘录、代码编写、调试、回测和结果整理等多个环节。大型机构可能有专门的平台和流程去支撑；但对新团队或小fund而言，跨环节切换成本高、错误传递链长，策略改动一处，后面很多步骤都需要重来。

写得出代码，但写不对金融逻辑

LLM已在通用代码生成展现出很强的能力；但在策略生成这类高约束任务里，真正出错的往往不是代码语法，而是金融语义本身：数据窗口是否正确、是否处理前视偏差和退市偏差、是否考虑市场冲击成本、收益口径是否一致、组合构建是否偏离研究原意、订单执行假设是否成立等。

2 | 从实验观察：顶级LLM为何还不能直接胜任量化研究？

为客观比较不同coding agent在量化任务上的表现，我们采用统一benchmark进行评测，并同时覆盖商业原生agent与统一开源scaffold 下的不同模型后端。每个任务都会提供研究论文、用户指令和策略所需数据文件；所有实验均在隔离环境中运行，使用相同的数据快照、运行环境和资源预算。我们由量化和AI专业人士协同拟定了一系列判断策略复现是否达标的properties，包括了domain-level和paper-specific properties两类集成。模型在执行过程中无法访问参考实现或验证结果、执行失败、超时、输出缺失以及接口违规都统一记为失败。

我们的实验结果验证了前文结论——现有coding agent在量化任务上仍不可靠：一是平均成功率不高；二是无法处理好量化策略的时序，方向以及一些细节要求。

图1 展示了各类coding agent在QuantCodeEval上的pass@1（一次即通过）与pass@5（五次后才通过）分布，给出了不同agent的成本与交互步数

从结果可以看到，即使允许多次尝试，pass@5有所提升，但整体成功率仍然有限；与此同时，不同agent在成功率、成本和交互复杂度之间也存在明显差异。这说明量化代码生成并不是一个靠“多试几次”就能稳定解决的问题。

图2 展示了不同coding agent在策略属性要求m(Properties)上的通过情况

同时，任务中的失败并不是单点式的，而是分散出现在不同任务维度和不同约束检查中。对于现有LLM：问题不只在“会不会写代码”，而在“有没有量化know-how”和“能不能把研究语义稳定地落实到实现和验证流程里”。

目前项目上线一周下载量已达1.5k+，完整项目结果详见：www.quantcodeeval.cloud

dataset:https://huggingface.co/datasets/quantcodeeval/task_data

相关论文目前under review中

图3 QuantCodeEval Benchmark主页

3 | Alagent的解决方案：

Agentic投研交易基础设施

Alagent AI由香港大学CS和Finance教授和专业从业人员发起，从量化研究多智能体和验证引擎切入，研发AI原生交易基础设施。任何输入结构和接口，系统都能一键执行如下工作流，将其转成可验证的策略规范、可执行代码和可信赖的回测结果。我们认为Agent的应用价值并不取决于单轮生成结果的流畅性，而取决于其是否具备准确性、可验证性、可追溯性以及支持多角色协同的流程承载能力。

相对于最强开源/商业coding agent baseline，Alagent不但能生成更高质量的、更贴近现实交易的代码，还让整个LLM生成流程更加可控。

核心能力解析

多模态输入适配

支持超长文本PDF、Markdown草稿、Docx报告、纯图片、URL、自然语言等多格式输入，自动识别结构，细颗粒度吞咽。

五层递进式LLM萃取

摒弃黑盒生成，通过多策略检测、指标提取、信号逻辑拆解、执行计划生成、风控规则梳理，将非结构化文本转化为标准化的策略规范，精准实现多策略文献的每个策略细节。

多层验证，准确的代码生成

基于策略规范生成可执行代码，逐项回溯校验；系统会对于不确定或非标准化专业领域细节逐一问询，而非自行决定生成随机的数据/公式/参数，保证代码正确性，杜绝无效幻觉代码。因此，基于高性价比模型（DeepSeek V4, flash和PRO）的策略生成质量也可超过SOTA模型（详见Part 4）。

拟真可配置的回测框架与偏差诊断

所有策略均可接入Backtrader框架进行可配置回测，直连券商而非基于pandas，支持更真实地纳入手续费、滑点、杠杆等交易约束；自动提取绩效指标，智能比对并标注偏差点，给出诊断报告。

IDE 无缝集成

Agent Skill version可直接接入VS Code Copilot、Claude Code等工具，无需跨平台切换，无缝衔接科研工作流，降低上手门槛。

中英双语研究支持

支持多语种文献、策略说明和自然语言输入。

4 | Alagent的表现：复现一个顶尖论文策略，Sharpe偏差仅0.002

本节以Kelly等人的Universal Portfolio Shrinkage为例，展现 Alagent的能力。构建投资组合时，历史数据不一定可靠。某个因子过去几年表现很好，可能是碰巧；组合风险看起来很低，可能是样本太短。Shrinkage意即“别太冲动”：看到极端的历史结果时，不是完全相信它，而是把它往更稳、更保守的方向拉。UPSA提供不同程度不同拉法的保守方案，并用历史数据检验：哪种方案在样本外更靠谱。最后，它在不同因子组合之间重新分配权重，让组合不要太依赖某个看起来漂亮、但可能只是运气好的历史信号。

UPSA看起来只是一个投资组合算法，但生成时极易“踩坑”：哪个公式才是优化目标，哪些权重只是中间变量，样本外日期怎么对齐，加多少杠杆。一个地方理解错，最后的Sharpe、回撤和净值都会差很多。Alagent要做的事情，就是把这些容易被人和模型误读的细节定位、检查是否对齐，保证代码真的按论文的意思在跑。

我们使用与论文设定一致的数据口径和OOS评估窗口（Out-of-Sample）对UPSA策略进行生成。论文headline OOS Sharpe为1.92，而我们的golden implementation复现到1.918，偏差仅-0.002，且24个active checker全部通过。

在同一样例上，其他agent的常见失败主要来自金融语义层：论文脚注里的方差归一化定义理解错漏，导致Sharpe普遍落在1.36左右; full sample period和OOS evaluation window混淆，Sharpe被直接稀释到 0.014；虽然大体理解了思路，却把ridge space的全局维度写错，导致后续矩阵结构整体失真等等。

此外，Alagent是唯一一个在论文结果复现上达到正确数量级、并通过完整checker验证的实现；同时，也是唯一一个将复现结果落地到可连接券商回测执行框架中的实现。我们得到的不是一个停留在pandas计算层面的复现样例，而是一套能够继续纳入交易成本、杠杆和保证金约束，并向真实执行环境延伸的策略。

综上，量化研究的难点，从来不只是把想法写成代码，而是把研究假设、时间语义、数据口径、交易约束和评估标准完整地保留下来。很多系统已经能够生成看起来合理的策略，但一旦进入多策略复现、组合构造和回测验证这些更严肃的场景，仍缺乏对金融语义的理解能力，以及从spec到实现再到验证的闭环能力。这也是我们致力解决的问题：把原始输入、spec、代码中的参数配置、公式、策略的数据流一一对应，进行细粒度验证，并提醒用户澄清模糊表达，从而提高生成代码正确性，再进行回测级验证。量化研究的门槛没有因为AI而消失，但正确使用AI的方式正在改变。我们的目标是帮助每一个有研究想法的人。

街坊秀

AI做量化差在哪？7个顶级LLM实测，策略通过率不足一半

热门标签

热门排行

最新更新

友情链接