街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

OneReason:当推荐系统学会思考

10天A/B实验中带来+10.33%曝光、+8.23%广告收入、ROI>5。

推荐系统的过去十年,本质是把“用户-物料”的统计共现挖到极致——从协同过滤、深度模型,到生成式 OneRec系列,每一代都在让“记忆”更精细、参数更大、序列更长,也让Scaling这件事在工业级推荐系统上跑通,持续释放算力红利。

但走到LLM时代,我们发现:纯把“统计”做大已经在多个方向上撞到了硬墙——冷启用户、长尾物料推不准、跨域迁移做不好、多目标多业务的策略组合靠权重调参越来越难往前推。

同一时期的基础大模型领域,主旋律从Scaling,Reasoning再到Agentic——智能的高度与维度被持续重定义:从“知道多少”,走向“想得对不对”,再到“能不能把事情做好”。OpenAI o1、DeepSeek R1已经把“先思考再回答”做成共识范式,让模型在数学、代码、Agent任务上获得跨代的能力跃迁。这条主轴并非LLM专属——推荐系统过去十年靠Scaling拿到的红利,下一阶段同样需要Reasoning来释放新的增长曲线。

但Reasoning在推荐里不是LLM范式的简单复制——它要回答的是推荐系统自己的三个本质问题

(1)推荐天然是“溯因,不是模式匹配。

用户行为是“果”,潜在意图是“因”——从嘈杂、跨域、跨时段的行为序列里反推某个具体物料“为什么适合此刻”,本质是溯因推理。统计模型记得住“看过A的人也看B”,但回答不了用户多跳因果链;尤其在冷启用户、新物料、长尾品类、跨域迁移这些行为信号天然稀疏的场景里。

(2)推荐从“黑盒打分”变成“可解释、可干预”的认知过程,业务杠杆显著放大。

一个会推理的基模,把过去藏在权重里的决策过程显式写在CoT里,直接让推理链直接读出“为什么推这条”,让业务约束直接可以写在推理层,让策略迭代节奏从周级降到天级;让新业务接入也不再需要为每个域从零搭召回排序栈,一个懂物料语义的基模+一段业务说明即可跨域出方案。

(3)Reasoning是Agentic RecSys的前置地基。

推荐的下一站,是从“千人一面的固定流水线”走向“千人千策、能规划、能用工具、能多轮对话”的Agentic推荐系统。规划、工具调用、长程对话推荐这些能力的前提,都需要一个懂物料语义、有推理能力、能稳定指令遵循的基模在底层托住。

正是基于以上三点判断,快手技术团队推出OneReason——把Reasoning真正注入推荐基模的一次系统性尝试。其核心改进点包括:

(1)578B数据的三阶段预训练,分层递进地完成推荐与通识知识的语义对齐;

(2)设计基于归纳/溯因/演绎的推荐CoT格式,在SFT阶段教会模型推荐任务的思维逻辑;

(3)通过“先专后合”的强化学习链路平衡多业务推荐能力,使CoT真正辅助推荐决策。

在评测与部署上,OneReason同时验证了Reasoning在推荐里的真实价值:

业务上——在快手本地生活广告10天A/B实验中带来+10.33%曝光、+8.23%广告收入、ROI>5,对应年化数亿元商业增量;

推荐Benchmark评测上——OneReason首次在推荐基础模型上让thinking模式稳定超过non-thinking模式。在此之前,多个公开尝试(OneRec-Think、OpenOneRec)都观察到thinking反而hurts的反常识现象;OneReason在Pass@4上thinking平均领先non-thinking+13.45%,把“思考”在推荐基模上第一次变成正资产;

通识能力上——MMLU-pro、GPQA-Diamond等评估基本保留Qwen3-8B原始水平,没有因为推荐训练把基座的通用认知和指令遵循能力训坏。

在LLM已经把Scaling-Reasoning-Agentic这条主轴走到第三步的同时,OneReason把推荐域的“Reasoning”补上了关键一步——通过物料语义与通识语义的深度对齐,把推荐过程转化为一种可解释、可干预、可进化的认知过程,使推荐背后的逻辑不再是黑盒,也为原生ReAct范式的Agentic RecSys打下基础。

OneReason技术报告:https://arxiv.org/abs/2606.06260

HuggingFace:https://huggingface.co/OpenOneRec/OneReason-0.8B-pretrain

01.

背景

在生成式推荐方向上,OneRec系列模型验证了Scaling Law在推荐系统中也依然成立,并通过OneRec V1、OneRec V2持续释放算力红利,推动模型能力提升。而后LLM时代,模型能力的进一步跃迁不再仅依赖规模扩展,Scaling与Reasoning的协同正在成为新的关键路径。

但在工业推荐场景中,OneRec团队此前尝试过一些初步探索(如OneRec-Think、OpenOneRec),发现直接引入这一范式并未带来预期收益:在推荐任务上,thinking模式并不稳定优于non-thinking模式,这一现象与LLM/MLLM的直觉完全相反。

这表明推荐基模与通用基础大模型在任务目标、信息结构和能力形成机制上存在显著差异,简单叠加CoT并不能自然转化为推荐效果的提升。因此,“推荐CoT应该怎么做”成为生成式推荐继续发展过程中必须迎面的挑战。

针对于这一问题,OneRec团队交出了他们最新答卷--OneReason:在工业级推荐场景分析了推荐推理失效的根因,并提出一套覆盖感知对齐、认知结构化与CoT能力增强的完整实验流程,为生成式推荐领域的技术体系打开了新的探索空间,也为行业理解和构建面向推荐场景的推理能力提供了重要参考。

02.

推荐CoT应该怎么做?

在回答这个问题之前,OneReason先将视角切换到基础大模型领域,参考在多模态领域Thinking弱于Non-Thinking的类似现象,以及社区积累的解决经验。针对这一现象,基础模型领域结论为:推理能力的形成并不只取决于是否引入CoT,更依赖两个基础条件

1、模态或表示空间之间需要建立深度语义对齐。若对齐不足,模型容易停留在表层模式匹配,难以真正围绕深层语义信息展开推理。

2、推理链本身需要具备清晰、连贯、由粗到细的认知结构。即使模型具备一定感知能力,如果推理过程缺少稳定的组织方式,长链推理也容易引入噪声并累积误差。

类似的,在推荐场景上,以上两个问题变得更加显著和突出:

1、推荐基模中的itemic token与自然语言之间尚未形成足够深的语义连接,模型更多是将item作为离散标识符进行关联预测,而不是把它作为可理解、可组合、可推理的语义单元;

2、直接混合大量通用Reasoning数据,沿用通用LLM的CoT形式,期待模型完全通过泛化能力实现推荐任务的推理,却没有针对推荐任务设计专属的推理结构,导致难以得到有推荐思维的逻辑链。

更进一步看,推荐推理与数学推理在问题形态上存在根本差异。数学推理通常是演绎式的:从明确前提出发,经过一系列逻辑步骤推导出相对确定的结论。

推荐推理更接近溯因推理:用户兴趣并不直接可见,模型需要从长期、嘈杂且不断变化的行为序列中反推出潜在兴趣,理解兴趣随时间的演化,并判断某个候选物品为何适合当前上下文。

因此,一条有效的推荐CoT不是简单地“展开更多的思考”,而是要完成高质量的信息压缩:从噪声行为中提取有效信号,从历史行为中假设用户兴趣,再从兴趣假设中收敛到推荐决策。因此,推荐基础模型需要至少具备以下四方面能力

R0感知:看懂每个itemic pattern,解释每个物料含义,让item可总结为兴趣点

R1推导:学习Item2Item关系,通过常识知识,理解item关联背后的原因

R2演进:学习用户序列长期演化过程,找到影响用户未来决策的原因和潜在兴趣点

R3推荐:根据兴趣点推理,推荐高质量、高相关物料,且有跨域推荐能力

基于上述思考,OneReason形成了一套面向推荐推理的系统性解法,下面将按预训练、SFT、RL三个阶段分别展开:

03.

预训练设计

OneReason预训练旨在构建一个实现item与自然语言深度语义对齐的推荐基座。推荐场景中的itemic token 不只是离散物品表示,还承载着子token组合、物料内容、物料关系以及用户行为上下文等多层语义。

为此,预训练阶段首先设计了Token、Item、Relational、User四层递进式数据架构,总规模达578B token,并配合三阶段分步训练策略:先稳定新增item表征,再进行全参数语义对齐,最后面向长用户行为序列进行优化。

该方案解决了前代OpenOneRec系列因item-text语义割裂导致CoT推理低效的根本痛点,从预训练层面夯实了推荐推理落地的基础。

四级分层预训练数据搭配通用多源语料,实现Item与自然语言全维度语义对齐

整套推荐预训练数据从微观到宏观划分为四大粒度,逐级打通物品标识与文本的语义关联:

1、Token粒度:围绕子Token拆解与组合逻辑,设计单Token释义、前缀语义预测及部分到整体的层级推理等任务,在最细颗粒度完成子单元语义绑定;

2、Item粒度:对物料描述进行容量感知的粗粒化处理,过滤三个token无法承载的冗余细节与无效参数,配套多视角Item QA样本,实现单品内容与文本的双向精准映射;

3、Relational粒度:依托用户看后搜、协同过滤及跨用户同窗共现等多源信号,构造“物品→兴趣说明文本→后续物品”的链路数据,将隐式协同偏好翻译为可解释的文本迁移逻辑;

4、User粒度:采用分域分组、全时序穿插两种数据范式,按真实时间串联跨域行为记录,并随机将部分 Item替换为文本描述,实现全场景用户兴趣对齐。

在推荐专项数据之外,混合大量数理、代码、科普等通用文本,并精选粗粒度多模态数据,将通用视觉知识迁移复用至短视频、商品、直播等各类推荐物料,有效规避模型因专攻推荐任务而造成的通用理解能力下滑与任务过拟合。

三阶段分步训练

在整个预训练阶段,全量Token数合计578B token,相对OpenOneRec 160B的数据量大幅提升

1、预热(110B):冻结主干,仅优化新增item嵌入及对应输出层权重,让item表征平稳融入LLM语义空间;

2、全参训练(449B):全参数开放,四层数据联合深度对齐;

3、长序列优化(19B):上下文窗口放开至32K,适配长用户行为序列。

在预训练数据层面,相比OpenOneRec基线,OneReason在各方面能力全面跃升。具体来说,在统一数据量的实验条件下,OneReason预训练方案相对OpenOneRec基线模型实现全面提升:

R0物品锚定涨幅160.5%,物品理解提升35.7%,基础感知能力实现全方位突破;

R3核心跨域推荐指标提升65.1%

整套预训练体系为后续结构化CoT微调和推理式推荐上线提供了坚实的语义底座,也是思考型推荐实现业务增收的关键前置支撑。

04.

SFT设计

预训练完成后,模型已经具备itemic token的语义基础。然而,推荐场景下的SFT不能等同于普通问答式指令微调。它面对的是长序列用户行为、跨场景物料、隐式的兴趣变化,以及最终落到候选物品选择的决策问题。

基于此,OneReason的SFT阶段向上承接预训练建立的物料语义,向下为强化学习提供一个可探索、可评价的推荐推理起点。该阶段的核心目标是:让模型基于物料语义来推断物料间关系、抽象用户兴趣并理解其演进过程,最终将这些信息组织成面向推荐决策的reasoning trace

围绕上述目标,SFT阶段的重点是推理表达:让模型在真实推荐场景中学会有效引用上述语义证据,并生成可监督、可校验、可追溯的推理过程。具体而言,基于预训练的强大的对齐能力,SFT数据将能力升级为贴近推荐落地的监督信号,使模型逐步习得可解释的推荐推理。数据分布如表1所示。

▲表1:SFT数据分布

R3推荐CoT:把长历史压缩成可决策的推理链

在推荐系统建模中,首先需要解决两大核心问题

一是对用户历史做高效压缩,让模型能从冗长、存在噪声的用户行为中,提炼出清晰的用户画像与紧凑的兴趣变化模式,使后续推理能够立足于压缩后的少量候选方向,避免受到冗杂行为历史的干扰;

二是实现精准的动态推理,让模型具备关联物品、追踪兴趣变化、判断下一步行为的能力。

围绕这两个目标,OneReason将R3思维链(CoT)显式拆解为三个连贯的模块:Persona Abstraction(用户抽象)、Interest Expansion(兴趣发散)、Transition Inference(兴趣推断)。

Persona Abstraction(用户抽象):在这一阶段中,OneReason事先定义了20类不同的用户偏好类型,Persona Abstraction会从稀疏、包含噪声的行为里抽象出可解释的偏好先验(如家庭生活主导用户、游戏技巧提升、直播购物爱好者、多人共用设备用户等),并引用典型证据进行推断。表2给出了若干画像示例。

▲表2:Persona Abstraction的典型画像示例

Interest Expansion(兴趣发散):为了避免模型过早对用户意图做出单一判断,OneReason在推理链路中设计了Interest Expansion环节,将用户近期的行为轨迹转化为一组候选的兴趣假设。

针对发散宽度n的消融实验展示了一个有趣的“少即是多”现象:当n保持在1、3、5的紧凑范围时,模型表现最佳;而一旦扩大到10或20,效果反而大幅衰减。

OneReason认为这种现象的本质在于“推理信号的聚焦”:过大的候选集会引入低置信度的冗余兴趣,从而模糊了用户真正的核心兴趣,干扰最终的决策。较小的假设集并没有削弱推理能力,反而防止了推理路径的碎片化。

▲图3:Interest Expansion宽度消融

Transition Inference(兴趣推断):在最后一步Transition Inference中,模型会对候选方向进行综合评估。评估维度不仅涵盖证据强度、行为近期性与时间连贯性,还兼顾了画像匹配、目标域兼容性以及潜在的答案泄露风险。

这一过程有效串联了前序的推理逻辑:既利用R1建立跨域的一跳桥接,又结合R2判断兴趣的时序演进。最终推断出的兴趣,不能仅仅停留在语义层面的“相关”,更需要通过多跳的兴趣演化推理,清晰地还原出它是如何从用户的历史轨迹中一步步自然延伸而来。

▲表3:Interest Expansion和Transition Inference的例子

CoT质量评估

为了评估推荐思维链(CoT)的生成质量并规避常见的推理缺陷,OneReason设计了一套多维度的评估体系。在落地实践中发现,推荐CoT极易陷入两个极端:一是“结果剧透”,即推理文本提前暴露了目标商品,让解释变成了同义反复;二是“伪解释”,即生成的文本看似逻辑通顺,但完全脱离了用户的真实行为支撑。

针对这些痛点,OneReason从以下五个核心维度对R3阶段的推理链路进行量化评测:

Safety:排查推理文本中是否混入了目标Item ID、商品标题等特征,防止模型“偷懒”直接剧透最终的推荐结果。

Consistency:校验推理链路最终导出的结论,与系统预设的推荐目标是否严格对齐,避免推理过程与最终结果南辕北辙。

Logic:甄别模型是在真正归纳、提炼用户的行为规律,还是仅仅用自然语言把用户的历史行为流水账式地“复读”了一遍。

Factuality:确保推理内容严格基于真实的用户行为序列,杜绝大模型常见的“事实幻觉”(如虚构交互行为、打乱时间线,或强行脑补、夸大用户的兴趣偏移)。

Informativeness:评估推理过程是否提供了具体、有洞察的解释视角,摒弃那些放之四海而皆准、毫无信息增量的“废话”描述。

▲图4:R3推理轨迹质量评估,覆盖Safety、Consistency、Logic、Factuality、Informativeness五个维度

05.

RL设计

在SFT阶段,模型已经学会理解用户需求、生成推荐推理过程,并输出相应的推荐结果。但SFT本质上仍是在模仿已有数据,其能力容易受到训练样本和教师模型的限制。因此,推荐基础模型需要进一步引入强化学习阶段,让模型不再只是复现已有轨迹,而是能够根据推荐结果反馈进行自我探索,发现更有效的推荐策略。

让强化学习适配推荐任务

相比于数学推理、代码生成等可验证场景,推荐任务所涉及到的候选空间极大,正确推荐信号极其稀疏,同时用户兴趣往往具有多个方向。直接套用通用GRPO,难以获得足够有效的奖励反馈。为此,OneReason对GRPO进行了三方面改进:

两阶段轨迹生成:先生成推理轨迹,再基于同一轨迹扩展多个候选推荐,以较小额外开销显著增加有效轨迹数量,缓解推荐奖励稀疏问题。

Set-wise奖励:OneReason把奖励从point-wise抬升到set-wise/list-wise:在同一条推理轨迹下并行生成多条候选,并基于这组候选整体评估其覆盖度、多样性,鼓励模型探索能够覆盖用户多方向兴趣的推理路径。

优化稳定策略:针对推理文本token和推荐itemic token采用不同的裁剪范围,并降低大量未命中样本在梯度中的权重,从而缓解稀疏奖励下的训练震荡,使模型更稳定地学习推荐推理能力。

先专后合的强化学习链路

推荐基座模型需要同时服务于视频、商品、广告、直播等多个领域。由于不同领域的用户行为模式、物品语义和奖励分布存在明显差异,直接在混合数据上进行强化学习容易产生跨领域干扰。

为此,OneReason提出了先专后合(Specialize-then-Unify)的训练链路:首先在每个领域内独立进行强化学习,学习领域特有的推荐知识;随后再将多个领域专家模型的能力融合到统一模型中。

具体来说,其探索了两条不同的技术路线:RFT(Rejection Sampling Fine-tuning)通过学习专家生成的高质量成功轨迹进行知识整合;MOPD(Multi-Teacher On-Policy Distillation)则从策略层面持续吸收多个领域专家的能力。

两种方法各有优势:RFT能够更好地保留专家发现的高质量推理模式,并且随着Recall@K中K的增大,其收益更加明显;MOPD则能够更充分地继承多领域专家知识,对thinking和non-thinking模式带来同步提升,使non-thinking模式也取得具有竞争力的表现。

06.

Benchmark

评估的核心思路是把推荐模型的能力拆成四个递进层级来衡量,从“能否看懂物料内容”一路深入到“能否做好推荐”。

其中,第一层是感知(R0),关注模型能否真正理解itemic token背后的语义;

第二层是推导(R1),关注模型能否从单个内容出发,进一步理解内容与内容之间的关联;

第三层是演进(R2),关注模型能否从用户历史行为中识别兴趣主题,并理解兴趣随时间变化的过程;第

四层是推荐(R3),则进一步考察模型能否把前面三层能力综合起来,最终完成真实业务场景中的推荐决策。

为了考察以上几方面模型能力,OneReason-Bench设计了大量针对性任务,包括物料理解、物料问答、i2i、兴趣链条抽取等多方面评估任务。

07.

实验结果

主实验结果

在评测方面,OneReason在短视频、电商商品、广告、直播四类跨域推荐任务中完成对标评测,对比基线覆盖三大模型品类:ID序列类(SASRec、HSTU)、通用大模型(Qwen3、DeepSeek-V3.2、GPT-5.4等)、物品Token架构模型(TIGER、LC-全系列),实测结论如下:

1、OneReason-RFT综合全维度领跑,thinking范式在推荐领域全面超越non-thinking范式

RFT版本thinking效果在四大业务域全面优于全部对照模型,且超越non-thinking效果。以短视频推荐为例,相较最优基线LC-Rec-PT-SFT-8B,指标相对涨幅超60%;广告、直播场景增益更为突出,直播域召回指标相较通用LLM整体高出一个量级。

2、推理增益依托RL专项优化,原生SFT无法激活思考能力

仅经过SFT微调的模型,其Thinking模式的表现反而劣于Non-Thinking模式,这印证了业界普遍面临的痛点:直接在推荐任务中引入CoT容易引发“过度思考”,反而损害基础推荐性能;但后续依托“先专后合”的RL方案优化后,thinking指标实现反超领跑,证实强化学习是解锁推理收益的必备环节。

3、四层分级预训练筑牢能力上限,是模型性能跃迁核心底座

搭载OneReason预训练权重的LC-Rec,对比从零SFT训练版本,广告域命中率提升近5倍。印证Token、Item、Relational、User四层预训练实现itemic Token与自然语言深度语义对齐,构成后续CoT推理的底层基础。

4、ID-Based模型、通用LLM各有短板,专用推荐基座更适配落地

传统ID架构受大量新物品冷启动制约;通用大模型缺少用户协同行为特征,依赖ANN检索落地,跨域推荐效果显著落后OneReason,佐证通用能力不能等价于推荐能力,定制化生成推荐基座是更优技术路线。

CoT能力内化现象

此外,在OneReason的实验中,存在另一个有意思的CoT能力内化现象:即引入CoT推理监督,不仅能提升模型的think能力,还能间接反哺non-think的推荐性能。

为进一步验证这一结论,在固定总Token规模(0.25B tokens)的约束下开展了对照实验:一组仅使用100K纯无推理(unCoT)样本训练;另一组采用 40K CoT样本与50K unCoT样本混合训练。两组模型统一采用non-thinking模式进行评测,各域Pass@64 结果如下:

结果表明,在短视频、商品和直播域,混入CoT数据均带来了不同程度的收益(除广告域以外)。在此基础上,OneReason进一步通过消融实验探究各业务域下CoT与unCoT的最优混合比例。

实验证明:CoT样本并非占比越高越好,不同域对“推理浓度”的偏好存在显著差异。短视频与直播域在CoT 与unCoT配比趋于均衡(或适度偏向CoT)时达到最优。

本文猜测是由于这两个域的用户历史通常包含多意图信号,因此CoT的证据梳理能力能发挥较大价值。电商域更适配高CoT占比的配置,这一现象可能因为电商域的购买意图往往需要从内容线索和行为跃迁中进行深度推断。

相反广告域的性能随配比变化的曲线较为平缓,整体更偏好unCoT 数据,这可能是因为广告转化更依赖短期的曝光模式与即时转化信号,这些特征很难被自然语言推理链完全捕获。

▲图5:CoT/unCoT配比对non-thinking推荐的影响

CoT信息熵增益

为了判断CoT是否真的提升了推荐效果,OneReason进一步引入了ΔLL分析,即如果生成Co后推荐目标Itemic Token的log-likelihood变高,说明CoT在推荐中起到了正向作用;如果变低,说明CoT反而可能分散了模型注意力。

对比结果显示,SFT阶段的CoT在四个领域上的平均ΔLL均为负值(Cross-Video: -5.19,Cross-Product: -5.22,Cross-Ad: -4.94,Cross-Live: -2.69),表明此时的推理链往往会分散模型的注意力。而经过RFT后,四个领域的ΔLL全部转正(分别提升至0.63,1.27,0.57,1.10)。这证明了经过成功轨迹筛选与强化学习后,CoT才真正具备了辅助推荐决策的能力。

▲图6:ΔLL对比,RFT后全域转正

与此同时,OneReason发现随着推理步骤的逐步展开,目标Item的似然值呈现整体上升趋势。而且RF模型往往在推理的极早期就达到了似然峰值。这说明高质量的推荐推理长度不应过长,尽早提取关键证据。这一特性也为未来探索“推理链压缩”或“自适应早停”机制提供了理论依据。

▲图 7:CoT prefix likelihood progression

案例分析

在这起真实推荐案例中,推荐目标是一条《三角洲行动》的装备玩法视频。该案例的难点在于:用户历史行为中并没有大量的《三角洲行动》直接交互,仅包含一次微弱的三角洲游戏广告点击信号。如果模型单纯依赖历史高频IP,很容易陷入传统SFT路径,继续推荐《和平精英》或《王者荣耀》相关内容,从而失去外推到新游的能力。

从两者的思考过程分析,SFT和RFT虽都能识别出用户是18-23岁的年轻男性游戏受众,但在兴趣推断阶段产生了本质差异:

SFT的局限(路径依赖):SFT的思考过程完全被高频的《和平精英》和《王者荣耀》主导。在分析潜在兴趣点A时,它直接将后续可能性局限在《和平精英》上。因为缺乏深度推断能力其推荐结果仍然是《和平精英》,进而导致推荐失败。

RFT的优势(多跳推理):RFT展现出了更强的泛化推导能力。其思考过程没有被高频的热门游戏淹没(如《和平精英》),而是准确提炼出用户最深层的核心关注点是“《绝地求生》/战术竞技类游戏的新玩法或装备”。

基于“战术竞技新玩法”这一底层逻辑,RFT成功建立了历史高频游戏与“三角洲行动”新游之间的联系。它在思考中明确指出:用户对射击游戏的热情不局限于《和平精英》,已延伸至类似玩法(如地逃),而《三角洲行动》作为热门新游,恰好承接了这一细分需求。

业务收益

在线上部署结果上,OneReason在快手本地生活广告场景进行了10天线上A/B实验,实验组和对照组各使用 5%流量。系统采用Fast-Slow Thinking架构:近线OneReason负责慢思考召回,实时OneReason赋能 OneRec负责在线快思考服务,两者结果进入排序模型融合。

▲图 8:Fast-Slow Thinking在线部署架构▲图 9:Fast部署架构

通过Fast-Slow Thinking架构,OneReason已初步赋能业务,收益对应快手平台年化数亿元人民币级别的商业收入增量,并达到ROI>5。这说明OneReason不只是离线benchmark上的探索,也具备在严格延迟与成本约束下进入工业系统的可行性。

08.

总结与展望

生成式推荐一路走来,快手技术团队从OneRec V1/V2验证了生成式推荐的Scaling能力,到OneReason真正打开推荐基模的Reasoning能力,用一个完整闭环回答了三个曾经悬而未决的问题:

a. 推荐基模能不能“会推理”?

i. 答:能,但必须先做好itemic token感知对齐,同时设计合理的溯因类型CoT格式,才能够在RL阶段完全激发Thinking潜力。

b. 推荐CoT应该长什么样?

i. 答:结合“用户抽象->兴趣发散-兴趣转移和推导”形式的CoT能够在RL阶段显著提升Thinking能力。

c. 推理基模能不能上线工业场景?

i. 答:完全可以,通过Fast-Slow Thinking架构结合近线与实时部署,同时ROI可观。

下一步,OneRec团队将继续深入推荐技术与大模型技术的融合,打造Agentic Recommender Harness,让推荐基模具备规划与工具调用能力,逐步驱动推荐系统向Agentic架构演进。

后续,OneReason的更多技术细节以及OneReason系列的模型权重将陆续开源,欢迎学术界与工业界同行一起把推荐系统的Reasoning时代推向更远。

本文相关内容也将在6月13日举办的快手技术沙龙现场进行分享,欢迎对生成式推荐、推荐推理能力以及 Agentic Recommender感兴趣的同学到场交流,共同探讨推荐系统与大模型融合的前沿实践。

同时,OneRec团队也将在活动现场正式发布「快手探索者LLM-Rec挑战赛」,面向全球对推荐技术感兴趣的同学开放,邀请大家共同探索推荐系统与大模型深度融合的技术边界,携手打造更懂世界的推荐基础模型。

未经允许不得转载: 街坊秀 » OneReason:当推荐系统学会思考