街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

当机器人坐上扑克牌桌:北京大学等团队打造的"德扑机器手"

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:科技行者)

这项由北京大学、上海科技大学等机构联合完成的研究发布于2026年5月,论文预印本编号为arXiv:2605.18727,有兴趣深入了解的读者可以通过该编号在arXiv平台上查询完整原文。

德州扑克,一种对人类来说既需要眼力(看清手牌和筹码)、又需要判断力(决定是否跟注还是加注)、还需要手上功夫(把筹码推进底池)的游戏,被这支研究团队选为测试机器人综合能力的"考场"。为什么偏偏选扑克?因为扑克桌上的挑战,恰恰是机器人在真实世界中面对的挑战的缩影:看清不断变化的场面、做出合适的决策、用灵巧的手完成操作,而且每一步都不能把桌面搞乱,否则下一步就没法继续了。

这个系统被命名为DexHoldem,其中"Dex"来自英文"Dexterous"(灵巧),Holdem则是德州扑克的英文名。研究团队为它提供了1470条真实遥控示范动作,覆盖14种扑克桌上的基本操作,搭建了一个标准化的测试体系,并让当前最先进的几类人工智能系统在这张真实的牌桌上接受考验。最终的结果,既展示了现有技术能做到什么,也非常诚实地暴露了今天的机器人系统离真正"灵巧"还有多远的距离。

一、为什么选择扑克桌作为机器人的"考场"

要理解这项研究解决的是什么问题,先回想一下你身边的机器人是什么样子的。工厂里的机械臂,通常只做一件事:把同一个零件从A点移到B点,动作精确、重复,环境基本不变。而你在科技展览上看到的那些智能机器人,虽然能聊天、能回答问题,但真正要动手拿东西的时候,往往笨手笨脚,或者只能对付专门为它们设计的特定形状的物件。

研究人员把这个矛盾概括为两类评测体系的"互相缺腿"。一类是专门测试机器人"动手能力"的基准——比如让机器人抓取物件、旋转零件——这类测试对动作精度要求很高,但通常是孤立的单一任务,没有考虑机器人是否需要先"看懂"当前场景再决定做什么。另一类是专门测试"智能决策"的基准——给机器人一段语言指令,看它能不能理解并完成多步骤任务——但这类测试大多在电脑模拟环境里进行,或者用的是最简单的夹爪,不需要真正精细的手部操作。

扑克桌恰好把这两类挑战缝合在了一起。牌桌上有语义结构——一张A和一张K意味着什么,50面值的筹码和100面值的筹码有什么区别——机器人必须在视觉上认出它们,才能知道该做什么。牌桌上的物件又格外"娇气"——扑克牌只有大约0.3毫米厚,筹码叠放在一起容易倒,稍一用力就会把不该碰的东西碰乱。而且,每一步操作之后桌面状态都会改变,如果上一步把牌掀翻了,或者把筹码碰飞了,下一步就没法继续玩下去了。

研究团队特别强调:他们研究的并不是"让机器人学会打扑克赢钱",而是用扑克游戏的规则和物件,构建一个有明确成功标准、真实物理接触、动态场景变化的评测环境,来测试机器人的综合能力。

二、这套系统长什么样,它是怎么工作的

DexHoldem系统的核心硬件是一只Shadow Dexterous Hand(影子灵巧手),这是目前市场上自由度最高的商用机器人手之一,有24个可控关节,加上驱动它的UR10e机械臂的6个关节,整套系统共有30个维度的动作空间。做个对比:普通工业机器人的夹爪只有1到2个自由度,就像你把四根手指绑在一起只能夹东西;而这只机器手的每根手指都能独立运动,更接近人手。

为了让机器人"看到"牌桌,系统安装了三个摄像头:一个从正上方俯视整个桌面,用来看清牌和筹码的位置;一个从第三视角(类似旁观者的角度)观察手臂和整体场景;还有一个安装在手腕上,在执行操作时提供近距离的手眼协调信息。三个视角互相补充,就像一个人既要看全局又要低头看手边的细节。

整个系统分两个层次运作,可以把它理解为"大脑"和"小脑"的分工。"大脑"是一个具身智能体,负责接收摄像头的图像,把当前的游戏状态解析成结构化的信息——现在轮到谁出牌、底池里有多少筹码、对手加了多少注、自己手里是什么牌——然后根据这些信息决定下一步该做什么动作。"小脑"是一个多任务动作策略模型,负责把大脑下达的指令(比如"把50面值的筹码推进去")转化为机器手关节的实际运动序列,完成具体的物理操作。

大脑和小脑之间还有一套路由逻辑,处理各种意外情况:桌面还不稳定需要等待、上一步操作需要验证是否成功、操作失败了需要重试、场面乱到无法继续需要请人类帮忙。这个设计让系统能在真实环境中持续运转,而不是遇到一点差错就卡死。

三、1470条示范动作:这些数据是怎么来的,涵盖了什么

为了训练和测试机器人的"小脑",研究团队通过遥控操作的方式,亲手采集了1470条真实示范动作。遥控操作的意思是:操作者戴上专用的手套和追踪设备,亲手演示如何完成每个动作,机器人实时模仿,同时把所有的传感器数据记录下来。这种方式采集到的是真实物理接触下的成功示范,每条都经过了质量检查,失败的尝试会被剔除。

这1470条数据分布在14种基本操作上,每种操作有105条示范(100条用于训练,5条用于验证)。这14种操作可以分成几个大类,用日常的说法描述就是:拾起左边的牌、拾起右边的牌、把5面值的筹码向前推、把10面值的筹码向前推、把50面值的筹码向前推、把100面值的筹码向前推、把5面值的筹码往回拉、把10面值的筹码往回拉、把50面值的筹码往回拉、把100面值的筹码往回拉、把拿在手里的牌正面朝下放到左边位置、把拿在手里的牌正面朝下放到右边位置、翻开左边的牌(让正面朝上)、翻开右边的牌(让正面朝上)。

每一种操作的成功标准都有明确的物理后置条件。拾牌要求牌被稳定抓起并提离桌面;放牌要求牌落在指定位置且方向正确;推筹码要求筹码进入前方的下注区域,同时不能把旁边其他筹码碰乱。这些标准被研究团队称为"场景保留成功"——不只是完成了自己的任务,还要保证整个桌面状态能支持后续操作继续进行。

四、测试标准的设计:不只看"做到了没有",还要看"有没有把桌子搞乱"

这项研究在评测标准的设计上花了相当多的心思,而这个设计本身就很有趣,值得单独说一说。

大多数机器人研究在评测动作是否成功时,只看一件事:目标有没有完成?牌拿起来了就算成功,没拿起来就算失败。但这种评测方式有一个盲区:如果机器人在拿牌的时候,顺手把旁边的筹码全碰倒了,按照传统标准它仍然算"成功",但实际上桌面已经乱到没法继续玩了。

研究团队为此设计了一个四级评分体系。最高级是"场景保留成功":任务完成,桌面保持可用状态。次一级是"破坏性完成":任务目标达到了,但桌面被打乱到无法正常继续。再次是"任务失败":任务没完成,但桌面状态还够稳定,可以重试。最低级是"破坏性失败":任务没完成,桌面也乱了,必须重置。在德州扑克场景里,破坏性失败包括牌掉落到地上、筹码飞出可操作区域、或者产生了可能损坏机器手的危险接触。

这个四级体系揭示了一件非常重要的事:任务完成率和场景保留成功率之间的差距,正好衡量了一个策略有多少时候是"鲁莽地完成了任务"。差距越大,说明这个策略越倾向于蛮干——达到了局部目标,但把周围环境搞得一塌糊涂。

五、各个AI策略模型的表现:谁在这张牌桌上表现最好

研究团队共测试了9种不同的策略模型,分成两大阵营。一方是"大模型阵营":经过大规模预训练的视觉-语言-动作模型,包括π0.5、π0和RDT,这些模型在投入DexHoldem任务之前已经在其他机器人任务上积累了大量知识。另一方是"任务专精阵营":直接在DexHoldem示范数据上从头训练的仿真学习策略,包括DP(DINO)、DP-Transformer、RDT-small、ACT、BAKU和DP-UNet。

每种模型都在相同的条件下接受测试:80次真实物理操作,覆盖全部14种基本动作,在每次操作前桌面状态会被重置并随机化初始布局。

π0.5拿到了任务完成率的最高分,达到61.2%。也就是说,在所有尝试中,超过六成的操作最终完成了目标——不管桌面有没有被搞乱。但当切换到更严格的"场景保留成功率"时,π0.5和π0并列,都是47.5%。这意味着π0.5有相当一部分"成功"是靠蛮力实现的——目标达到了,但副损伤也不小。π0虽然任务完成率只有57.5%,但它产生的破坏性完成更少,操作更稳健。

RDT形成了第二梯队,场景保留成功率30.0%,任务完成率46.2%。DP(DINO)是任务专精模型里表现最好的,场景保留成功率26.2%,比大模型低了大约20个百分点,但比其他专精模型高出一截,说明用更强的视觉表征(DINOv2特征)确实有帮助。其余几个模型——DP-Transformer、RDT-small、ACT、BAKU、DP-UNet——的场景保留成功率在1.2%到13.8%之间,与前两梯队相比差距相当明显。

把结果按操作类型分解来看,会发现几个有趣的规律。拾牌任务上,π0和π0.5都达到了惊人的100%场景保留成功率,也就是说每次都成功拿起了牌,而且没有碰乱周围。但推筹码任务上,即使是最好的模型,场景保留成功率也只有25%;拉筹码任务更难,最好的也只有15%。翻牌和放牌任务("put-down/show")则出现了一个特殊现象:场景保留成功率和任务完成率之间的差距特别大——比如π0.5在这类任务上是50%对80%——说明机器人经常能把牌翻过来,但经常顺带把其他东西也搞乱了。

六、预训练数据有多大用?一个关于"起点优势"的实验

除了直接对比各模型的物理表现,研究团队还专门用RDT模型做了一个数据缩放实验,探究一个有意思的问题:如果一个模型之前从来没学过用灵巧手操作,和一个已经学过用普通夹爪操作的模型相比,在学新任务时谁更有优势?

实验设计很简洁:用相同的RDT模型架构,一个从零开始随机初始化,另一个从"夹爪机器人预训练模型"的权重开始,然后分别用DexHoldem数据的10%、20%、50%、100%来训练,看最终在验证集上的预测误差有多大。

结果有些出乎意料。在只有10%数据(每种操作只有10条示范)的极端低数据条件下,预训练的起点带来的优势非常微小,误差只比零基础低了1.2%。随着数据量增加,差距略有扩大,到100%数据时大约缩小了11.3%的误差。但无论数据量如何变化,两条曲线的形状几乎平行——两者都随着数据量增加而稳步改善,没有出现"预训练模型在少量数据下突然学得特别快"的现象。

研究团队的解读是:对于灵巧手操作这类任务,预训练主要带来的是优化上的便利(从一个更好的起点出发),而不是"举一反三"式的知识迁移。用更简单的话说:之前学过夹爪操作的模型,并没有因为"已经知道怎么操作物件"而在学灵巧手任务时省下很多工夫,它仍然需要大量专门的灵巧手数据来达到好的效果。这与自然语言和计算机视觉领域里预训练模型那种强大的少样本迁移能力有明显差距,也说明灵巧手操作是一个相当特殊的领域,目前还没有太多"通用知识"可以直接迁移过来。

七、"大脑"的挑战:让AI看懂一张扑克桌有多难

除了测试"小脑"(动作策略),研究团队还专门建立了一个独立的"大脑"测试——也就是评测系统的感知模块,看它能不能准确从一张图片里读出当前的游戏状态。

这个测试设计了36道题,每道题对应扑克游戏进行过程中的一个真实桌面状态,配有一张图片。测试要求AI解析这张图片,填写一份结构化的状态表,内容包括:当前处于游戏的哪个阶段("循环阶段")、现在是不是该机器人出手了("出手权")、机器人拿的是大盲注还是小盲注("盲注信息")、桌面中央有哪些公共牌("公共牌")、当前底池里的筹码是什么组合("当前下注筹码")、机器人自己剩余的筹码是多少("机器人筹码")、对手剩余的筹码是多少("对手筹码")、如果进入摊牌阶段谁赢了("摊牌结果")。

八种主流大模型接受了测试,包括GPT 5.5、GPT 5.4、GPT 5.4 mini、Claude Opus 4.7、Claude Sonnet 4.6、Claude Haiku 4.5、Gemini 3 Flash和Gemini 3.1 Flash L,每个模型都通过自己的"智能代理"方式来完成任务,就好像真实部署时的工作方式一样。

评分分两种:一种是"严格全题匹配",要求这道题所有适用的字段全部答对才算这道题成功;另一种是"字段平均准确率",对每个字段单独评分再取平均。

结果揭示了一个显著的落差。严格全题匹配最高只有34.3%,是Claude Opus 4.7的成绩,意味着在36道题里,即使是最好的AI也有超过三分之二的题目至少错了一个字段。而字段平均准确率最高的是GPT 5.5,达到66.8%。

不同字段的难度差异非常悬殊。"盲注信息"(大盲还是小盲)对绝大多数模型来说几乎是送分题,有六个模型达到了100%的准确率,因为桌面上通常有非常明显的视觉标记。"出手权"(现在是不是机器人的回合)的准确率也相当高,GPT 5.4 mini甚至达到了94.4%。

但"当前下注筹码"和"对手筹码"是两块硬骨头。前者的最高准确率只有45.8%,后者的最高准确率只有43.8%。为什么这么难?因为要精确数出对手那边有几枚5面值的筹码、几枚10面值的、几枚50面值的、几枚100面值的——这些筹码叠放在桌子远端,颜色类似,彼此遮挡,在图片里看起来非常小,而且答案要求是精确的数量字典,差一个都算错。这就像让你从一张远景照片里,准确数出货架上每种颜色商品各有几件,还要完全不出错。

八、当大脑和小脑同时上阵:完整系统的真实表现

光测"大脑"和"小脑"还不够,研究团队还让完整系统真正上桌打了几局牌,记录了三段完整的游戏流程,称为案例研究。

这三段游戏都是用GPT 5.5作为大脑(感知和决策),配合π0作为小脑(动作执行)完成的。研究团队追踪了每段游戏里系统经历了多少个状态、做出了多少次高层决策、执行了多少次物理操作、等待了多少次、请了多少次人类帮助、发生了多少次恢复重试。

三段游戏的状态数分别是22、54和23,也就是说系统在整局游戏里共经历了22到54个"看一眼—想一想—做或等"的循环。在这些循环里,真正属于"做出新的高层决策"的只是少数,大量的循环都是:等桌面稳定、确认上一步操作是否成功、继续执行一个已经开始的多步骤动作序列、从轻微失败中恢复。

以第三段游戏(23个状态)为例,系统做出的8次高层决策依次是:翻看左边的牌、翻看右边的牌、加注10筹码、过牌、过牌、跟注(补齐对方的赌注)、翻开左边的牌(摊牌)、翻开右边的牌。这8个决策之间穿插着大量等待和验证,约三分之一的状态都花在等系统稳定下来这件事上。系统只发起了一次恢复重试,全程没有请求人类帮助。

而第二段游戏(54个状态)则揭示了更长的操作链条会带来什么:系统在这局里经历了多轮加注,最终all-in,然后进入摊牌,再把赢来的筹码全部收回来——光是收筹码这一个"收回赢的钱"动作,就被分解成六次独立的拉筹码原子操作,每次操作之间都有等待和验证的间隔。

研究团队用一句话总结了这类结果:即使每个组件在隔离测试时都有还算合理的成功率,把它们拼到一起之后,错误和延迟会在多个步骤之间不断累积。每一个额外的操作轮次,都多了一次出错的机会、一次等待的周期、一次可能触发人类帮助的门槛。

九、这项研究的局限与它的意义

研究团队在论文中非常坦诚地列出了这项工作的边界。整个基准建立在一套固定的硬件配置上——特定型号的机器手、特定的机械臂、特定的摄像头布局、特定的桌面尺寸和牌桌设计——在这套配置下测出来的成绩,不能直接推断到其他机器人平台上的表现。1470条示范数据,相对于当前大型预训练机器人模型动辄用几万乃至几十万条数据训练的规模,实在是非常有限,不足以研究策略性能随数据量增长的宏观规律。真实的德州扑克桌评测无法在虚拟模拟器里复制,因为薄牌和堆叠筹码的接触物理是模拟器目前很难精确还原的,所以完整的测试必须在真实硬件上进行,这需要大量的人力和时间成本。此外,由于完整系统的成功率本身较低,三段案例研究不具备统计意义上的代表性,只能作为定性分析的样本。

不过这些局限并不妨碍这项工作的价值。DexHoldem建立了一种新的评测思路:把"能不能完成任务"和"完成任务的过程中有没有把环境搞乱"分开计算;把"单独测动作"和"单独测感知"和"测整个系统流程"分成三个独立但互相关联的子基准;把遥控示范数据、评测协议和评分规则都标准化,让不同的研究团队可以在同一条基准线上比较。

说到底,这项研究告诉我们的是:今天的机器人,在最顶尖的策略模型(π0.5)上,也只能以大约47.5%的"干净成功率"完成一张真实扑克桌上的基本操作,而且它的"眼睛"——感知模块——在需要精确数清对手筹码的时候,错误率超过一半。这离一个能上桌和人类流畅对局的机器人,还有相当长的路要走。

但正因为有了这样一张清晰的"能力地图",研究者才知道该往哪里用力:要让机器手更稳健,要让视觉感知更精确地追踪细小物件的变化,要让整个系统在长程操作中不让错误越积越多。这张德州扑克桌,现在成了一块照出机器人能力边界的镜子。

Q&A

Q1:DexHoldem评测标准里的"场景保留成功率"和"任务完成率"有什么区别,为什么都要测?

A:任务完成率只看有没有完成目标动作,比如筹码推进去了就算成功。场景保留成功率还额外要求执行过程中没有把周围的牌或筹码碰乱,桌面状态能支持后续操作继续进行。研究团队同时测两个指标,是因为一个动作"粗暴地达成目标但搞乱了周围"和"干净地达成目标同时保留环境"是本质不同的能力——前者在需要连续多步操作的真实场景里会让问题不断累积,后者才是长期可靠工作的基础。

Q2:为什么感知模块对筹码的准确识别率这么低,只有40%多?

A:主要有三个原因叠加在一起。第一,筹码叠放在桌面远端,从摄像头视角看起来非常小,不同面值的筹码颜色相近;第二,筹码之间会互相遮挡,准确数量很难从单张图片判断;第三,评分标准要求四种面值(5、10、50、100)的数量全部完全正确才算对,差一枚就算错,这比只判断"大概有多少"要严苛得多。这个难点在闭环系统中会直接影响决策,如果感知错了对手的下注筹码,系统可能会做出不合适的行动决策。

Q3:预训练过大量其他机器人任务的模型,在DexHoldem灵巧手任务上是不是比从零开始训练的模型强很多?

A:根据这项研究的数据缩放实验,在使用全部训练数据的情况下,预训练过夹爪任务的RDT模型比从零开始训练的相同架构模型,验证误差大约低了11%,属于有帮助但不显著的优势。在数据非常少(只有10%)的时候,这个优势几乎消失,只有1.2%的差距。两种初始化方式的学习曲线形状基本平行,没有出现预训练模型在少数据下"突然跑得快"的现象,说明灵巧手操作的技能目前还没有被大规模预训练充分覆盖,需要大量专门的灵巧手数据才能达到好的效果。

未经允许不得转载: 街坊秀 » 当机器人坐上扑克牌桌:北京大学等团队打造的"德扑机器手"