街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

用搭载GPT-5.2的AI眼镜做题,是一种什么体验?

(文/观察者网 张志峰)

戴着搭载了OpenAI最新发布的GPT-5.2模型的AI眼镜,参加香港科技大学本科期末考试,能考出什么水平?

答案是:AI系统得分92.5(满分100分),虽不及学生最高得分97.5分,但也远高于72分的班级平均分,且3小时的考试仅用了30分钟。

近日,香港科技大学张军教授和孟子立教授团队主导了一场实验,测试搭载GPT-5.2模型的Rokid智能眼镜在香港科技大学大三专业课《计算机网络原理》本科期末考试中的表现。

除了测试结果本身之外,这一实验引发了更多行业人士关于人工智能能力边界与教育评估方式的讨论。

技术表现:优势与局限并存

在实验条件下,GPT-5.2模型展示了对专业知识的理解与应用能力。值得注意的是,这一表现并未达到满分,主要失分点集中在需要跨页面整合信息的解答题上。

从技术原理来看,大语言模型在理论上可以掌握教科书中的知识内容,但在实际应用中面临多重限制。

研究团队指出,当问题涉及分散在试卷不同页面的相关信息时,模型难以保持连贯地理解与推理。这一现象揭示了当前AI系统的核心局限:缺乏真正意义上的全局认知与工作记忆机制。

“大模型本质上是基于概率的模式匹配系统,而非具备连贯思维的认知主体。”一位AI眼镜赛道头部品牌从业人员解释道,“当信息需要在不同页面间建立逻辑联系时,模型的注意力机制难以有效维持这种跨上下文的关联。”

这一技术局限提示我们:AI系统在处理需要长程依赖和多步骤推理的任务时,仍需突破现有架构。可能的改进方向包括增强记忆模块、优化文档理解架构,或开发专门针对学术推理的微调策略。

同时,AI眼镜的功耗与连接稳定性对这一新的智能终端产品提出了更加严格的考验。

测试过程中,Rokid智能眼镜开启Wi-Fi传输高分辨率照片时,耗电量显著增加,答题30分钟电量从100%降到58%。

教育评估体系面临重构压力

相较于对AI硬件智能水平的思考,实验所引发的教育界对评估方式的深入反思更加值得公众关注。

当前主流学术评价体系建立在学生独立完成知识应用的假设基础上,而AI辅助工具的普及正在挑战这一基础。

“当AI能在半小时内完成需要学生三小时的试卷,我们需要重新思考:什么样的能力才是真正需要培养和评估的?”一位来自北京师范大学的教育专家向观察者网指出,传统考试侧重于检验学生对已知知识的复现能力,而这恰恰是AI系统的优势领域。

她认为,教育评估体系可能需要从以下维度进行重构:

评估重点转移:从知识复现转向问题定义、创新解决方案设计

过程重于结果:重视学习过程中的思维展现,而非仅关注最终答案

人机协作能力:培养有效利用AI工具解决复杂问题的能力

跨学科整合:设计需要综合多领域知识的评估任务

华东师范大学闫寒冰教授不久前在人民网教育频道发表的署名文章,也表达了类似观点:“在AI浪潮的冲击下,教育的目标、内容与方法等核心命题,亟待被置于新的时代背景下进行系统性反思与重构。但‘学习革命’悄然开启……教师不再是垄断知识的权威,海量信息触手可及,甚至在某些领域,AI的分析与生成能力已超越人类专家。这意味着,教师角色必须从知识的传授者、答案的给予者,转型为学生成长的引导者、学习过程的设计者、思维发展的催化者和情感价值的守护者。”

教育公平与伦理挑战

此外,AI辅助学习工具的普及也带来教育公平的隐忧。

优质AI资源可能首先惠及资源丰富的学校和学生,进一步拉大教育差距,社会亟须在鼓励技术创新的同时,制定公平使用原则,确保技术红利能够普惠。

另一方面,学术诚信体系面临重建。多所高校已开始修订学术规范,明确界定允许和禁止使用AI辅助的场景。清华大学11月发布的《清华大学人工智能教育应用指导原则》明确提出:师生必须依规披露人工智能使用情况,人工智能始终是辅助工具,严禁代写、剽窃、伪造等学术不端行为。

香港科技大学研究团队强调,教育者和政策制定者必须立即行动,建立合理的监管机制,确保技术向善。“我们希望通过制定明确的政策法规、技术监控与检测、教育与宣传,只有在道德与技术之间找到平衡,通过法律、技术、教育和文化层面的综合监管,才能在保护学术诚信的同时,让教育技术真正实现创新与突破。”

团队强调,其实验目的并非证明AI已超越人类学生,而是希望引发对教育本质的讨论。“技术永远在进步,而教育的本质是培养能够思考、创造和负责任的人。当我们重新定义学习目标,AI将从威胁转变为强大的教育伙伴。”随着技术持续发展,教育界面临的不仅是工具的变革,更是对学习本质和知识价值的重新定义。如何在AI时代培养不可替代的人类能力,将成为未来教育改革的核心议题。

未经允许不得转载: 街坊秀 » 用搭载GPT-5.2的AI眼镜做题,是一种什么体验?