七家主流大模型挑战 2025 高考数学:仅 DeepSeek、讯飞星火得分超 140
创始人
2025-06-09 09:04:41
0

2025 年高考还在进行中,昨天已经考完了语文和数学,相信大家也在网上看到了很多关于这两门学科试卷难度的讨论,比如昨天数学考完后,关于“数学难不难”的话题瞬间爆上了热搜。

当然,试卷的难度对于不同的同学来说可能会有不同的感受,不过作为科技编辑,小编比较感兴趣的是,今年的数学试卷对于目前很火的 AI 来说难不难呢?

想到这,今天我们不妨就这次高考的数学卷来一次大模型之间的比拼,让各家的大模型化身“高考学子”,完整地做一套高考数学卷,看看它们各自能拿多少分。

在模拟过程中,小编选择了以下几名具有代表性的大模型“考生”,分别是:

  • DeepSeek R1 0528
  • 通义千问 Qwen3-235B-A22B
  • 讯飞星火 X1-0420
  • 豆包 Seed-Thingking-v1.5
  • 文心 X1 Turbo
  • 腾讯混元 Hunyuan T1 latest
  • GPT o3

另外需要说明的是,由于目前网络流出的试题存在多个版本(回忆题),不完全一致,存在题目不完整的情况,IT之家通过多版本交叉验证 + 老师解题验证的方式进行评测,总分是 150 分。

同时IT之家还邀请了一位专业的评分老师来辅助我们对大模型的答案进行评分:

汪鹏:十年高中数学一线教研专家,主导省级数学教学创新课题,精研命题策略与高分突破路径。

此外,因 DeepSeek 网页版 OCR 转写不稳定,还有腾讯混元在高考时间段不能用拍图识别的功能,针对类似情况,我们采用 OCR 转写后输入答题。

由于考题较多,我们无法把所有题目的大模型答题流程和答案都一一呈现,所以这里我们仅挑选一些题目来说明。

话不多说,我们先来看题吧。

1、第 1 题

首先是比较简单的选择题第 1 题:

这道题比较容易,DeepSeek R1 的回答如下:

然后是通义千问:

讯飞星火作答:

豆包也给出了正确答案:

文心一言的答案如下:

腾讯混元的回答:

GPT o3 的答案:

对于选择题第 1 题,各家大模型都给出了正确的答案,仔细看具体的解题流程可能不同,但不影响答案的正确性。

2、第 5 题

下面稍微上点难度,选择题第 5 题是一道函数题:

各家大模型的答案和截图过程如下:

DeepSeek :

通义千问:

讯飞星火:

豆包:

文心一言:

腾讯混元:

GPT o3:

这一道选择题的正确答案是 A,全部答对。

3、第 8 题

接下来我们看更难一点的题,选择题第 8 题,这也是一道涉及到对数的函数题:

面对这道题,各家大模型给出的答案如下:

DeepSeek R1:

通义千问:

讯飞星火:

豆包大模型:

文心一言:

腾讯混元:

GPT o3:

这道题目的正确答案是 B,豆包大模型和 DeepSeek 答错了,其他的大模型均给出了正确的答案。

4、第 16 题

接下来我们来看解答题,解答题的评分不只看结果,还要看解题的过程,过程不对也会被扣分。这里我们以解答题的第 16 题来作为例子,这道题已经是解答题中偏中等难度的题目,涉及数列和函数相关的知识点。

我们先看 DeepSeek R1,给出的结果没有扣分项,可以得到满分(15 分):

通义千问的解答和最终答案也是正确的:

讯飞星火的回答,解题过程清晰明了,答案正确:

然后是豆包大模型的回答,同样步骤和结果都没什么问题:

文心一言第二个小题答案错了,只能得到 6 分:

腾讯混元两个小题的回答都存在问题,因此这道题只能得 0 分:

GPT o3 的两个回答解题过程都没有问题,但是第二个小问的最后结果呈现表达上有点小瑕疵,得 14 分:

5、第 18 题

最后是难度更高,挑战比较大的第 18 题,

面对这道题,讯飞星火 X1、豆包大模型、DeepSeek R1、通义千问、腾讯元宝以及 GPT o3 的解题过程和答案都没什么问题,拿到了 17 分满分,而文心 X1 模型的答案存在错误,得分为 10 分。

Deepseek:

通义千问:

讯飞星火:

豆包大模型:

文心一言:

腾讯混元:

GPT o3:

以上是这次七家大模型挑战 2025 高考数学全国 1 卷的部分题目作答情况的举例,下面我们再来看这次“考试”各位大模型“考生”的总体得分情况:

可以看到,在这次“考试”中,DeepSeek、讯飞星火两家表现突出,是唯二突破 140 分的大模型,稳居国内大模型数学能力的第一梯队,在考生中也达到了“尖子生”标准。其中,DeepSeek 以 143 分的成绩位列榜首,讯飞星火以 141 分紧随其后,位居第二,GPT o3 则以 138 分获得第三名。

本次排名第一的 DeepSeek R1 模型,是在 5 月 28 日升级了最新版本,也是本次评测的模型里最“新”的一位考生,升级后的版本在思考推理、数学能力、响应速度等方面有了大幅提升,但其在实际应用中也暴露出了一些明显短板。首先在实测中,我们发现 DeepSeek 在 OCR 识别效果不理想,出现不少题目识别错误,为确保准确性,我们只能用其他 AI 将试卷图片转化为文本问题,再给到 DeepSeek 作答;其次,DeepSeek 模型版本较大,导致推理速度慢、资源消耗高,在实际的教学场景中可能面临响应效率问题。

此外,在这次考试中仅以 2 分之差紧随其后的讯飞星火,是在 4 月 20 日升级,版本较早,但在模型量级更小(70b)的情况下,其依然取得了 141 分的高分,并显著超越了豆包等其他参与测评的国内大模型。尤其值得一提的是,讯飞星火 X1 是基于全国产算力平台训练出来的,可见他们背后的自主技术研发实力值得肯定,讯飞在教育领域长达 20 多年的资源积累,也体现在了讯飞星火在数学能力上的高效准确。

作为国产大模型的代表,豆包、通义千问等大模型分数紧跟 GPT o3,基本上和国际顶尖的模型水平打了个平手。

此次国内外大模型参考“2025 高考数学”,也是深度推理模型的一场大考,和去年相比,AI 的数学能力有了非常明显的提升。2025 年将是 AI 应用落地的爆发期,如何让 AI 更好的成为我们的帮手,拓展 AI 在教育领域深度应用的更多可能性,将推理模型的优势与教学实际深度结合等等,或许就是我们用 AI 来作答高考试卷背后的用意和价值所在。

相关内容

最新资讯

26 届河南专升本考生暑假备考... 对于 26 届准备专升本的考生来说,暑假是备考的黄金起点。科学合理的规划能让这段时间发挥最大效能,为...
多地回应考生收到作弊记0分诈骗... 近日,多地高考考生收到所谓“XX省教育考试院”的短信,称在考试中被AI监考发现其有作弊行为,成绩记为...
山东省普通高中学业水平等级考试... 6月9日,高考统一考试科目结束,转入第二阶段,山东省普通高中学业水平等级考试阶段,考生和家长的心情都...
孩子的教育太难了,说浅了他不听... 做父母的要意识到一件事,孩子不傻,他们只是缺少经验。 放到教育这件事上,表现就是不要只对孩子的事指手...
喜报!河北外国语学院2022级... 在2025年升学考试中,河北外国语学院计算机学院2022级动漫制作技术专业再创辉煌!该班29名报考同...
初二这一年,你以为是升级,实际... 小时候,我以为世界是按部就班的。 你背会乘法口诀表,老师就会奖励一张笑脸贴纸;你抄写完生字,家长就会...
雷霆大反思后G2再无冷门 哈利... 总决赛G1,雷霆全场领先了47分59.7秒,但最后0.3秒,哈利伯顿的绝杀再现却将比赛引向了截然不同...
京津沪高考作文怎么写?北大中文... 2025高考作文引发热议,除了两道全国卷作文题,今年高考命制了北京卷、上海卷、天津卷三道作文题。怎么...
详细介绍一下韩国大学申请的语言... 韩国大学申请的语言要求主要分为韩语和英语两个方面,具体要求因学校、专业以及授课语言的不同而有所差异,...
又获殊荣!我校荣获西华师范大学... 近日,西华师范大学2025年继续教育工作会议隆重召开,会议对过去一年在继续教育领域表现突出的单位及个...
近五年难度最大!2025广东高... 卓越教育高考化学研究组: 2025广东高考化学 难度堪称五年之最?情境创新导向教学改革 ——卓越教育...
我来写高考作文丨做事为人的三重... 编者按:用拼搏书写青春答卷,用汗水浇灌梦想之花。又到一年高考时,澎湃评论连续第九年邀请评论员、大学生...
济宁市兖州区旧关小学:以五谷为... 在兖州区旧关小学,一堂别开生面的乡土艺术课程正悄然绽放,它以兖州道勤五谷画为载体,让传统艺术与现代教...
推动产学研用深度融合 南通工贸... 为深化校企合作,推动产学研用深度融合,培养高素质智能制造技能人才,近日,江苏省南通工贸技师学院智能制...
今年高考数学考试结束后,我终于... 今年高考数学考试结束后,我终于承认:“有些努力拼不过天赋”! 数学越来越难,是孩子的问题,还是我们思...
三年级下册语文期末情景素养测评... 今天给大家分享:三年级的小探险家们,2024-2025 学年三下语文期末情景素养测评卷中的阅读板块,...
教幼儿学英语有啥技巧?营造环境... 教导小孩子学习英语是一项充满挑战性且极具价值的活动。通过学习英语,孩子们能够提升语言技能,拓宽思维领...
2025新教材西南大学版小学五... 西南大学版小学五年级数学(上下册)电子课本可以方便大家随时随地预习或复习课本知识,为此,我们找到了西...
增强试题开放性 注重情境设计 6月8日,在高考英语考试结束后,教育部教育考试院发布了英语科目的试题评析。据悉,今年教育部教育考试院...