十款大模型挑战高考作文:“新考生”DeepSeek夺冠,GPT第二,豆包和Kimi有点掉队
创始人
2025-06-07 16:52:36
0

出品 | 搜狐科技&搜狐教育

作者 | 梁昌均

6月7日,2025年全国高考拉开大幕。过去两年,搜狐科技&搜狐教育均联合推出大模型参加高考系列策划,今年我们继续让大模型挑战高考作文。

今年大模型考生还是10款模型,包括GPT-4.5、DeepSeek、通义千问、讯飞星火、文心一言、豆包、元宝、Kimi、学而思和商汤商量。今年高考作文试题我们选的是全国一卷,要求如下。

阅读下面的材料,根据要求写作。(60分)
他想要给孩子们唱上一段,可是心里直翻腾,开不了口。
——老舍《鼓书艺人》(见全国一卷阅读II)
假如我是一只鸟,
我也应该用嘶哑的喉咙歌唱
——艾青《我爱这土地》
我要以带血的手和你们一一拥抱,
因为一个民族已经起来
——穆旦《赞美》
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

在10款大模型答题结束后,我们邀请到四位高中语文教学名师,分别对这些作文进行了盲审盲评,并根据平均分进行成绩排序。

结果显示,DeepSeek以54.25分的平均分夺得第一;GPT-4.5、腾讯元宝则各自以53分、51.75的成绩分列第二、第三,百度文心一言平均分达到51,这四款模型则是此次得分均超过50分的考生。

今年是DeepSeek首次参加高考作文测评,并直接获得第一。北京市特级教师、北师大二附中语文老师何杰,以及北京中学语文高级教师,北京市骨干教师房树洪均对DeepSeek所写作文打出了55的高分。

何杰老师认为,该文审题准确,认识深刻,从表达者深沉的情感入手,探讨表达者声音的实质与特点,显示出写作者对于文艺学知识的谙熟与深刻认知,成文有感染力。房树洪老师则表示,该文对概念的界定客观准确,为下文的论证奠定了较好的基础,论据较充实。

这很大程度得益于DeepSeek模型的最新升级——最近更新的推理模型R1-0528,其思考更深,推理更强,测评表现在国内所有模型中首屈一指,并接近OpenAI的o3、谷歌Gemini-2.5-Pro等国际顶尖模型。

同时,更新后的模型文本能力也有所升级。DeepSeek此前提到,在创意写作方面,R1-0528针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格,并降低了幻觉率。正高级教师、语文特级教师刘可翔就提到,该文语言表达较有韵味。

GPT-4.5依然是此次十款大模型考生中唯一的外国考生,其是OpenAI今年2月发布的最新大模型版本。当时OpenAI声称GPT-4.5是“迄今规模最大、知识最丰富的模型”,能更精准理解用户意图,拥有更高的情商。

在搜狐科技过往两年的高考作文评测中,OpenAI的GPT模型均位居第一,此次则被国产模型DeepSeek撼动,排名掉到了第二,平均分成绩53分。

房树洪老师对GPT-4.5所写的作文点评到:面对困难与痛苦时竭力发出真实而向上的声音,阐释清晰,层次分明,纵横交错,但有些地方有点局限于“声音”本身,并打出了56的高分。

刘可翔老师则给出54分,认为该文立意准确,逻辑性较强,能结合现实写作,引导人们怎么做,但深刻性方面还有待提高。

腾讯元宝的表现依然不错,获得51.75的平均分,位居第三,其在去年则排名第二,仅次于GPT-4o。该产品基于腾讯自研的混元大模型,其在高质量的内容创作、数理逻辑、代码生成、多轮对话等性能表现优越。

房树洪老师给元宝作文打出了55分,认为其由表及里,从具象到抽象,逐步展现了对问题的深入思考,指出了“声音”的不用表现形式。何杰老师认为,对题目要求理解正确且独特,举例与引述丰富,体现出丰富的语言积累,但文章论述不够深入。

百度文心一言的表现也还不错,排名则从去年的第三落到第四,这两次成绩都是51分。也就是说,如果没有黑马DeepSeek今年杀出,今年高考作文评测前三名和去年一致,均为OpenAI的GPT模型、腾讯元宝和百度文心一言,可以说头部阵营非常稳固。

去年均有参与评测的阿里通义千问、讯飞星火、字节豆包、月之暗面Kimi,今年成绩集中在47-49分之内;其中通义千问进步比较明显,排名从去年的第八升到了今年的第五,豆包和Kimi排名和得分均有所下降。

商汤商量和学而思则位于最后两名,得分均在43左右。需要指出的是,学而思采用九章大模型进行评测,其主要是面向数学领域打造的大模型,可能并不擅长语文。

2024年十款大模型参加高考作文的成绩单

整体来看,此次十款大模型在今年高考作文的表现比较悬殊,最高分和最低分的分值差达11分(去年为7分),显示模型之间能力差距有所扩大。

同时,值得注意的是,此次评测除GPT-4.5、学而思外,其余模型均开启推理模式。因而在作答过程中,这些考生会先对题目材料和要求进行分析确认,像真正参加高考的学生们一样去审题并思考如何下笔。

过往两次评测中,不少模型出现的缺少题目、字数不够等问题,这次基本没有出现(仅学而思出现字数不够的情况),评分老师在点评中多次提到文章审题准确。这也在一定程度上反映出,推理能力的提高对提升模型的文本能力有促进作用。

这其中GPT-4.5是个例外,其并不具备类似推理模型o1或DeepSeek的链式推理功能,但其采用了无监督学习,用于增强词汇知识和直觉,并增强了推理能力,能以更低延迟提供更高水平的推理能力,因此取得不错表现。

另外,从写作风格来看,此前两次高考作文测试中,不少大模型在内容结构上喜欢用首先、其次、另外、最后、综上所述等进行上下文的起承转合,总体给人感觉稍显呆板。

这次测试,多数模型已放弃了这种方式,表明模型的表达风格更为自然,更加拟人。不少模型还有较多的举例论证或引用,但部分模型在内容深度上还有待加强。

这十位大模型考生写的高考作文到底怎么样?可点击下文链接查看。

DeepSeek:裂帛之声

GPT-4.5:即使嘶哑 也要高歌

元宝:沉默中的歌唱 论苦难时代的精神表达

文心一言:以歌为刃 破晓而行

通义千问:以血肉之躯,铸民族之声

讯飞星火:心怀热忱 共谱时代华章

豆包:嘶哑喉咙里的民族强音

Kimi:心系家国 声嘶力竭亦无悔

商汤商量:歌者无声处 赤子有回声

学而思:歌唱的力量 民族精神的传承与弘扬

相关内容

最新资讯

“警”随高考!通河公安开展考前... 随着高考临近,为全力护航2025年高考,筑牢安全防线。连日来,哈尔滨市公安局通河县局组织警力开展高考...
【护航高中考】麦积区市场监督管... 麦积区融媒体中心讯(记者 任泽瑄 宋倩倩)高考临近,为营造良好的考试环境,连日来,麦积区市场监督管理...
最新!多地公布查分时间 8日,2025年高考进入第二天,有省份将于今天结束全部考试。目前,湖南、湖北、江西、宁夏等地已经公布...
最新补录!2所美东全美寄宿前3... 6月5日,普林顿教育从学校官方获知:3所美东顶尖寄宿院校放出少量补录取名额(含两所全美TOP30寄宿...
2025年高考英语全国卷试题评... 2025年高考英语全国卷试题深入贯彻党的二十届三中全会精神和全国教育大会精神,落实《教育强国建设规划...
2025年高考温馨提示 各位考生,明天下午即将进行外语科目的考试,这里特别提醒大家注意: 1. 外语考试科目与别的考试科目入...
高考社牛考生出现:第一个冲出考... 在 2025 年这个备受瞩目的高考季,重庆考区出现了一位令人瞩目的“社牛”考生,他的一举一动都吸引了...
临潼公安全力护航2025年高考 为给高考考生营造安全、有序、安静的考试环境,公安临潼分局100余名民警、辅警坚守岗位,全方位为高考保...
旗开得胜!高考重要提醒→ 十年寒窗磨一剑 今朝出鞘试锋芒 今天(6月7日) 2025年高考大幕正式拉开 祝所有考生梦想成真,金...
冲上热搜!高考数学难不难?权威... 6月7日下午 今年全国高考数学科目考试结束后 数学相关的话题就上了热搜 有考生表示 “考场出来都沉默...
今日开考!我市考生奔赴2025... 又是一年鱼跃龙门、梦想扬帆时。2025年高考6月7日拉开帷幕,全市广大考生怀揣梦想,满怀信心地走进考...
高考第二天,最奇葩考生已出现:... 高考进入第二天,本来以为考生们都已经进入状态了,结果还是出了幺蛾子。这次真的是让人大开眼界,一个女孩...
全民禁毒宣传月|全民共治 防范... 为进一步增强青少年识毒、防毒、拒毒意识,筑牢校园禁毒防线,2025年6月5日下午,民意街道团工委联合...
逐梦青春 | 果洛州970名学... 6月7日,2025年全国普通高校招生考试正式启幕。果洛州970名怀揣梦想的考生迎着朝阳,步履坚定地奔...
【护航高考】莘莘学子追逐梦想 ... 今天,2025年高考大幕拉开。为保障高考安全顺利进行,长白山公安局紧扣“平安高考”工作目标,充分发挥...
对送考车辆违反尾号限行免予处罚... 记者从北京公安交管部门获悉,高考第一天的两门考试结束,北京全市交通运行总体平稳。为保障高考顺利进行,...
高考突发!山东一考生撕毁他人试... 据爆料视频报道,6月7日上午,山东某高考考场内,监控画面记录下令人揪心的一幕:一名男生在考试过程中突...
“干货”满满!21所名校招生信... 湖南日报全媒体记者 杨斯涵 整理 对于广大高考生来说,各高校招生信息是备受关注的焦点之一。6 月 8...
西华大学就业、深造情况:202... 点这里 ↑ 老满说高考 作者 l 老满 生涯规划师l 升学顾问l 拆书家 大家好,我是升学顾问满路,...
英语音标有多重要?不重视它,连... 学习英语音标是英语学习的根本,就好比是建筑的地基。它能协助学习者更精确地发出声音、理解词汇以及记忆单...