11月17日至18日,芥末堆在北京举办以“教育有AI,学习无界”为主题的GET2025教育科技大会。阿里云智能集团公共云事业部华北大区教育行业解决方案总监张博就《全栈AI助力教育全场景创新》进行了主题分享。
以下为演讲实录,经编辑:
今天我带来”全栈AI如何助力教育全场景创新”的分享。
为什么提“全栈AI”呢?首先要从教育最难的难题——“不可能三角”讲起,即很难同时做到个性化、高质量和大规模。个性化的辅导怎么去规模化、怎么去提高质量?AI时代的到来,为解决这个难题提供了重要的思路。
为什么说在线教育是大模型赋能最快的行业?首先,在线教育拥有广泛的需求及清晰的目标,这能让大模型更好地做到因材施教。其次是高质量数据沉淀。教学过程中沉淀了大量的高质量数据,这些数据往往优于基础模型的训练数据。
基于此,阿里云全栈AI之所以能提供强劲赋能,主要是因为以下四点。
首先是通义千问的模型能力。阿里云坚持模型的开放开源,整个模型智能程度始终保持高水平,在国内外都受到广泛欢迎。
其次,AI基础设施的投入非常高。
另外,阿里云是全球领先的全栈人工智能服务商,所以在PaaS平台和模型的配套方案,阿里也是有所长。举个例子,现在开发智能体,往往需要历史对话,用户画像,以及向量检索,甚至是一些知识图谱。阿里云PolarDB等数据库产品能一站式地解决上述问题,这就是整个PaaS能力的体现。
最后一点就是,服务和生态赋能。现在帮助客户做模型或迭代时,我们可以提供高水平的模型交付团队。
接下来,我会介绍阿里云针对教育行业的全栈AI解决方案。包括这四个方面:教育增长运营、教学内容生产、教学互动和评估,以及课后的知识巩固。
首先是增长运营。教育公司的核心是业务的增长。教培的运营,包括体验课,转正价课,续报等;如果是做在线教育App,需要进行拉新、留存等运营动作,这两者的本质逻辑都是一样的。基于通义千问大模型强大的分析、生成能力,在公域、私域的运营数据上,可以实现文、图、视频等种草内容的生产,对用户原声进行分析和归纳,设计智能体与潜在用户对话,引导转化。
场景一:教育增长运营
第一个场景,VOC(用户原声)。很多时候,我们在处理运营相关数据的时候,会做打标分析,用来提高转化率。我们在实践中发现,标签可能需要分多个层级,最底层的标签数量可能会达到100多个。这样就会导致基础模型打标签准确率较低,这时我们可以在Qwen3小尺寸开源模型进行后训练,训后的模型打标,准确率大幅度提升。这就是Qwen3模型后训练的一个最佳的实践落地场景。
打标后训练还有个“意图识别”场景,例如,在对话智能体中,我们要教学生知识。首先要判断问题是闲聊还是哪个学科。这时候就需要我们做前置的意图分类。我们可以使用Qwen3的基础模型做微调,会获得比基础模型更好的效果。
发文、发图、发视频的场景同样适用。发文简单,用大模型和提示词就差不多了;发图有三个方式:生图、选图和编辑图。如果是发视频的场景,很多客户已经使用Wan2.2和2.5生成视频,包括Wan2.5已经支持最大长度10秒的视频,且视频自带声音。用户可以拼接拼成一个更长的视频。还有就是AI剪辑视频,包括剪辑视频时,用工作流加模型的方式串联起来。比如,先拿模型去生成讲解脚本,然后再把讲解脚本做一个语音合成,最终结合数字人的技术,加上云剪辑的能力,拼成一个完整的视频。这些都可以实现的。
客服Agent是我们在大模型落地很重要的场景,这里面包括了意图识别、查询改写以及公域、私域的各类回答。像客户在小红书上发文章后,下面可能有用户来咨询。这时候需要有一个机器人接洽这些咨询,把他们转化为用户。
场景二:内容生产
内容生产是最近几年越来越多教育公司在做的事情。主要包括以下内容的生产:题目教案、解题视频、绘本动画和课堂素材剪辑。题目的生产,用文本模型去产题,客户采纳率越来越高,也包括用教育领域OCR模型将线下的试卷或者讲义数字化。那解题视频和绘本动画方面,前文也有所涉及。上课视频的生产,和销售场景类似,都是用模型的生成能力或工作流的拼接能力,去生成相关严肃的讲课视频、动画的绘本;如果做低幼赛道,很多APP都用动画绘本去讲知识,动画绘本的知识里用模型生成的量和占比以后会越来越多。
课堂素材的剪辑指的是将老师和学生的高光时刻剪辑出来。比如说老师的高光时刻,我们可以发到小红书上去种草,学生的高光时刻我们可以发给家长,表示学习的成果。这些其实都能用qwen3的多模态模型能很好的处理。
场景三:教学互动和评估
第三个方向是用全栈AI提效教学互动和评估。主要分为两类方案,一类是借助阿里云AI实时互动的编排能力+Qwen全面的模型能力,快速搭建AI老师实时对话智能体。第二类是借助Qwen3多模态模型,对老师教学质量和学生学情进行评估。
具体包括以下这些场景。首先是字幕上屏,可以使用最新的Qwen3-ASR模型识别上课语音,可以实现自动上屏、录播课的切片,以及课程质量评估。
其次是AI课堂的互动。这里有两套解决方案。一是基于AI实时互动RTC搭建任务的编排,可以快速帮客户搭建智能体。另一套是直接用模型能力。Qwen3-Omni直接搭建智能体,还可以基于这个开源的模型进行后训练智能体的强化。
AIGC的实训课:现在教小孩学AI也是很重要的赛道,学AI一般都要体验生文、生图、生视频,真实上课场景很多时候就是几千甚至上万个学生同时操作,这个时候对模型的并发能力有非常高的要求。百炼平台的弹性算力单元(PTU),可秒级应对万级并发,轻松应对这一场景。
还有一个就是多元模态的学情评估。很多时候学情评估质量,或是用视觉模型评估专注力,或是用文本模型评估讲课质量。这时候就可以基于Qwen3多模态模型,对学情和教学质量进行评估,保障教学质量。
场景四:课后巩固与自学
这个场景我总结为解题、批改、改题、推题、对练这几个细分方向。我们在大量落地实践中总结出一个规律,这个场景是非常适合去做Qwen模型的后训练。
首先基础模型肯定涵盖不了所有客户自己的高质量题目数据;其次刚需高频高DAU场景;还有一点,它是实时在线业务,对于推理成本非常敏感,对于延迟要求很高。打个比方,本来需要万亿参数才能解决的问题,现在把它训练到可能只有8B的小模型上,最多32B,就能达到比基础模型还要高的准确率,同时获得极低的推理成本和延时,这就是这个场景Qwen模型后训练的价值。
还有一个点,我们面临着客户们很现实的需求,基础模型解题能力不错,但不是期望的讲课风格,我们想要AI像真人老师一样讲题。如何实现?
现在所有的模型都越来越会说人话,其实就是强化学习在里面注入了人类偏好。通过偏好选择的方式,来强化这个模型的风格,所以我们可以在后训练阶段加入Qwen模型的强化学习来解决这个风格问题。
刚才介绍了全栈AI场景,场景具体是怎么交付?今年9月云栖大会我们发布了大量的新模型,Qwen3-Max,可以对标海外最优秀模型的文本模型,Qwen-Flash,如果你想追求推理速度,就用Flash。还有Qwen-Image和Wan2.5等优秀的生图生视频的模型,以及Qwen3-ASR和Qwen3-TTS的语音交互模型也都获得了客户的高度认可。百炼平台除了能够体验、调用模型以外,还有一点比较重要,如果客户自己想做模型后训练,我们可以提供训练和推理的托管。相当于训练过程中,你既可以用到Qwen3非开源的模型训练,还能结合Qwen3原始的数据,自己的模型还可以低成本的托管在百炼上做推理,这是很多客户非常喜欢的一点。
刚才在教学巩固场景提到了后训练的价值,如果是后训练这个场景,千问模型具备很大的价值。大家知道为什么一提“后训练”必谈千问吗?因为Qwen的开源涵盖参数从大到小、各个模态的模型,模型的能力在开源榜单也很靠前,同时大量的后训练衍生模型构筑了完整的生态,目前Qwen的全球衍生模型数量已经达到17万。为了获得更低的推理成本和延迟,用小参数模型的模型结合优质的场景数据,Qwen系列模型是大概率的选择对象。整个训练过程也逐步从Dense+SFT简单的微调逐步走向了MoE+SFT。后训练模型在阿里云有好多种不同的部署方式,可以在百练上提供后训练模型的托管,也可以用PaaS平台去做GPU形式的托管。
最后,AI在教育领域的价值并非取代教师,而是通过承担批改作业、内容生成等重复性、事务性工作,将教师从繁重的机械劳动中解放出来,让教师回归教育的本质——成为学生情感的陪伴者、思维的引导者和人格的塑造者。这些高阶育人职责,是任何技术都无法替代的。
阿里云全栈AI所追求的,正是以技术之力赋能教育,让人与人之间的温度、智慧与创造力,在课堂中重新闪耀。