快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
创始人
2025-04-25 13:48:22
0

快手早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。

快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的方法。

通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

来源:金融界

相关内容

最新资讯

建议赴英留学者:选留学中介别大... 一、赴英留学如何规避中介选择风险? 在信息繁杂的今天,许多计划赴英深造的同学都面临着一个核心困扰:...
港硕:从“捡漏天堂”到“卷王战... 大家好,我是你们的老朋友,一个在留学圈摸爬滚打多年的博主。最近,一则“港大申请系统被挤爆”的消息刷屏...
2026新沪北师大版八年级数学... 2026年学生将迎来新版教材,新教材将更加重视思维和阅读!为了方便广大学生在暑假预习新学期的课本知识...
共29项!湖南2026—202... 长沙晚报掌上长沙12月25日讯(全媒体记者 张炎炎)家长们注意,给娃报名竞赛活动一定要认准“白名单”...
孩子一哭就炸毛?不是你脾气差,... “别哭了!再哭妈妈就不要你了!” 商场里,一位年轻的妈妈满脸通红地对着哭闹的孩子吼叫。 而孩子的小脸...
汉襄宜谐音霸屏!69分钟,湖北... 湖北日报全媒记者 胡祎 截图铁龙一响,黄金万两!今天起,武汉飙到宜昌只要69分钟——比你追一部电影还...
2026新沪北师大版八年级数学... 2026年学生将迎来新版教材,新教材将更加重视思维和阅读!为了方便广大学生在暑假预习新学期的课本知识...
甘肃高校排名洗牌:甘农业险胜西... 校友会2025中国大学排名近日发布,甘肃高校整体表现亮眼。兰州大学以全国第34名、世界高水平大学的身...
多省发布!“红牌预警”专业名单... “对就业质量不高的专业实行红黄牌提示,毕业去向落实率连续两年低于50%的专业确定为‘黄牌’学科专业,...
感受广西侨乡发展新气象!印尼学... 12月15日,印度尼西亚SMA BPK PENABUR教育集团的70多名学生走进柳州市柳城华侨农场,...