快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源_科技资讯_新闻资讯

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源

创始人

2025-04-25 13:48:22

0次

快手早盘上涨3.47%，现报52.20港元，成交额7.68亿港元。

4月23日，快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。

快手 Kwaipilot 团队在最新研究成果《SRPO： A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化（two-Staged history-Resampling Policy Optimization ，SRPO），这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的方法。

通过使用与 DeepSeek 相同的基础模型（Qwen2.5-32B）和纯粹的强化学习训练，SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩（AIME24 = 50、LiveCodeBench = 41.6），超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是，SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

来源：金融界

-Zero 代码训练方法模型 DeepSeek-R 性能数学快手领域盘涨超基准 SRPO 港元

上一篇：00后男生起名“朱雀玄武敕令”，已申请改名“周天紫微大帝”！当事人发声

下一篇：元琛科技签约AI智能环保岛百万机组项目

最新资讯

建议赴英留学者：选留学中介别大... 一、赴英留学如何规避中介选择风险？在信息繁杂的今天，许多计划赴英深造的同学都面临着一个核心困扰：...

港硕：从“捡漏天堂”到“卷王战... 大家好，我是你们的老朋友，一个在留学圈摸爬滚打多年的博主。最近，一则“港大申请系统被挤爆”的消息刷屏...

2026新沪北师大版八年级数学... 2026年学生将迎来新版教材，新教材将更加重视思维和阅读！为了方便广大学生在暑假预习新学期的课本知识...

共29项！湖南2026—202... 长沙晚报掌上长沙12月25日讯（全媒体记者张炎炎）家长们注意，给娃报名竞赛活动一定要认准“白名单”...

孩子一哭就炸毛？不是你脾气差，... “别哭了！再哭妈妈就不要你了！” 商场里，一位年轻的妈妈满脸通红地对着哭闹的孩子吼叫。而孩子的小脸...

汉襄宜谐音霸屏！69分钟，湖北... 湖北日报全媒记者胡祎截图铁龙一响，黄金万两！今天起，武汉飙到宜昌只要69分钟——比你追一部电影还...

2026新沪北师大版八年级数学... 2026年学生将迎来新版教材，新教材将更加重视思维和阅读！为了方便广大学生在暑假预习新学期的课本知识...

甘肃高校排名洗牌：甘农业险胜西... 校友会2025中国大学排名近日发布，甘肃高校整体表现亮眼。兰州大学以全国第34名、世界高水平大学的身...

多省发布！“红牌预警”专业名单... “对就业质量不高的专业实行红黄牌提示，毕业去向落实率连续两年低于50%的专业确定为‘黄牌’学科专业，...

感受广西侨乡发展新气象！印尼学... 12月15日，印度尼西亚SMA BPK PENABUR教育集团的70多名学生走进柳州市柳城华侨农场，...

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源

相关内容

最新资讯