新浪微博发布其首个开源大模型 VibeThinker-1.5B
创始人
2025-11-13 20:17:21
0

IT之家 11 月 13 日消息,今日新浪微博发布了其首个开源大模型 VibeThinker-1.5B,号称“小模型也可以有大智慧”。

IT之家附官方介绍如下:

目前业界最强大模型参数量大都超过了 1T,甚至出现了 2T 规模的模型,是否只有巨量参数模型才有高度的智能?是否只有少量科技巨头才有能力做大模型?

VibeThinker-1.5B,正是微博 AI 对此问题给出的否定答案,它证明了小模型也可以有高智商。这意味着做最强大模型不再像传统观念以为的那样主要依赖推高参数量,也可以通过巧妙的算法设计来做到这一点。

这款模型仅有 1.5B (15 亿) 参数,经过微博 AI 研发人员提出的创新“频谱到信号原理”(SSP)方法训练后,其效果堪称颠覆:VibeThinker 在 AIME24、AIME25 以及 HMMT25 三个高难度数学测试集上的表现,超越了参数量超其 400 倍的模型 DeepSeek-R1-0120 版本(模型大小 671B),与规模为 456B 的 MiniMax-M1 效果接近或相当;在 LiveCodeBench v6(编程算法题测试集)中的成绩,成功追平参数量数超其数十倍的模型,比如欧洲领先 AI 企业 Minstral.AI的深度思考模型 Magistral-Medium-2506 版本。

VibeThinker 能力强大不靠堆参数,而是源于微博研发人员提出的 SSP 训练理念,即在学习阶段先鼓励模型发散探索所有可能的解题路径,而非一味关注正确率;随后,通过强化学习进行高效策略优化,精准锁定正确路径,将模型性能提升至极致。

模型的单次“后训练”(Post-Training)成本不足 8000 美元,与此对应,DeepSeek-R1 和 MiniMax-M1 的后训练成本分别是 29 万及 53 万美元,降低了几十倍。

VibeThinker-1.5B 的开源,旨在为全球计算资源有限的中型企业及高校研究团队,提供一条高性价比的研发新路径,使得人人都可以训练最前沿的大模型,而不是像之前一样被排斥在外,这对于业界技术进步至关重要。

Github:https://github.com/WeiboAI/VibeThinker

HuggingFace:https://huggingface.co/WeiboAI/VibeThinker-1.5B

Arxiv:https://arxiv.org/pdf/2511.06221

ModelScope:https://www.modelscope.cn/models/WeiboAI/VibeThinker-1.5B

相关内容

最新资讯

800米自由泳优势明显,青岛小... 11月13日晚,男子800米自由泳决赛,18岁的山东小将张展硕再度登场。最终他以7分46秒69的成绩...
魏兴贵已任重庆市武隆区委副书记... 据“武隆融媒”微信公众号消息,11月13日,区委书记范立新在区会议中心二会议室主持召开十五届区委常委...
“气到2点都没睡!”结婚镜头被... 11月12日,安徽合肥的胡女士向记者反映,自己10月3日结束婚礼,满心期待的婚礼视频成片的重要镜头,...
原创 比... 伦敦时间11月11日,一则判决消息震惊中外,曾携6.1万枚比特币潜逃英国8年的“比特币富婆”钱志敏,...
业内专家:货币政策效果存在时滞... 业内专家表示,近期物价出现企稳迹象。从国际经验看,货币政策效果显现通常有一定时滞,对我国2%左右的通...
美国“诈骗中心打击小组”成立,... 当地时间11月12日,美国哥伦比亚特区检察官珍妮·皮罗宣布,美国已经成立新的跨部门机构“诈骗中心打击...
汇添富基金夏正安:他山之石鉴前... 作为从研究员成长起来的基金经理,过去10年始终深耕行业与公司研究,探寻产业周期与成长规律。然而,对中...
11月13日深证龙头(3996... 证券之星消息,11月13日,深证龙头(399653)指数报收于3104.35点,涨1.73%,成交1...
想要图纸加密?十种方法加密图纸... 图纸不是普通文件,它承载着设计思路、工艺配方和项目机密。一旦泄露,损失往往超出预期。 本文从技术与管...
嘉楠科技公布币产量:运行算力至... 来源:新浪科技 新浪科技讯 11月13日下午消息,加密货币挖矿领域的创新企业嘉楠科技公布了2025年...