DeepSeek新模型曝光?“MODEL1”现身开源社区
创始人
2026-01-22 13:52:13
0

恰逢DeepSeek-R1模型发布一周年,DeepSeek新模型“MODEL1”现身开源社区。

近日,DeepSeek官方在GitHub更新了一系列FlashMLA代码,涉及的114个文件中,有数十处提到了此前未公开的“MODEL1”大模型标识符。

2025年2月,DeepSeek启动“开源周”,计划以每日解锁的形式逐步公开5个代码库,Flash MLA为首个开源项目。公开资料显示,Flash MLA通过优化Hopper GPU的内存访问和计算流程,显著提高可变长度序列的处理效率。其核心设计包括动态内存分配机制和并行解码策略,可减少冗余计算并提升吞吐量,尤其适用于大语言模型的推理任务。

在某些文件中,“MODEL 1”与已知的现有模型“V32”(即DeepSeek-V3.2)并列提及。行业分析认为,“MODEL1”或许代表一个不同于现有架构的新模型,可能正是DeepSeek还未对外发布的下一代模型(R2或者V4)。

此前有市场消息称,DeepSeek计划在2月春节前后发布新一代AI模型DeepSeek V4,但发布时间可能会视实际情况而变化。V4模型是DeepSeek 2024年12月发布的V3模型的迭代版,具备强大的编程能力。DeepSeek内部的初步测试显示,V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列。

2026年1月以来,DeepSeek动作不断,已陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的 “AI记忆模块(Engram)”。

1月12日,DeepSeek在github上发表新论文,文章由DeepSeek与北京大学合作完成,作者中有梁文锋署名。文章指出,Transformer架构缺乏原生的知识查找机制,迫使它们通过计算低效地模拟检索。为此,DeepSeek提出了条件记忆(conditional memory),并给出了实现方案Engram模块。DeepSeek称,该模块不仅有助于知识检索,同时在一般推理和代码/数学领域方面取得了更大的进步。

相关内容

最新资讯

天津大学启动“新质生产力博士专... 本报讯(记者 陈欣然 通讯员 吴潇 刘晓艳)近日,天津大学发布《2026年新质生产力专项博士研究生招...
寄宿学校要求学生站着晨读20分... 寄宿学校要求学生站着晨读20分钟,被家长质疑称其"没苦硬吃" 近日,某寄宿制中学要求学生每天早晨站着...
“叶某斌柬埔寨失联”事件最新追... 2025年8月,江西铅山县两名青年叶某斌、欧阳某某赴云南旅游后突然失联,后又出现在柬埔寨电诈园区,引...
研报掘金丨开源证券:维持吉宏股... 开源证券研报指出,吉宏股份2025年预计实现归母净利润2.73-2.91亿元(同比+50%~+60%...
原创 德... 今年德甲确实没太大意思,拜仁目前12胜2平,积38分遥遥领先排在第一,夺冠毫无悬念,就看提前几轮了。...
【通知】非教育系统2026年度... 根据国家留学基金管理委员会和省人社厅有关要求,即日起,开展非教育系统2026年度国家公派留学申请受理...
2026新北京版四年级数学(下... 2026年学生将迎来新版教材,新教材将更加重视思维和阅读!为了方便广大学生在暑假预习新学期的课本知识...
今年8月地球将“失重7秒”致千... 近日,一则“地球将失去引力7秒”的阴谋论在国外社交媒体上疯传。相关说法宣称,2026年8月12日地球...
宝马越野车被困河中,60岁于东... 极目新闻记者 张皓1月21日,多位网友发布了60岁的于东来跳入冰冷河水中施救被困车辆的视频。22日上...
武汉街道12月传播亮点:传播强... 荆楚网(湖北日报网)舆情分析师 谢宇航2026年1月20日,由荆楚网(湖北日报网)、楚天舆情数据研究...