2月14日,字节跳动豆包大模型2.0(Doubao-Seed-2.0)系列亮相。据南方+记者获悉,字节跳动此前已经分别推出了Seedance 2.0视频生成模型、Seedream 5.0 Lite图像创作模型。
据介绍,作为此次发布的核心,豆包大模型2.0是豆包系列自2024年5月正式发布以来的首次跨代大升级,聚焦真实世界复杂任务执行力,针对大规模生产环境需求完成系统性优化,在基础能力、多模态理解、企业级应用等维度实现全方位突破。
其中多模态理解能力的全面升级,让豆包大模型2.0更懂“真实世界”。面对当下办公、娱乐、教育等场景中多样化的信息形态,可高效解读图表、复杂文档、视频等多类型内容。针对动态场景,其进一步增强时间序列与运动感知能力,能够完成实时视频流分析、环境感知与主动交互,广泛适配健身指导、穿搭建议、看护陪伴等民生场景,让AI服务更贴近日常生活。
据了解,豆包2.0 Pro按输入长度区间定价,32k以内输入定价3.2元/百万tokens,输出定价16元/百万tokens,相比Gemini 3 Pro、GPT 5.2具备明显成本优势;豆包2.0 Lite性价比更为突出,综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅0.6元。目前,豆包2.0 Pro已在豆包App、电脑客户端及网页版上线,用户切换至“专家”模式即可体验;火山引擎也同步上线该系列模型API服务,为企业级应用提供便捷接入渠道。
除核心语言大模型外,字节跳动同步推出的两款视觉创作模型,构建起“文本-图像-视频”全模态AI创作体系。
其中,2月13日发布的Seedream 5.0 Lite图像创作模型,相比上一代实现理解、推理与生成能力的全面提升,采用多模态理解生成统一架构,无需精准提示词即可通过简短、模糊的文本或图像输入,精准推测用户创作意图,在主体一致性、图文对齐等方面表现显著进步。该模型强化世界知识体系,覆盖科技、人文等多个垂类行业知识库,生成内容更符合物理规律,信息可视化能力大幅提升;首次引入实时检索增强能力,可通过联网获取最新资讯,完美适配热点资讯海报、学科板报等时效性创作需求,真正从“创意玩具”升级为办公、学习中的得力助手。
2月12日率先发布的Seedance 2.0视频生成模型,则实现了视频创作的“工业级”突破。该模型支持图像、音频、视频、文本四种模态输入,可实现文生视频、图生视频、视频编辑、视频延长等多种功能,能够高精度还原物品细节、材质、音色及运镜风格,稳定保持角色特征。其最大亮点在于大幅提升物理规律遵循能力,人物动作自然流畅,物体交互反馈真实,指令遵循精度显著提高,可精准执行动作、表情、运镜等细节要求,大幅降低反复调试成本。目前,该模型已在豆包、即梦、小云雀开启小规模内测,凭借出色表现获得业界广泛认可,甚至有美国导演计划用其拍摄好莱坞大片,彰显我国视频生成AI的全球竞争力。
业内人士表示,我国在大模型技术方面的新品频发,不仅彰显了我国自主研发大模型的技术实力,也显示着我国自主研发大模型正式迈入“实用化攻坚”新阶段,通过技术普惠推动AI从实验室走向千行百业,为数字经济高质量发展注入新动能。
南方+记者 叶丹