未来信息:全球大模型竞争白热化,国产大模型能力对标GPT 3.5Turbo(附40页报告)
创始人
2025-11-20 07:17:04
0

本文为节选内容

更多报告,关注公众号:得算多未来产业研究

全球大模型竞争中,OpenAI 、 Anthropic 、谷歌三大厂商为第一梯队, OpenAI 先发推出 GPT 4 ,在 2023 年基本稳定在行业龙头地位,而 Anthropic 凭借 Claude 、 谷歌凭借 Gemini 后发,可以看到, 2024 年以来,三家大模型能力呈现互相追赶态势。开源大模型厂商中, Meta AI Llama )、欧洲 Mistral AI Mistral )、 Google Gemma )等厂商的大模型性能保持前列。

此外,伴随 Sora 推出以及 Pika 的出圈,图像、视频生成领域的超预期进展获得极大关注,全球图像生成大模型以Midjourney 、 Stable Diffusion 、 OpenAI 的 DALL·E 为代表,视频生成以 Runway 的 Gen 、 Pika 和 OpenAI 的 Sora 为代表。

OpenAI发布文生视频大模型 Sora ,在全球视频大模型领域取得里程碑式进展。 今年 2 月 15 日, OpenAI 在官网正式发布 Sora ,根据 OpenAI 官网介绍, Sora 可以在保持视觉质量和遵循用户的文本提示的情况下,生成长达 1 分钟的视频,遥遥领先于以往的视频生成时长。

GPT4o 实现性能与实用性双突破,有望加速大模型应用落地。 5 月 14 日, OpenAI 在春季发布会上推出 GPT 4o ,并表示将免费提供给所有用户使用。 GPT 4o 可接受文本、音频和图像的任意组合作为输入、输出,在英语文本和代码方面的性能可对标 GPT 4 Turbo ,同时在 API 中也更快且便宜 50% 。根据 OpenAI 官网信息,在 GPT 4o 之前,使用语音模式与 ChatGPT 对话, GPT 3.5/GPT 4 的平均延迟分别为 2.8/5.4 秒。而GPT 4o 可以在短至 232 毫秒的时间内响应音频输入,平均时长为 320 毫秒,与人类在一次谈话中的响应时间相似。

7月 18 日, OpenAI 正式推出了 GPT 4o mini ,将取代 ChatGPT 中的旧模型 GPT 3.5 Turbo ,向 ChatGPT 的免费用户、 ChatGPT Plus 和团队订阅用户开放。 OpenAI 表示, GPT 4o mini 的成本为每百万输入标记( token 15 美分和每百万输出标记 60 美分,比 GPT 3.5 Turbo 便宜超过 60% 。

Claude 3.5 Sonnet在绝大多数基准评估中都超越了竞品大模型。 今年 3 月 4 日, Anthropic 发布 Claude 3 系列模型,包含 Opus 、 Sonnet 和 HaikuOpus 代表 Anthropic 最高级、最智能的模型, Sonnet 代表中等级别的模型,在性能和成本效益之间取得平衡, Haiku 代表入门级别或最基础的快速模型,其中, Claude 3 Opu 为 Claude 3 系列模型的最强版本,根据官方资料其性能全面超过了 GPT 4 。值得注意的是, Claude 3 全系列模型具有与其他领先模型同等的复杂视觉功能,可以处理各种视觉格式,包括照片、图表、图形和技术图表。 6 月 21 日, Anthropic 发布了全新大模型 Claude 3.5 Sonnet ,号称为“迄今为止最智能的模型”。据 Anthropic 介绍, Claude 3.5 Sonnet 在绝大多数基准评估中都超越了竞品大模型和自家前代最强 Claude 3 Opus ,与此同时,运行速度、成本与自家前代 Claude 3 Sonnet 相当。

谷歌大模型全线升级。继 2023 年 12 月谷歌推出其规模最大、功能最强的多模态大模型 Gemini 系列之后,今年 2 月 15 日,谷歌发布 Gemini 1.5在版本中首个登场的多模态通用模型 Gemini 1.5 Pro ,将稳定处理上下文的上限扩大至 100 万 tokens 。 5 月 14 日,在谷歌 IO 开发者大会上,谷歌大模型迎来多项升级,基础大模型方面, Gemini 1.5 Pro 将上下文窗口长度从之前的 100 万 tokens 进一步扩展至 200 万 tokens ,谷歌首席执行官Pichai 称这是目前市场处理上下文长度规模最大的基础大模型。多模态大模型方面,

谷歌发布了视频生成模型 Veo 以及文生图模型 Imagen 3 Veo 模型对标 Sora ,能够根据文字、图片和视频的提示生成长度超过 1 分钟、分辨率最高 1080p 的视频; Imagen 3 文生图模型是 Imagen 系列的升级版,从细节拟真度来看对标 Midjourney v6 。

今年4 月 18 日, Meta 推出强大的开源人工智能模型 Llama 3 ,发布包括 8B 和 70B 参数的两个版本,作为 Llama2 的重大升级。 Meta 称,目前正在开发的最大模型是 400B 参数,将在未来几个月内推出,英伟达科学家 Jim Fan 认为, Llama3 400B 将成为一个分水岭,即社区将获得开源重量级的 GPT 4 模型,它将改变许多研究工作和草根创业公司的计算方式。

7月 23 日, LIama 3.1 正式发布, 405B 版本在 150 多个基准测试集上的表现追平或超越现有领先的基础模型,包括 GPT 4 、 GPT 4o 和 Claude3.5 Sonnet 。除了与闭源模型相比具有显著更好的成本 性能比之外, 405B 模型的开放性将使其成为微调和蒸馏更小模型的优质选择。此外,Meta 也推出了 8B 和 70B 模型的升级版本,能力与同等参数下的顶尖模型基本持平,与具有相似参数数量的开闭源模型构成强竞争力。

自2022 年 11 月底 ChatGPT 发布以来, AI 大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮,国内学术和产业界也在抓紧追赶突破。 SuperCLUE 将国内大模型发展大致分为三个阶段, 1 )准备期 2022 年 11 月 ChatGPT 发布 后,国内产学研迅速形成大模型共识。 2 )成长期 2023 年初,国内大模型数量和质量开始逐渐增长。 3 )爆发期 2023 年底至今,各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势。

从参与者来看,目前我国 AI 大模型厂商大致可以分为四类, 1 )互联网 科技公司:以百度、阿里、腾讯、字节、快手、华为等为代表。 2 AI 公司:以智谱 AI 、昆仑万维、科大讯飞、商汤科技为代表的专注于 AI 研发与应用的科技公司。 3学术、科研机构:包括清华、北大、复旦、中科院等国内一流高校,以及智源研究院、 IDEA 研究院等科研机构。 4 )行业专家品牌:以月之暗面( Moonshot AI )、百川智能、 MiniMax 等由 AI 专家创业成立的公司为代表。

从模型能力来看,根据 SuperCLUE 最新的评测结果,以开源 Llama 3 70B 、 Llama 3 8B 的模型能力为分界线,国内大模型可以形成三大梯队。可以看到,国内大模型上半年发展尤为迅速,

1)开源模型 Qwen2 72B 在 SuperCLUE 基准中表现非常出色,超过众多国内外闭源模型,与Claude 3.5 持平,与 GPT 4o 仅差 4 分。

2)此外,还有 4 个国内大模型(深度求索DeepSeek V2 、智谱 GLM 4 、商汤 SenseChat5.0 、OPPO 的 AndesGPT )超过 GPT 4 Turbo 0409 。

3)除了互联网大厂和 AI 公司,专家创业团队如 Baichuan4 、 Kimi 、 MiniMax abab6.5 均有超过70 分的表现,位列国内大模型第一梯队。

4)国内绝大部分闭源模型已超过 GPT3.5Turbo 0125 。

相关内容

最新资讯

现货白银跌3%,报49.12美... 每经AI快讯,11月21日,现货白银跌3%,报49.12美元/盎司;现货黄金跌1.20%,报4028...
来了!首届“金牛至赢”全国期货... 由中国证券报主办的首届“金牛至赢”全国期货交易大赛即将启动!“金牛至赢”全国期货交易大赛由中国证券报...
国泰基金的煤炭ETF(5152... 11月21日,煤炭ETF(515220)报收1.132元,收跌2.92%,成交金额8.71亿元。换手...
国泰基金的证券ETF(5128... 11月21日,证券ETF(512880)报收1.173元,收跌3.62%,成交金额36.87亿元。换...
嘉实基金的德国ETF(1595... 11月21日,德国ETF(159561)报收1.303元,收跌1.96%,成交金额7658.3万元。...
嘉实基金的软件ETF(1598... 11月21日,软件ETF(159852)报收0.847元,收跌2.42%,成交金额4.29亿元。换手...
国泰基金的纳指ETF(5131... 11月21日,纳指ETF(513100)报收1.848元,收跌3.09%,成交金额11.69亿元。换...
华安基金的德国ETF(5130... 11月21日,德国ETF(513030)报收1.803元,收跌2.01%,成交金额6321.8万元。...