斯坦福报告:AI透明度集体倒退!IBM夺冠,马斯克xAI垫底
创始人
2025-12-16 23:19:37
0

最近,美国斯坦福大学等团队发布了一份名为《2025 年基础模型透明度指数》(FMTI,The 2025 Foundation Model Transparency Index)的报告。其中,IBM 以透明度得分最高夺冠,xAI 和 Midjourney 则垫底。

该报告揭示了一种令人担忧的趋势:随着技术的发展,尽管基础模型在性能等各方面持续进步,但其在数据使用、模型训练和下游影响等方面的透明度却出现了集体倒退。

这是该报告自 2023 年以来发布的第三个年度版本,就像通过量化透明度为各大基础模型开发者做一次“体检”。

本次评估共包括 13 家基础模型公司,其中既有阿里巴巴、DeepSeek 和马斯克的 xAI 等首次纳入报告的企业,也有 IBM、OpenAI 等老牌科技巨头。为使评估更全面,今年的报告中还涵盖了数据获取、使用数据和监控等方面的新指标。

(来源:The 2025 Foundation Model Transparency Index)

从报告的整体结果来看,尽管 2024 年报告显示模型透明度有短暂的改善,但 2025 年的报告指出,透明度指数正呈现倒退:各基础模型的平均得分从 2024 年的 58 分下降到 2025 年的 40 分,几乎与 2023 年报告首次发布时的水平相当(备注:100 分为满分)。

报告显示,公司在其旗舰模型的训练数据、训练计算以及模型部署后的使用和影响方面信息披露最为有限。尽管公司在模型能力评估和风险评估方面披露较多,但在方法透明度、第三方参与、可复现性和训练-测试数据重叠报告方面仍存在挑战。

(来源:The 2025 Foundation Model Transparency Index)

从各公司的表现来看差异明显,其中 IBM 以 95 分获得透明度最高得分,xAI 和 Midjourney 得分最低,仅 14 分。中国的两家公司 DeepSeek 和阿里巴巴在透明度的得分则位于中下游。

可以看到的是,公司特征和透明度指数在某些程度上存在着一些有趣的关联,例如开放模型开发者、以企业为中心的 B2B 公司、自行准备透明度报告的公司以及签署欧盟 AI 法案通用目的 AI 行为准则的公司得分高于平均水平。

(来源:The 2025 Foundation Model Transparency Index)

那么,透明度越高就意味着模型越好吗?

清华大学邱寒副教授告诉 DeepTech,“这里的透明度不等同于我们常识认为的开源,而是由一系列明确的打分表组成的量化指标——如果不按照这个指标披露相关的数据(而不是什么都没披露),那么这项指标得分就是 0。”

以阿里巴巴 Qwen 和 DeepSeek 得分均为 0 的使用数据、影响、部署后监控三项指标为例:它们都各自含有更详细的评测指标,得分为 0 并不等于什么都没有披露,而这些计算指标的方法与开源、安全、性能并不能直接划等号。

需要了解的是,透明或开源也并不意味着模型性能更好。从这份报告来看,透明度得分最高的模型(IBM 的 Granite 3.3),在实际应用场景种的性能表现并不是最顶尖的那批模型。

试想一下,如果有一个任务要做,你是会去选择微调 Qwen3 或 Claude 的 API,还是会因为透明度得分更高而选择 Granite 3.3?

邱寒认为,透明度是安全的前提,但必须明确不一定是报告中定义的透明:如果公司拒绝披露任何模型生产相关的信息,比如版权内容、隐私数据的滥用确实难以发掘和确认;模型的偏见和价值观更难评测,确实会给安全和治理带来一定的影响。更糟的是,一旦严重安全事故发生,还可能引发更粗暴的安全监管策略落地,反而进一步限制了大模型技术的进步。

该报告提到,随着全球政策制定者越来越多地要求某些类型的透明度,这项工作揭示了基础模型开发者的当前透明度状态,透明度可能如何变化,以及需要更积极的政策干预来解决哪些关键信息问题。

正如邱寒所指出的那样,黑盒模型的评测技术可以在一定程度上弥补不透明的问题,而当前的透明与否也只是暂时状态。随着模型落地的深化和监管机制的完善,最终目标是“公司不需完全公开,但模型行为可测、声明可证、安全可控”。

总之,表面上看公司信息披露程度影响透明度,但本质上这需要一种权责归属的清晰界定。通过这份报告对透明度倒退的警示,我们需要看到,未来需要构建一种综合的激励机制,来理解、评估并最终确保模型的安全与可信。

参考资料:

https://arxiv.org/abs/2512.10169

运营/排版:何晨龙

相关内容

最新资讯

黔东南州多向发力促进高校毕业生... 黔东南州认真贯彻落实中央、省关于促进高校毕业生等青年群体就业创业部署,通过系统性拓岗、精准化服务、全...
内塔尼亚胡怕了? 11月的最后一天,以色列总理内塔尼亚胡向总统赫尔佐格递交了一份111页的赦免申请。更引人注目的是,内...
文化新观察·年度文化亮点|中国... 这个冬天,电影市场热度不减。《得闲谨制》《疯狂动物城2》等多部影片上映,助力贺岁档票房持续上涨,更推...
暖冬送岗!鄂托克旗这场招聘会促... 为扎实推进就业促进行动,精准服务未就业高校毕业生、就业困难人员、广大农民工等劳动者就业需求,满足企业...
长盈精密:收购威线科布局AI算... 证券之星消息,长盈精密(300115)12月18日在投资者关系平台上答复投资者关心的问题。 投资者提...
台北发生随机砍人事件致2死7伤... 据台北市消防部门消息,台北车站和捷运中山站的随机伤人事件已造成包括行凶者在内2死7伤。中山站附近的南...
人民日报:别让儿童智能手表变成... 人民日报客户端 王彬拍照、聊天、发朋友圈、玩游戏……近年来,儿童智能手表的功能越来越丰富,早已突破了...
老人故意放火致山林被毁被判11... 2025年12月19日,惠水县人民法院依法公开审理被告人杨光林放火罪一案,并当庭作出判决。公诉机关指...
【音乐考研】2025年华中师范... (点击下方书名,即可购书) 最懂华中师范大学音乐考研的团队 · · (扫码联系老师,免费试听华中师范...
真题·临汾、晋中2024年中小... 临汾市2024年中小学高级评审讲课(面试)讲课内容(根据参考教师回忆不全面) 2025年10月18日...