原创 抗争起效,AI大厂终于不再白嫖维基百科
创始人
2026-01-18 20:47:11
0

AI大厂终于意识到继续与内容平台对抗是条不归路。就在全球最知名的百科全书网站维基百科(Wikipedia)庆祝25周年之际,负责运营维基百科的维基媒体基金会方面宣布,亚马逊、Meta、微软、Mistral AI以及Perplexity等多家AI大厂加入“维基媒体企业合作伙伴计划”(Wikimedia Enterprise)。

因此也就意味着,这些厂商将付费获取维基百科的“企业级数据访问权”,以获取这家百科全书网站的实时数据。而维基媒体企业合作伙伴计划则会根据他们的特定需求,对维基百科海量的文章数据进行结构化处理,使其更易于模型训练和商业用途。对此维基媒体基金会表示,来自亚马逊、微软等厂商的授权费用将直接用于支持该非营利组织的长期运营。

简而言之,维基百科将旗下的数据资产整理成AI更易懂的形式,以方便AI厂商即拿即用。

在AI大模型的训练中,结构化数据以其固有的清晰度、一致性和效率,成为了构建可靠且可扩展AI大模型的关键。尤其是那些用于分类、回归和预测等任务的模型,结构化数据更是必不可少。

比如在金融大模型中,交易金额、交易时间、交易类型等结构化的交易记录,就可以作为模型的输入特征,帮助AI学习和识别风险模式,从而提升输出结果的稳定性。不仅如此,结构化数据与知识图谱之间存在天然的协同关系,通过将两者结合,AI大模型就可以更准确地理解数据的上下文和语义。

而维基百科之所以要向AI厂商提供结构化数据的访问权,是因为后者的爬虫已经成为了这家非营利组织的梦魇。维基媒体基金会产品高级总监Marshall Miller此前在博客文章中表示,“使用维基百科内容的AI聊天机器人必须引导更多用户访问维基百科,确保免费知识能够持续流通。访问量下降就意味着志愿者可能减少,内容更新和丰富的速度放缓,个人捐赠者对这项工作的支持也可能下降。”

为了保证内容的可访问性,维基媒体基金会针对维基百科的内容采取了分布式存储,然后根据一定的策略分配到不同的存储节点,使得数据可以就近存储,从而提高访问速度和效率。当某个内容被多次请求时,他们就会将内容缓存到离用户最近的数据中心,倘若某个内容很久都未被请求,那么就会存储在核心数据中心。

根据内容的热度存储数据,就使得维基百科能够尽可能地节省服务器开支。然而人类的偏好与AI截然不同,人类更关心时下的热点,而AI追求的是进化,后者倾向于囫囵吞枣式鲸吞所有数据。内容的热度对AI毫无意义,就意味着维基百科认为的冷门内容也会被频繁访问,也就是说AI比人类访客更能消耗宝贵的带宽。

其实维基百科想要找这些AI厂商要钱不难理解,可后者为何会在这个时间点选择付钱呢?过去三年,因AI爬虫抓取数据而引发的诉讼可谓比比皆是,AI厂商更是一直在“白嫖”内容平台,甚至宁可打官司也不愿付钱。如今,这些厂商的想法却出现了180度的大转弯。

AI大厂之所以愿意向维基百科付钱,是因为他们不希望看到维基百科倒下。AI行业一直存在一个悖论,那就是如何在不依赖于人类提供的大量训练数据的情况下,让AI变得更智能?这就好比要求一个旱鸭子横渡长江,却不给TA配游泳教练。

目前,构建AI大模型的关键技术是基于人类反馈的强化学习(RLHF),不仅依赖人类标注员,更需要持续向大模型投喂数据。就像培养一个优秀学生需要优质教师一样,大模型的性能提升需要海量的预训练数据和高质量的指令微调/强化学习数据。

在跳出RLHF模式之前,AI大模型的进化就需要汲取人类的智慧,还做不到在完全没有外部数据的情况下实现自我进化。谷歌、微软、亚马逊、Meta已经意识到一味向内容平台单方面索取会导致人类创作者降低输出内容的热情,如果没有广大创作者在互联网上分享内容,难道要他们亲自上阵?

虽然目前已经有团队基于强化学习中的“自我博弈”(Self-Play)开始探索“无数据自我进化”,也就是AI给自己出题、自己解题、再从中学习,如此循环往复,来让AI变得更聪明。但问题是由于没有来自外部的“标准答案”,评估每一个自生成问题的难度和可解性都需要让大模型实际解答,整个过程就如同反复试错的穷举法,极其耗费时间和算力。

换而言之,AI的无数据自我进化尽管省去了获取外部数据的成本,却不得不面临预训练算力激增以及模型迭代需要更多时间。对于大厂而言,算力可能不是问题,但他们缺时间。以OpenAI为例,在CEO山姆·奥特曼宣布进入红色警报(Code Red)状态,推迟非核心项目应对谷歌Gemini的强势反扑后,只花1个月时间就拿出了GPT-5.2。

当下AI业界的状态是“争先恐后”,没有哪家厂商敢于慢工出细活。当不需要外部训练数据的方法还有暂时解决不了的缺陷时,AI厂商就不得不回过头来与维基百科这种拥有高质量数据的平台和解。万一维基百科选择躺平摆烂,就该AI厂商头疼了。

更何况出钱从维基百科买数据反而更有性价比,毕竟AI厂商宝贵的人力资源要用于升级算法,让自家员工创作内容才是大材小用。

相关内容

最新资讯

沉稳而优雅的力量,回到1971... 1971年的奔驰280 SE不是那种用夸张曲线或张扬性能去吸引眼球的车;它像一位穿着剪裁得体燕尾服的...
别克MPV“破局者”,车长5.... 别看别克在MPV市场还有着销量不错的GL8,但是在高端MPV界却没有一个销量同样拿得出手的拳头产品,...
基于全新PPC平台打造,全新奥... 在刚过去的12月份里,奥迪A6L月销达到了19138辆,远远超过同级的E级和5系,是奥迪卖得最好的车...
奥迪“掀桌子”了!入门就是可变... 不得不说,奥迪Q5L依然是奥迪旗下目前最受追捧的SUV(没有之一),根据上个月,也就是9月的最新数据...
奔驰 S 级:旗舰轿车的天花板... 奔驰S级:旗舰轿车的天花板,奢华感与科技感拉满 在豪华轿车领域,奔驰S级始终是无可争议的标杆。自1...
大众“不讲武德”,5.3米配感... 虽然限时指导价19.99万的大众威然已经上市,但在MPV市场上还是被丰田赛那压着一头,甚至连本田奥德...
奔驰 GLA:跨界紧凑型 SU... 奔驰GLA:跨界紧凑型SUV,年轻时尚的个性之选 在当今汽车市场中,跨界紧凑型SUV凭借其灵活的空...
大众“不宣而战”,从11万降至... 在面对竞品车型的价格战时,大众也是毫不手软,随着速腾、朗逸的出色表现,大众的销量像是坐上了通往高处的...
原创 新... 现在如果是追求比较实用的家用代步用途,自主品牌领域有太多的小尺寸电动代步车型,这些产品用车成本确实很...