原创 微软出手“立规矩”,AI公司不能白拿数据
创始人
2025-09-30 00:11:11
0

此前在去年夏季,谷歌前任CEO埃里克・施密特在斯坦福大学进行的演讲中宣称,AI公司可以先通过AI工具盗取知识产权,然后再雇佣律师来处理法律纠纷。本以为这只是互联网老炮故作惊人之语,可没想到一众AI厂商将这当真了。

过去一年间,AI厂商通过各种各样的手段从版权所有者手中获取数据的行为,几乎成为了业界的通行做法,并且绝大多数AI厂商都不愿为数据(语料)支付合理费用,由此版权方与AI厂商在全球范围内也掀起了大量的诉讼。眼看着“晋西北打成一锅粥”,微软方面就准备围绕数据建立一套新的秩序。

近日有爆料称,微软正在与部分美国出版商洽谈试点计划,旨在构建双边市场,让版权方与AI厂商可以围绕数据进行自由交易。据悉,微软自己的Copilot AI助手将作为“小白鼠”,版权方可向微软销售其内容,微软也在尝试将该计划涵盖到其他AI产品。

相关消息显示,微软在相关演示文稿中宣称,“你值得根据你的知识产权质量获得报酬”。据称,未来微软围绕数据的货币化系统将基于PCM(Price-Cost Margin Model)定价模型,以确保数据定价的公平性。

微软这招,堪称是巨头利用体量优势遏制初创公司无解的阳谋,因为AI初创公司虽然往往有技术,可是却缺少数据。

以往AI初创公司以不合规方式获取数据背后的理论基础,是行业惯例的“合理使用”。美国最高法院在著名的Campbell v. Acuff-Rose Music案中确立了一个重要原则,即如果一种使用方式从根本上改变了原作品的目的或性质,那么这种使用很可能被视为合理使用。

在AI行业看来,AI大模型的运行模式确实从根本上改变了原作品的性质。不仅如此,AI厂商还普遍认同“著作权法保护的是表达,而非思想、方法而非功能。AI训练提取的恰恰是思想和功能,而非具体表达”,因此他们使用爬虫等技术手段获取版权方的内容时堪称是心安理得。

与此同时,从xAI的Gork-4到OpenAI的GPT-5、再到阿里的Qwen3-Max,已经从不同的维度反应了Scaling laws(尺度定律)并未失效,只是数据获取的难度变得比以往更高了。换而言之,增加计算量、模型参数和数据集大小来提升大语言模型的智能水平依然可行,只不过这个模式的经济性已经断崖式下降。

“AI的训练数据如同化石燃料一样面临着耗尽的危机”确实是事实,可业界深信AGI(通用人工智能)能够在数据被消耗殆尽前完成。所以从思想层面到现实,“偷数据”也就成为了整个AI业界心照不宣的潜规则。可问题是,AI厂商利用技术优势低成本获取数据,作为“受害者”的版权方自然就不乐意了。

尽管在AIGC这个概念问世之前,版权方确实不知道内容还可以被用于训练AI,以至于OpenAI等先行者实实在在享受了先发红利。可等到这一轮AI革命爆发,AI厂商的估值如同坐火箭般上涨,版权方就赫然发现,这一块蛋糕居然没有自己的份。

由于技术水平存在巨大差异,版权方面对AI爬虫时几乎无计可施,可偏偏AI革命又是各国聚焦的新兴赛道,指望通过监管大棒来遏制AI厂商偷窃数据的行为并不现实。所以当下摆在版权方面前的局面相当恶劣,因为从技术到监管都对他们不利。这时候微软站出来,说要建立一个AI厂商和版权方的交易市场,无疑就是雪中送炭了。

从某种意义上来说,微软试图建立的数据交易市场是一个堪比谷歌Google Ads生态的创举。当然,微软的这个想法虽然很好,但要建立一套能运行的AI语料交易机制也不容易,因为一般的数据和AI需要的语料并不完全等价。常规的数据往往指的是用户的地址、手机号、购物记录等标准化的信息,而语料则是文章、图片、视频、聊天记录。

比如同样一张1024x1024分辨率的图片,知名大拿和业界新丁的作品价码肯定不一样;同样一篇3000字左右的文章,出自《华尔街日报》和本地三流小报也不可同日而语。目前互联网行业对于内容的评价体系是基于流量打造,也就是用户越爱看的内容越值钱。

可同一套评价体系却无法直接嫁接到AI领域,毕竟人与人评价同一事物尚且会因文化、教育背景的区别导致差异,就更遑论AI了。这也是为什么在微软之前,全球知名内容分发网络(CDN)服务商Cloudflare也宣称要为AI厂商和版权方建立一个交易平台,却至今还没有下文的原因。

其实付费不是问题,但如何付费才是关键,因为AI厂商也怕版权方狮子大开口。以至于,当下AI厂商购买内容授权时往往是单对单,一家一家地谈。例如从2023年开始,AI行业的领头羊OpenAI就陆续与美联社、施普林格、新闻集团、卫报传媒集团等出版商达成合作,付费获取后者的新闻、图像、视频等数据。

微软的想法则是建立一个统一大市场,可内容质量的量化以及随之而来的定价却是难题。AI模型的训练确实高度依赖语料的质量,但当下AI模型的参数规模已经达到了万亿水平,到底其中的哪些内容贡献了效果,根本就没人能说得清。

简而言之,微软口中“知识产权质量获得报酬”模式其实存在大量的模糊地带。如果他们不能提出一条标准化的计量体系,AI语料的货币化系统,恐怕就不是短时间就能建立起来的。

相关内容

最新资讯

马克龙承认巴勒斯坦国背后,席卷... 2025年9月22日,马克龙在联合国宣布法国正式承认巴勒斯坦国。当天法国媒体被这条新闻刷屏。尽管法国...
执政搭档向高市早苗提强硬要求:... 虽然高市早苗当选了日本自民党总裁,但是她能否顺利当选首相还有悬念。自民党的执政搭档公民党向高市早苗提...
安卓系统禁止安装app,揭秘禁... 最近发现了一个让人头疼的小问题,那就是安卓系统突然开始禁止安装某些APP了!这可真是让人摸不着头脑,...
“映像长江”电影周戏剧电影交流... 湖北日报讯(记者孙凌、通讯员叶彪)2025长江文化艺术季“映像长江”电影周戏剧电影交流展映系列活动将...
一个人毁一部剧!《沉默的荣耀》... 文案|一十三编辑|苏打水太久没有看到这样一部高开暴走的谍战剧了。《沉默的荣耀》首日收视率即破3,收视...
不会演别尬演!《沉默的荣耀》女... 文案|小茗编辑|阿良当下国剧市场又一次挽救了观众们的剧荒情况,多部不同题材的新剧正在热播,总有一部可...
谍战剧又出王炸!才播2集就炸了... 在谍战剧的世界里,英雄往往是西装笔挺、步伐铿锵的男人,他们智斗敌人、潜伏敌营,似乎“间谍”二字天生与...
网易安卓系统与ios系统互通吗... 你有没有想过,手机上的那些应用,是不是也能在安卓和iOS两个系统之间自由穿梭呢?今天,就让我来给你揭...
以军正为全面撤出加沙做准备 当地时间10月9日,据以色列陆军电台消息,以军加沙地带作战部队正在为未来几天全面撤出或转移至后方阵地...