此前在去年夏季,谷歌前任CEO埃里克・施密特在斯坦福大学进行的演讲中宣称,AI公司可以先通过AI工具盗取知识产权,然后再雇佣律师来处理法律纠纷。本以为这只是互联网老炮故作惊人之语,可没想到一众AI厂商将这当真了。
过去一年间,AI厂商通过各种各样的手段从版权所有者手中获取数据的行为,几乎成为了业界的通行做法,并且绝大多数AI厂商都不愿为数据(语料)支付合理费用,由此版权方与AI厂商在全球范围内也掀起了大量的诉讼。眼看着“晋西北打成一锅粥”,微软方面就准备围绕数据建立一套新的秩序。
近日有爆料称,微软正在与部分美国出版商洽谈试点计划,旨在构建双边市场,让版权方与AI厂商可以围绕数据进行自由交易。据悉,微软自己的Copilot AI助手将作为“小白鼠”,版权方可向微软销售其内容,微软也在尝试将该计划涵盖到其他AI产品。
相关消息显示,微软在相关演示文稿中宣称,“你值得根据你的知识产权质量获得报酬”。据称,未来微软围绕数据的货币化系统将基于PCM(Price-Cost Margin Model)定价模型,以确保数据定价的公平性。
微软这招,堪称是巨头利用体量优势遏制初创公司无解的阳谋,因为AI初创公司虽然往往有技术,可是却缺少数据。
以往AI初创公司以不合规方式获取数据背后的理论基础,是行业惯例的“合理使用”。美国最高法院在著名的Campbell v. Acuff-Rose Music案中确立了一个重要原则,即如果一种使用方式从根本上改变了原作品的目的或性质,那么这种使用很可能被视为合理使用。
在AI行业看来,AI大模型的运行模式确实从根本上改变了原作品的性质。不仅如此,AI厂商还普遍认同“著作权法保护的是表达,而非思想、方法而非功能。AI训练提取的恰恰是思想和功能,而非具体表达”,因此他们使用爬虫等技术手段获取版权方的内容时堪称是心安理得。
与此同时,从xAI的Gork-4到OpenAI的GPT-5、再到阿里的Qwen3-Max,已经从不同的维度反应了Scaling laws(尺度定律)并未失效,只是数据获取的难度变得比以往更高了。换而言之,增加计算量、模型参数和数据集大小来提升大语言模型的智能水平依然可行,只不过这个模式的经济性已经断崖式下降。
“AI的训练数据如同化石燃料一样面临着耗尽的危机”确实是事实,可业界深信AGI(通用人工智能)能够在数据被消耗殆尽前完成。所以从思想层面到现实,“偷数据”也就成为了整个AI业界心照不宣的潜规则。可问题是,AI厂商利用技术优势低成本获取数据,作为“受害者”的版权方自然就不乐意了。
尽管在AIGC这个概念问世之前,版权方确实不知道内容还可以被用于训练AI,以至于OpenAI等先行者实实在在享受了先发红利。可等到这一轮AI革命爆发,AI厂商的估值如同坐火箭般上涨,版权方就赫然发现,这一块蛋糕居然没有自己的份。
由于技术水平存在巨大差异,版权方面对AI爬虫时几乎无计可施,可偏偏AI革命又是各国聚焦的新兴赛道,指望通过监管大棒来遏制AI厂商偷窃数据的行为并不现实。所以当下摆在版权方面前的局面相当恶劣,因为从技术到监管都对他们不利。这时候微软站出来,说要建立一个AI厂商和版权方的交易市场,无疑就是雪中送炭了。
从某种意义上来说,微软试图建立的数据交易市场是一个堪比谷歌Google Ads生态的创举。当然,微软的这个想法虽然很好,但要建立一套能运行的AI语料交易机制也不容易,因为一般的数据和AI需要的语料并不完全等价。常规的数据往往指的是用户的地址、手机号、购物记录等标准化的信息,而语料则是文章、图片、视频、聊天记录。
比如同样一张1024x1024分辨率的图片,知名大拿和业界新丁的作品价码肯定不一样;同样一篇3000字左右的文章,出自《华尔街日报》和本地三流小报也不可同日而语。目前互联网行业对于内容的评价体系是基于流量打造,也就是用户越爱看的内容越值钱。
可同一套评价体系却无法直接嫁接到AI领域,毕竟人与人评价同一事物尚且会因文化、教育背景的区别导致差异,就更遑论AI了。这也是为什么在微软之前,全球知名内容分发网络(CDN)服务商Cloudflare也宣称要为AI厂商和版权方建立一个交易平台,却至今还没有下文的原因。
其实付费不是问题,但如何付费才是关键,因为AI厂商也怕版权方狮子大开口。以至于,当下AI厂商购买内容授权时往往是单对单,一家一家地谈。例如从2023年开始,AI行业的领头羊OpenAI就陆续与美联社、施普林格、新闻集团、卫报传媒集团等出版商达成合作,付费获取后者的新闻、图像、视频等数据。
微软的想法则是建立一个统一大市场,可内容质量的量化以及随之而来的定价却是难题。AI模型的训练确实高度依赖语料的质量,但当下AI模型的参数规模已经达到了万亿水平,到底其中的哪些内容贡献了效果,根本就没人能说得清。
简而言之,微软口中“知识产权质量获得报酬”模式其实存在大量的模糊地带。如果他们不能提出一条标准化的计量体系,AI语料的货币化系统,恐怕就不是短时间就能建立起来的。
上一篇:中国中车斩获543亿重大合同