哈佛与谷歌联手发布百万公版书AI训练数据集
创始人
2026-05-27 21:00:04
0

AI训练数据的成本极为高昂,通常只有财力雄厚的科技巨头才能负担。正因如此,哈佛大学计划发布一个涵盖约100万册公版书籍的数据集,内容横跨多种类型、语言及作者,包括狄更斯、但丁和莎士比亚等因年代久远而已不受版权保护的经典作品。

这一数据集目前尚未正式发布,具体发布时间与方式也尚未明确。但可以确认的是,该数据集中的书籍来源于谷歌长期推进的图书数字化项目——谷歌图书(Google Books),因此谷歌也将参与将这一"珍贵资源库"向各界广泛开放的工作。

哈佛大学早在今年3月便率先透露了"机构数据倡议"(Institutional Data Initiative,简称IDI)的相关计划,表示将打造一个"为AI提供合法数据的可信渠道"。此后该项目鲜有消息,直至今日正式宣布启动,并确认微软与OpenAI已为IDI提供资金支持。

IDI执行主任格雷格·莱珀特(Greg Leppert)表示,这一数据集的设计初衷是通过向所有人开放如此庞大的资源——无论是研究机构还是AI初创公司——来"打造公平竞争的环境",让更多主体得以训练自己的大语言模型。

Q&A

Q1:哈佛机构数据倡议(IDI)发布的数据集包含哪些内容?

A:该数据集涵盖约100万册公版书籍,横跨多种文学类型、语言及作者,包括狄更斯、但丁、莎士比亚等经典作家的作品。这些书籍因年代久远已不受版权法保护,书目来源于谷歌长期推进的谷歌图书数字化项目。

Q2:哈佛IDI数据集目前可以使用了吗?

A:目前该数据集尚未正式对外发布,具体的发布时间与获取方式也尚不明确。哈佛大学与谷歌将共同参与后续的发布工作,有意向的研究机构和AI企业可持续关注官方动态。

Q3:哈佛IDI数据集的发布对AI初创公司有什么意义?

A:AI训练数据成本极高,通常只有大型科技公司才能承担。IDI数据集的发布旨在"打造公平竞争的环境",让资金有限的研究机构和AI初创公司也能获取大规模高质量的训练数据,用于训练自己的大语言模型,从而降低行业门槛。

相关内容

最新资讯

哈佛与谷歌联手发布百万公版书A... AI训练数据的成本极为高昂,通常只有财力雄厚的科技巨头才能负担。正因如此,哈佛大学计划发布一个涵盖约...
乐刷支付申请基于标签树的AI辅... 国家知识产权局信息显示,乐刷支付科技有限公司申请一项名为“基于标签树的AI辅助工具的评估方法及系统”...
@家长和考生 中高考临近,发现... 湖北日报全媒记者 汪子轶 通讯员 郭姗姗 2026年中高考进入倒计时,某些商家也开始“摩拳擦掌”了…...
安康成人教育学历提升官方教学点... 安康成人教育学历提升 官方教学点2026年招生简章 前言 成人高等教育属于国民教育系列,列入国家招生...
Ignite与OST携手攻克自... 随着英国监管机构开放自动驾驶出租车、公共汽车及网约车的运营申请,Forvia Hella旗下可扩展软...
“中方一旦发现,美国在日本部署... 【文/观察者网 熊超然】根据日本共同社上周所报道的说法,美军预计将于下个月在日本西南部部署“堤丰”(...
京东外卖首发AI一键复购外卖功... 上证报中国证券网讯(记者 刘暄)京东外卖在5月25日举行的荣耀600系列新品发布会上官宣AI一键复购...
玉湖冷链(襄阳)交易中心试营业... 荆楚网(湖北日报网)讯(记者 王懿 通讯员 徐琦 张沛)5月27日,玉湖冷链(襄阳)交易中心启动试营...
护航首都物流高地提速发展——平... 物流是经济循环发展的重要血脉,平谷区作为陆港型国家物流枢纽承载地,正全力推动物流高地建设,打造联通国...
宝鼎科技:公司无AI覆铜板 未... 宝鼎科技:公司无AI覆铜板未发现在AI服务器及算力领域应用 人民财讯5月26日电,宝鼎科技(0025...