当前位置:首页 > 哈佛谷歌联手,百万公共领域书籍助力AI训练!
哈佛谷歌联手,百万公共领域书籍助力AI训练!
作者:经典软件园 发布时间:2024-12-13

近日,哈佛大学携手谷歌在AI领域迈出了重要一步,他们宣布将联合发布一个规模庞大的数据集,包含约100万本公共领域的书籍。这一举措旨在为AI训练提供丰富且合法的数据源。

据悉,AI训练所需的数据成本高昂,往往让资金有限的机构望而却步。然而,哈佛大学此次推出的数据集,将覆盖多种类型、语言和作者的作品,其中包括许多经典作家的名著,如狄更斯、但丁和莎士比亚等人的作品。这些作品的版权已随时间流逝而过期,因此可以被自由使用。

值得注意的是,早在今年3月,哈佛大学就已透露了其“机构数据计划(IDI)”,旨在构建一个合法且可信的数据通道,以支持AI的发展。该计划直到正式启动后,才确认了微软和OpenAI的资金支持。

作为IDI的执行董事,格雷格·莱佩特表示,这一数据集的目标是让AI领域的竞争环境更加公平。通过向研究机构、AI初创公司等各类机构开放这一庞大的数据集,他们将有更多机会训练出大型语言模型,从而推动AI技术的进一步发展。