OpenAI未能实现创作者的作品可被排除在AI训练数据-AI下载站

OpenAI未能实现创作者的作品可被排除在AI训练数据

五月的时候，OpenAI 曾表示正在开发一种工具，让创作者可以指定他们的作品如何被纳入或排除在其人工智能训练数据之外。但七个月后，这个功能仍未实现。这个工具被称为 Media Manager，OpenAI 当时表示，它将“识别受版权保护的文本、图像、音频和视频”，以反映创作者在“多个来源”中的偏好。

它旨在抵挡该公司一些最激烈的批评，并有可能使 OpenAI 免受与知识产权相关的法律挑战。但熟悉情况的人士告诉 TechCrunch，该工具在内部很少被视为一次重要的发布。“我认为这不是优先事项，”一位前 OpenAI 员工说。“说实话，我不记得有任何人在做这个。” 一位与该公司合作的非员工在 12 月告诉 TechCrunch，他们过去曾与 OpenAI 讨论过这个工具，但最近没有任何更新。（这些人拒绝在讨论机密商业事务时公开身份。）

OpenAI 法律团队中负责 Media Manager 的成员弗雷德·冯·洛曼（Fred von Lohmann）在 10 月转任兼职顾问。OpenAI 公关部门通过电子邮件向 TechCrunch 证实了冯·洛曼的变动。 OpenAI 尚未提供 Media Manager 进展的更新，并且该公司错过了自己设定的在“2025 年之前”推出该工具的最后期限。（需要明确的是，“2025 年之前”可以理解为包括 2025 年，但 TechCrunch 将 OpenAI 的表述解释为在 2025 年 1 月 1 日之前。）

知识产权问题像 OpenAI 这样的人工智能模型在数据集中学习模式以进行预测——例如，一个人咬汉堡会留下咬痕。这在一定程度上使模型能够通过观察来了解世界的运作方式。ChatGPT 可以写出令人信服的电子邮件和文章，而 OpenAI 的视频生成器 Sora 可以创建相对逼真的镜头。利用写作、电影等示例来生成新作品的能力使人工智能变得极其强大。但它也有重复的问题。

在特定的提示下，模型——其中大多数是在无数网页、视频和图像上进行训练的——会生成这些数据的近乎副本，尽管这些数据是“公开可用的”，但并不意味着可以这样使用。例如，Sora 可以生成带有 TikTok 标志和流行电子游戏角色的片段。《纽约时报》让 ChatGPT 逐字引用其文章（OpenAI 将这种行为归咎于“黑客攻击”）。这可以理解地让那些作品在未经他们许可的情况下被卷入人工智能训练的创作者感到不安。许多人已经聘请了律师。

OpenAI 正在应对由艺术家、作家、YouTuber、计算机科学家和新闻机构提起的集体诉讼，他们都声称这家初创公司非法使用他们的作品进行训练。原告包括作家莎拉·西尔弗曼（Sarah Silverman）和塔·内西斯·科茨（Ta Nehisi-Coates）、视觉艺术家以及《纽约时报》和加拿大广播公司等媒体集团等等。 OpenAI 已经与一些选定的合作伙伴达成了许可协议，但并非所有创作者都认为这些条款有吸引力。

管理媒体 OpenAI 为创作者提供了几种临时的方法来“选择退出”其人工智能训练。去年 9 月，该公司推出了一个提交表单，允许艺术家标记他们的作品以便从其未来的训练集中删除。OpenAI 长期以来一直允许网站管理员阻止其网络爬虫机器人在他们的域中抓取数据。但创作者批评这些方法是随意的且不足够的。对于书面作品、视频或音频记录没有特定的退出机制。并且图像的退出表单需要提交要删除的每张图像的副本以及描述，这是一个繁重的过程。 Media Manager 被宣传为对 OpenAI 目前的退出解决方案的全面改造和扩展。

在 5 月的公告帖子中，OpenAI 表示 Media Manager 将使用“前沿的机器学习研究”，使创作者和内容所有者能够“告诉[OpenAI]他们拥有什么”。OpenAI 声称在开发该工具时正在与监管机构合作，并表示希望 Media Manager 能够“为人工智能行业设定一个标准”。从那以后，OpenAI 从未公开提及过 Media Manager。一位发言人在 8 月告诉 TechCrunch，该工具“仍在开发中”，但在 12 月中旬没有回应后续的评论请求。

OpenAI 没有给出 Media Manager 可能推出的时间——甚至也没有给出它可能推出的功能和能力。合理使用假设 Media Manager 在某个时候确实推出了，专家们并不相信它会减轻创作者的担忧——或者对解决围绕人工智能和知识产权使用的法律问题有很大作用。 Stubbs Alderton & Markiles 的知识产权律师阿德里安·赛汉（Adrian Cyhan）指出，所描述的 Media Manager 是一项雄心勃勃的事业。

即使像 YouTube 和 TikTok 这样大的平台在大规模内容识别方面也存在困难。OpenAI 真的能做得更好吗？ “确保遵守法律要求的创作者保护和正在考虑的潜在赔偿要求带来了挑战，”赛汉告诉 TechCrunch，“特别是考虑到国家和地方司法管辖区的法律环境快速演变且可能存在差异。” Fairly Trained 的创始人埃德·牛顿 - 雷克斯（Ed Newton-Rex）认为，Media Manager 会不公平地将控制人工智能训练的负担转移到创作者身上；如果不使用它，他们可以说就是默许他们的作品被使用。“大多数创作者甚至永远不会听说它，更不用说使用它了，”他告诉 TechCrunch。“但它仍将被用来为违背创作者意愿的对创造性作品的大规模利用进行辩护。” MBHB 人工智能实践小组的联合**迈克·博雷拉（Mike Borella）指出，退出系统并不总是考虑到对作品可能进行的转换，例如被下采样的图像。

Pryor Cashman 的知识产权和媒体律师约书亚·魏根斯伯格（Joshua Weigensberg）补充说，它们也可能无法解决第三方平台托管创作者内容副本这种非常常见的情况。 “创作者和版权所有者无法控制，并且常常甚至不知道他们的作品在互联网上的何处出现，”魏根斯伯格说。“即使创作者告诉每一个人工智能平台他们选择退出训练，这些公司仍可能继续在第三方网站和服务上可用的他们作品的副本上进行训练。”

从法律角度来看，Media Manager 对 OpenAI 可能也不是特别有利。专门从事版权法的 Dorsey & Whitney 合伙人埃文·埃弗里斯特（Evan Everist）表示，虽然 OpenAI 可以使用该工具向法官表明它正在减轻对受知识产权保护内容的训练，但如果发现 OpenAI 侵权，Media Manager 可能无法保护该公司免受损害。 “版权所有者没有义务在侵权发生之前主动告诉他人不要侵犯他们的作品，”埃弗里斯特说。“版权法的基本原则仍然适用——即未经许可不得获取和复制他人的东西。这个功能可能更多的是关于公关，并将 OpenAI 定位为一个有道德的内容使用者。” 清算在没有 Media Manager 的情况下，OpenAI 已经实施了过滤器——尽管不完善——以防止其模型重复训练示例。

在它正在应对的诉讼中，该公司继续声称享有合理使用保护，声称其模型创建的是具有变革性而非剽窃性的作品。 OpenAI 很可能在其版权纠纷中获胜。法院可能会根据大约十年前出版业对谷歌提起的诉讼所确立的先例，判定该公司的人工智能具有“变革性目的”。在那个案例中，法院认为谷歌为 Google Books（一种数字档案）复制数百万本书是允许的。 OpenAI 曾公开表示，如果不使用受版权保护的材料——无论是否获得授权——就“不可能”训练出有竞争力的人工智能模型。“将训练数据限制在一个多世纪前创作的公共领域书籍和绘画上可能会产生一个有趣的实验，但不会提供满足当今公民需求的人工智能系统，”该公司在 1 月提交给英国上议院的文件中写道。如果法院最终宣布 OpenAI 胜诉，Media Manager 将不会有太大的法律用途。OpenAI 似乎愿意打这个赌——或者重新考虑其退出策略。

OpenAI未能实现创作者的作品可被排除在AI训练数据

点击排行榜

近期热点

本类最新