loukides1_Stanislav KogikuSOPA ImagesLightRocket via Getty Images_AI Stanislav Kogiku/SOPA Images/LightRocket via Getty Images

可以解决人工智能版权问题

加利福尼亚州,塞巴斯托波——生成型人工智能以不可预见及令人不安的方式拓展了现行版权法的范围。美国版权局最近发布指导意见认定,除非人类创造力进入到生成人工智能图像的提示性指令,否则,人工智能所生成的输出图像不应属于版权保护的范围。但上述规定还留下许多问题。究竟需要多少创造力,它与艺术家用画笔实现的创造力是否是一样的问题?

还有一组案例涉及到文本 (通常是小说和小说家),有人认为,用受到版权保护的材料训练模型本身就是侵犯版权,即使该模型永远也不会在输出部分中复制上述文本。但自书面语言存在以来,人类学习过程就一直包含着阅读文本。我们花钱买书,但我们却无需付费从书中学习。

我们该如何理解这一点?人工智能时代的版权法应当有何意义?技术专家加伦·拉尼尔以其隐含区别模型训练(或“教学”)和使用模型生成输出内容的数据尊严思想给出了一个答案。拉尼尔认为,前者理应受到保护,而输出则确实可能侵犯他人版权。

有几个原因导致相关区别存在吸引力。首先,目前的版权法保护“添加某些新内容的…变革性用途,”显而易见,这恰恰是人工智能模型在做的事。此外,像ChatGPT这样的大规模语言模型(LLMs)并不包含乔治·R.R·马丁的奇幻小说全文并从中进行厚颜无耻地复制和粘贴。

相反,训练过程中所吸收内容的一组庞大参数构成了上述模型,它代表一个词跟在另一个词后面出现的概率。当上述概率引擎做出一首莎士比亚从未写过的莎士比亚体十四行诗时,哪怕这首新十四行诗水平很烂,但此举同样具有变革性。

拉尼尔认为创造更好的模型是种为所有人提供服务的公共产品——甚至就连那些作品被用于训练 AI的作者也包括在内。模型因此值得被保护且具有变革性。但他的数据尊严理念存在一个问题(这一点他也完全承认):很难在“训练”现行的人工智能模型和以小说家杰斯明·沃德的风格“生成输出内容”之间进行有意义的区分。

Secure your copy of PS Quarterly: The Climate Crucible
PS_Quarterly_Q3-24_1333x1000_No-Text

Secure your copy of PS Quarterly: The Climate Crucible

The newest issue of our magazine, PS Quarterly: The Climate Crucible, is here. To gain digital access to all of the magazine’s content, and receive your print copy, subscribe to PS Premium now.

Subscribe Now

人工智能开发者通过进行零散输入并要求模型数十亿次地预测下一个单词来训练模型,并在此过程中,小幅调整参数以改进其预测性。但同样的过程也被用于生成输出,而这本身就是版权问题。

被要求模仿莎士比亚风格写作的模型可能以“To”开头,从而略微增大后面跟上“be”这个单词的可能,之后,“or”将成为稍微更有可能的下一个单词——如此等等。即便如此,仍然不太可能将输出内容反过来联系到训练数据。

“or”这个词从哪里来?虽然它恰巧就是哈姆雷特著名独白中的下一个词,但模型并未模仿哈姆雷特。它仅仅是依据统计数据从本可以选择的数十万个单词当中选择了“or”这个词。这并不是我们人类所认为的创造力。该模型仅仅是在最大化人类认为其输出内容可以理解的概率。

但如何在恰当的情况下补偿作者所创作的作品?尽管可能无法追踪到当前生成型人工智能聊天机器人的来源,但故事并未到此为止。在自ChatGPT发布以来一年左右的时间里,开发者一直在现有基础模型之上构建应用程序。许多人运用检索增强生成功能(RAG)来让人工智能“了解”其训练数据中所没有的内容。如果你需要生成产品目录文本,你可以上传公司数据,而后,将其发送给人工智能模型并附上说明文字:“在结果中只使用此提示中所包含的数据。”

尽管检索增强生成被视为某种在不经过劳动和技能密集型培训的情况下使用专有信息的方式,但它也顺带在模型的响应和创建响应的文档之间建立了联系。这意味着我们现在找到了出处,从而使我们更接近实现拉尼尔有关数据尊严的愿景。

如果我们在书中出版了一位人类程序员的货币转换软件,而且,我们的语言模型在回答问题时复制了这一模型,我们就可以将此举归因于初始来源,并恰当地分配版税。同样的原则也可以适用于模仿沃德的(优秀)作品唱吧!未安葬的魂灵创作的人工智能小说作品。

谷歌的“人工智能概述”就是说明我们对检索增强生成功能期望的很好的例子。因为谷歌已经拥有全世界最好的搜索引擎,其摘要引擎应当能通过运行搜索并将排名靠前的结果输入大规模语言模型生成用户所要求的概述内容来对提示进行响应。模型将提供语言和语法,但它却从提示所包含的文档中提取内容。同样,这可以提供缺失的出处。

既然我们知道有可能制作出尊重版权并补偿作者的输出作品,监管机构就需要加大力度,像追究仇恨言论和其他形式的不当内容一样,追究企业未能完成这项任务所应承担的责任。我们不应接受顶级大规模语言模型企业的说法,称这项任务从技术上看不可能完成。事实上,这只不过是它们能够而且必须克服的众多商业模型及道德挑战中的一项内容。

此外检索增强生成功能还可以至少部分解决当前人工智能所面临的“幻象”问题。如果某应用程序(如谷歌搜索)为模型提供了构建响应所需的数据,那么,相比完全依赖训练数据,其生成完全虚假内容的概率就更低。仅限于已知的可靠来源可以使人工智能的输出内容做到更加准确。

我们才刚刚开始了解这种方法的可能。毫无疑问,检索增强生成软件将会变得更加复杂、分层也更为细致。但现在我们有了追踪出处的工具,科技企业就再没有借口拒绝承担版权责任。

https://prosyn.org/8nVsDNRzh