2024-05-24 10:00来源:本站编辑
OpenAI认为,如果不使用受版权保护的内容进行培训,创造先进的生成式人工智能(genAI)工具是不可行的。
在提交给英国上议院通信和数字特别委员会的一份报告中,OpenAI表示,如果不使用受版权保护的材料,就不可能训练像GPT-4 (ChatGPT的基础技术)这样的大型语言模型(llm)。
OpenAI在提交的文件中表示:“由于今天的版权几乎涵盖了所有人类表达——包括博客文章、照片、论坛帖子、软件代码片段和政府文件——如果不使用受版权保护的材料,就不可能训练当今领先的人工智能模型。”
诸如ChatGPT或图像生成工具Stable Diffusion之类的GenAI应用程序是使用从互联网收集的大量数据构建的——其中大部分受版权法保护。这导致越来越多的出版商和作者表示,他们的作品在没有署名或补偿的情况下被使用。
Plus Docs的首席执行官Daniel Li说,几十年来,开发者一直在使用谷歌和StackOverflow等资源。Plus Docs是一家利用基因人工智能设计、创建和编辑演示文稿的公司。他说,ChatGPT只是在编码时更容易使用。
然而,重要的是要认识到,开发人员仍然需要理解他们的代码。ChatGPT并没有改变这一要求。”
李同意,“公司需要非常小心,不要使用代码或其他受版权保护的文本。这已经是大型科技公司软件收购中的一个主要话题,而且只会变得更加重要。”
OpenAI发表声明之际,该公司正面临一系列法律诉讼。就在上周,《纽约时报》对该公司和微软提起了诉讼。微软是该公司的重要投资者,也是微软各种产品中其工具的用户;该诉讼指控在OpenAI工具的创建中非法使用《纽约时报》的内容。OpenAI反驳说,版权法并不禁止训练基因ai模型。
OpenAI去年在加州面临一项联邦集体诉讼,指控其非法使用个人数据用于培训目的。这起在加州北部地区提起的诉讼,列举了15项违规行为,包括违反《计算机欺诈和滥用法》、《电子通信隐私法》,以及州一级的各种消费者权益法规。
核心指控是OpenAI“非法获取”了原告的私人数据,并在没有提供赔偿的情况下使用了这些数据。
根据诉状,“OpenAI利用这些盗用的数据,通过广泛的语言模型和先进的语言算法来改进和推进[ChatGPT],使其能够产生和理解类似于人类的语言,适用于多种用途。”
加州的这起案件是一场日益激烈的法律斗争的一部分,这场法律斗争旨在遏制基因工具猖獗的数据收集。一群非小说类作家对OpenAI和微软发起了集体诉讼,指控这两家公司侵犯了作者的版权,未经授权使用他们的作品和学术论文来训练ChatGPT。
原告朱利安·桑顿是《地球尽头的疯人院:比利时人进入黑暗南极的旅程》一书的作者。该诉讼指控OpenAI和微软公然无视版权法,“在未经许可的情况下使用人类的集体作品,创造了数十亿美元的业务”。他们没有对知识产权进行补偿,而是表现得好像版权法根本不存在一样。”
南佛罗里达大学计算机科学与工程助理教授约翰·利卡托(John Licato)表示,OpenAI的立场可能会导致版权问题。
Licato说:“适应现有想法和真正创造新东西之间的界限已经很模糊了,人工智能迫使我们看到这一区别实际上是多么模糊。”