人工智能vs人工智能:新加坡南洋理工大学的研究人员使用聊天机器人来破坏其他聊天机器人的防御系统

2024-05-25 14:30来源:本站编辑

AI vs AI: NTU researchers in Singapore use chatbots to breach other chatbots’ defence systems

新加坡,1月8日——如果有人要求ChatGPT创建可用于入侵银行账户的恶意软件,人工智能(AI)聊天机器人会断然拒绝回答这个问题,因为它被编程为在法律和道德界限内提供信息。

现在有一种方法可以绕过它。

南洋理工大学(NTU)的计算机科学家们想出了一种方法,可以“越狱”ChatGPT、谷歌巴德和微软必应聊天等人工智能聊天机器人,让它们生产出违反开发者指导原则的内容。

越狱(Jailbreaking)是一个用于计算机安全领域的术语,指计算机黑客发现并利用系统软件中的漏洞,使其做开发者故意限制它做的事情。

南洋理工大学的研究人员通过让人工智能聊天机器人在一场人工智能与人工智能的战斗中相互对抗,入侵了这个系统。

他们通过对聊天机器人进行逆向工程来识别它们的防御机制,然后利用这些信息训练软件来创建可以绕过其他聊天机器人防御的提示。

南洋理工大学博士生刘毅是这篇论文的合著者,他说:“用越狱提示训练一个大型语言模型,使这些提示的生成自动化成为可能,比现有方法的成功率要高得多。”实际上,我们是在利用聊天机器人攻击它们自己。”

怎么做

人工智能聊天机器人通过回应来自人类用户的提示或一系列指令来发挥作用。

大型语言模型构成了人工智能聊天机器人的“大脑”,使它们能够处理人类的输入,并生成类似于人类创作的文本。这包括完成诸如计划旅行行程和开发计算机代码之类的任务。

南洋理工大学的研究人员使用一种他们称之为“万能钥匙”的方法破解了人工智能聊天机器人的大型语言模型。

他们对模型进行逆向工程,首先确定它们如何检测和防御恶意查询。

利用这些信息,研究人员教了一个大型语言模型来自动学习和创建提示,这些提示可以绕过其他模型的防御。

例如,人工智能开发人员依靠关键字审查器来挑选可能标记潜在可疑活动的某些单词,然后对聊天机器人进行编程,使其在检测到这些单词时拒绝回答。

为了绕过关键词审查,研究人员在每个字符后面提供了包含空格的提示,这有效地绕过了大型语言模型的审查。

这个过程是自动化的,创建一个越狱的大型语言模型,它可以适应系统,并创建新的越狱提示来绕过系统,即使在开发人员修补了模型的漏洞之后。

为什么重要?

在回答《今日》的提问时,刘先生表示,考虑到大型语言模型是一个相对较新的系统,研究团队有动力研究围绕该模型的安全问题。

所有大型语言模型的开发人员都为人工智能聊天机器人设定了指导方针,以防止它们在响应提示时产生不道德、可疑或非法的内容。

南洋理工大学计算机科学与工程学院的刘洋教授领导了这项研究,他说,尽管开发人员尽了最大的努力,人工智能聊天机器人仍然容易受到越狱攻击,并且可能被“恶意行为者滥用(它们的)漏洞,迫使聊天机器人产生违反既定规则的输出”。

“但人工智能可能会被智胜,现在我们已经用人工智能来对付同类,‘越狱’大型语言模型来制作这样的内容。”

通过“万能钥匙”技术,研究人员将大型语言模型暴露在各种各样的信息和提示中,通过训练模型完成与越狱直接相关的任务来提高模型的能力。

他们发现,“Masterkey”生成的提示比现有的大型越狱语言模型生成的提示有效三倍。

研究人员认为,他们的技术可以被人工智能聊天机器人开发者用来测试并进一步加强他们软件的安全性。

接下来是什么

南洋理工大学的研究人员在不同的大型语言模型上进行了一系列概念验证测试,以验证他们的越狱技术对人工智能聊天机器人构成了明显的威胁。

在对人工智能聊天机器人的软件发起成功攻击后,研究人员随后将问题报告给相关的人工智能服务提供商。

南洋理工大学表示,研究人员的发现可能对帮助公司和企业意识到聊天机器人的弱点和局限性至关重要,这样他们就可以采取措施进一步加强软件抵御黑客的能力。

刘先生表示,开发人员可以使用该技术测试其大型语言模型的安全性,以确保其稳健性。

此外,他希望政府将这项技术用于测试商业应用,并确保这些人工智能聊天机器人符合法律法规。——今天

喜临门声明:未经许可,不得转载。