亚马逊(Amazon)最大的生成式人工智能产品发布过于仓促,而且存在缺陷,导致内部人士寻找答案

2024-06-01 11:15来源:本站编辑

  • 一些亚马逊员工表示,该公司推出的人工智能聊天机器人Q太匆忙了。
  • 一些人将此归咎于人类研究所的克劳德(Claude),后者是世界上最伟大的人物之一支持Q的se模型。
  • 亚马逊目前正在大力扩充其人类审查团队,以试图限制幻觉。

在去年11月底推出人工智能聊天机器人Q后不久,亚马逊就面临了大量负面评论,称其给出了错误的答案,或者用行业术语来说,是幻觉。

这让亚马逊内部人士在寻找答案,有些人将部分责任归咎于Anthropic的克劳德(Claude)功能较差的版本,后者是支撑Q聊天机器人服务的基本模型之一。据Business Insider了解,这家云计算巨头目前正在大力扩充现有的人力团队,由人工审核和修复聊天机器人的回答。

本文仅对Business Insider订阅者开放。成为业内人士,现在就开始阅读。有账户吗?.

根据直接参与该项目的6名现任和前任亚马逊员工的说法,早期的Q问题是由于“匆忙”发布,几乎没有时间对聊天机器人进行适当的测试。他们要求不透露身份,因为他们没有被授权向媒体发表讲话。他们说,员工们多次提出了这些担忧,团队现在面临着提高Q回答质量的压力,尽管该项目面临着亚马逊计算资源的限制。

亚马逊的Q是一种类似chatgpt的服务,可以为企业客户提供与工作或项目相关的问题的快速答案。这可以说是该公司迄今为止最引人注目的生成式人工智能产品,也是对微软、谷歌和OpenAI等竞争对手推出的热门聊天机器人的回应。

尽管推出得很匆忙,但Q比ChatGPT晚了一年多,比谷歌的Bard晚了好几个月,这突显出亚马逊在生成式人工智能竞赛中落后了多远。Q的早期挑战可能是其追赶努力的一个挫折。

一位亚马逊员工告诉商业内幕网:“考虑到我们落后的程度,Q应该更加完善。”“我们测试它的时间非常有限。”

亚马逊的一位发言人表示,Q不是基于单一的人工智能模型,它的发布遵循了标准的操作程序。

该发言人在一份声明中补充说:“Amazon Q由Amazon Bedrock提供支持,并利用了许多最新的高性能基础模型,使用逻辑将任务路由到最适合工作的模型。”“在预览期间,我们收到了大量来自客户的积极反馈,我们将继续快速改进亚马逊Q,使其对客户更有用。”

克劳德瞬间1.2 vs克劳德2.1

为Q提供动力的AWS云服务Bedrock可以访问许多人工智能模型,包括Anthropic的Claude 2.1、meta的Llama 2和亚马逊自己的Titan。Q可以利用最适合不同用例的模型。一名员工告诉商业内幕网,Q的卖点在于,任何公司都可以采用一个基本模型,使用公司特定的专有数据进行自己的微调,并推出一个定制的聊天机器人供自己使用。

据知情人士透露,虽然Q是由Bedrock驱动的,但Anthropic的Claude是主要的基础模型之一。他们说,Q主要使用的是Claude Instant 1.2,这是8月份发布的一款更便宜、更轻、更快的AI版本。在公司内部,一些员工认为升级到Claude 2.1会改善Q的表现。Claude 2.1是在11月Q发布前一周发布的一个更高级的版本。在发布Q的第二天,亚马逊宣布在Bedrock上可以使用Claude 2.1。

毫无疑问,亚马逊主要依赖于Anthropic的一些基本模型。今年9月,亚马逊同意向这家人工智能初创公司投资高达40亿美元。去年11月,Anthropic首席执行官达里奥·阿莫代伊在AWS的re:Invent年会上发表了主题演讲。Anthropic没有回复记者的置评请求。

更平易近人,但太简单了

目前,亚马逊Q只提供预览模式给选定的客户。

AWS合作伙伴Caylent的云战略副总裁Randall Hunt告诉BI,根据他的测试,Q现在在许多情况下似乎都在使用最新的Claude模型。不过,他说,Q的很多回答都过于简单,往往缺乏更广泛的背景,这可能对更高级的云计算客户没有吸引力。

“就目前而言,Q肯定会让AWS更容易吸引新用户。但我相信高级用户会发现更难利用它,”亨特说。

“人在循环”

熟悉该项目的人士说,对Q更大的担忧是它产生幻觉的倾向。

例如,其中一位知情人士说,在发布前的测试期间,亚马逊员工发现Q提供了不准确的定价细节和编造的产品信息。这位知情人士说,如果答案中有竞争对手的名字,比如甲骨文(Oracle),就会因未知原因被屏蔽掉。平台游戏之前也报告过类似的问题。

作为回应,亚马逊正在加强Q的人工评估,这是一种常见的人工智能实践,被称为“人在循环”,参与该项目的人士告诉商业内幕网。该公司在发布之前就有这个流程,手动检查Q的答案的准确性和质量,同时控制偏差。然而,现在有一个特别工作组来加强这些努力。其中一名知情人士说,幻觉是这个团队专注于解决的关键领域之一。

“当《Q》问世时,人们意识到它有多糟糕,”其中一位人士说。“工作组就是要改进它。”

“缺乏领导力”

幻觉是人工智能聊天机器人的常见问题。微软和谷歌等其他公司也发现,他们的聊天机器人在之前的公开演示中分享了不准确的信息。

不过,Duckbill Group(一家帮助客户管理AWS账单的公司)的科里·奎因告诉商业内幕网,Q的缺点反映了亚马逊在人工智能领域“缺乏领导力”。他说,AWS可能是云计算领域的市场领导者,但这给他们在人工智能领域的市场地位造成了一种“错觉”和“权利感”。

奎因之前在推特上发布了一系列他在q上发现的不准确答案,他还在另一篇博客文章中发表了他的发现,题为“AWS的(de)生成人工智能失误”。目前尚不清楚这些问题中有多少已得到解决。

“让机器人提供看似合理但错误的信息,对客户是有帮助还是有阻碍?”奎因在一封电子邮件中告诉BI。

争夺资源

Q团队面临的另一个挑战是AWS计算能力的内部竞争。

生成式人工智能的出现极大地增加了英伟达和其他供应商对gpu的需求。其中一位知情人士说,这意味着AWS经常不得不优先考虑外部客户,而不是内部测试,这进一步减慢了Q的开发速度。

Q只是亚马逊3层人工智能方法的一部分。第一部分是用户应用程序,比如Q,建立在人工智能语言模型之上。第二层包括大型语言模型本身,如Claude、Llama 2和亚马逊自己的Titan产品。最后一个要素是计算能力和芯片,包括亚马逊的Trainium和interentia AI云芯片以及英伟达的gpu。

“好的”,而不是“尽快的”。

正如商业内幕网此前报道的那样,亚马逊在人工智能领域的追赶和激烈的竞争已经造成了一些员工所谓的“人工智能疲劳”。正如AWS首席执行官亚当•塞利普斯基最近在一次内部全体会议上告诉员工的那样,AWS的高管们表示,现在还为时尚早,不太可能有一个模型或应用程序“统治”人工智能领域。

“现在还为时过早,”塞利普斯基说。“我甚至不知道这是否是第一天。我不知道这是第0.1天还是什么。”

然而,一些AWS员工说,感觉公司在疯狂地发布新产品,即使它们不达标。例如,他们说,亚马逊的Q之所以匆忙推出,部分原因是为了赶在11月底的最后期限前在AWS的大型年度会议re:Invent上发布。

“Q的出现非常突然,”其中一名知情人士说。“我们需要在生成式人工智能方面做出一些好的东西,而不是尽快做出来。”

你在亚马逊工作吗?有什么建议吗?

通过加密通讯应用Signal或Telegram(+1-650-942-3061)或电子邮件(ekim@businessinsider.com)联系记者尤金·金(Eugene Kim)。使用非工作设备进行接触。请查看Business Insider的来源指南,了解有关安全共享信息的其他提示。

喜临门声明:未经许可,不得转载。