2024-08-13 20:19来源:本站
我的声音已经准备好了。我一直在等待,不由自主地查看我的收件箱。我打开电子邮件,滚动屏幕,直到看到一个按钮,上面明明白白地写着“使用语音”。我本想大声说点什么来纪念这个时刻,但感觉不对。现在电脑可以替我说话了。
我原以为克隆自己的声音会很有趣,也很不可思议。我找到了人工智能初创公司ElevenLabs,花了22美元注册了一个“创作者”账户,上传了一些我自己的录音。几个小时后,我在一个文本框里输入了一些单词,按“Enter”键,然后我就看到了:所有的鼻音轻快、犹豫、停顿和大西洋中部的俄亥俄元音,这些都让我的声音成为了我自己的声音。
就是我,只是更自负。无论是什么话题,我的语音克隆都以权威人士的节奏说话。我输入“我喜欢吃泡菜”,声音就像我在“会见媒体”节目中一样吐出。这不是我声音的错;它只需要几个小时的训练,我就可以在各种播客上对着麦克风讲话。这个模型喜欢插入“嗯”和“啊”:在我给它的录音中,我正在实时思考答案,并仔细选择措辞。这是不可思议的,是的,但也很有说服力——我的一部分本质被一个小算法模型剥离、解码、重新组装,这样就不再需要我讨厌的大脑和身体了。
听听作者的人工智能声音:
使用ElevenLabs,你可以像我一样克隆自己的声音,或者输入一些单词,然后听到“Freya”、“Giovanni”、“Domi”或其他数百种不同口音或语调的假声音。或者你可以在保留说话者声音的情况下,将一段视频配音为29种语言中的任何一种。在每种情况下,技术都是令人不安的好。语音机器人不仅听起来比Siri等语音助手更人性化;它们听起来也比目前任何其他广泛使用的人工智能音频软件都要好。ElevenLabs的最佳语音训练的音频比我输入机器的音频多得多,其不同之处在于语音的质量,而不是软件使用上下文线索来调节传递的方式。如果你给它一篇新闻报道,它会用一种严肃的、陈述性的语气说话。粘贴几段《哈姆雷特》,一个ElevenLabs的声音带着戏剧性的故事书的光芒朗读出来。
听ElevenLabs朗读《哈姆雷特》:
一年多前,ElevenLabs推出了其产品的早期版本,但你可能在不知情的情况下听到了其中一个声音。耐克在最近的一个运动鞋广告中使用该软件复制了NBA球星卢卡·唐
伊奇的声音。纽约市市长埃里克·亚当斯的办公室克隆了这位政治家的声音,这样它就可以用西班牙语、意第绪语、普通话、广东话和海地克里奥尔语发送自动电话留言。这项技术被用来重现在帕克兰校园枪击案中遇难儿童的声音,以游说枪支改革。一个ElevenLabs的声音可能正在为你朗读这篇文章:《大西洋月刊》(The Atlantic)和《华盛顿邮报》(The Washington Post)都使用该软件自动生成一些故事的音频版本。
当你使用ElevenLabs软件时,很容易想象一个世界,在这个世界里,你可以听互联网上所有的文字,声音和任何有声书一样丰富。但也很容易想象潜在的大屠杀:骗子利用孩子的声音向父母要钱,这是一个肮脏的政治骗子在10月带来的邪恶惊喜。我测试了这个工具,看看它能不能令人信服地复制我说一些离谱的话。很快,我就有了高质量的语音克隆音频,敦促人们不要投票,将COVID归咎于“全球主义者”,并承认各种新闻渎职行为。这足以让我向银行查询,确保所有潜在的语音认证功能都被禁用了。
我去了ElevenLabs的办公室,会见了负责将这项技术推向世界的人。我想更好地理解目前正在展开的人工智能革命。但我花在公司和产品上的时间越多,我就越不觉得自己活在当下。也许比任何其他人工智能公司,ElevenLabs提供了一个窗口,以了解这种颠覆性技术的不久的未来。深度造假的威胁是真实存在的,但ElevenLabs所预示的可能要奇怪得多。没有人,甚至包括它的创造者,似乎都准备好了。
11月中旬,我嗡嗡作响地走进伦敦一条小街上的一栋砖砌建筑,走到二楼。11实验室是一家价值10亿美元的公司,它的总部是一个只有几张桌子的单间。没有乒乓球或豆袋椅,只有一个可怜的迷你冰箱和七个员工肩并肩地打字的嘈杂声。ElevenLabs 29岁的首席执行官马蒂·斯坦尼斯夫斯基(Mati Staniszewski)从角落的座位上站起来迎接我。他示意我跟他走下楼梯,来到一间没有窗户的会议室。我猜,ElevenLabs与一家价值不到10亿美元的公司共享股份。
斯坦尼斯泽夫斯基身材高大,一头梳理得很好的金发,说话很快,带着波兰口音。与他交谈,有时感觉就像是在与一个认真的、受过新闻发布训练的聊天机器人交谈。我以几个宽泛的问题开始了我们的谈话:在这个令人窒息的炒作、投资者的兴趣和真正的技术进步的时刻,人工智能是什么样子的?每天进来并试图操纵这种新生技术是什么感觉?他说这很令人兴奋。
我们接着谈斯坦尼斯泽夫斯基所说的“投资者故事”。他和公司的联合创始人彼得·达科夫斯基(Piotr Dabkowski)一起在波兰长大,看的都是蹩脚的波兰口音配音的外国电影。男人、女人、孩子——不管是谁在说话,所有的对话都是由男演员用同样的单调乏味、毫无感情的语气发出的。
他们都离开波兰去英国上大学,然后从事科技工作(斯坦尼斯泽夫斯基在Palantir工作,达布科夫斯基在谷歌工作)。然后,在2021年,Dabkowski和他的女朋友一起看电影,意识到波兰电影仍然用单调的lektor风格配音。他和斯坦尼斯泽夫斯基做了一些研究,发现波兰以外的市场也依赖莱克特式的配音。
Mati Staniszewski作为ElevenLabs首席执行官的“投资者故事”始于波兰
他是看着配音拙劣的外国电影长大的。(丹尼尔·斯蒂尔《大西洋月刊》)
第二年,他们成立了ElevenLabs。人工智能的声音无处不在——想想Alexa,或者汽车的gps——但实际上,他们认为,好的人工智能声音最终会终结打字机。这些科技巨头有数百或数千名员工在研究人工智能,但只有7人的研究团队ElevenLabs却开发出了一款可以说比竞争对手发布的任何产品都更好的语音工具。是的,公司从顶级人工智能公司挖来了研究人员,但它也雇佣了一位曾在编程比赛中获胜的大学辍学生,还有一位“在呼叫中心工作,同时把音频研究作为副业,”斯坦尼斯泽夫斯基告诉我。“音频领域仍处于突破阶段,”该公司工程副总裁亚历克斯·霍尔特(Alex Holt)告诉我。“拥有更多的人并不一定有帮助。你需要的是那几个不可思议的人。”
Staniszewski告诉我,当ElevenLabs开始吐出准确代表单词之间关系的音频时,它就知道自己的模型很特别——发音会根据上下文(分钟,时间单位,而不是分钟,大小的描述)和情绪(兴奋或愤怒时发出的感叹词)而变化。
这个模型产生的很多东西都是意想不到的——有时是令人愉快的。早些时候,ElevenLabs的模型开始在演讲暂停后随机插入掌声:它一直在训练人们在现场观众面前做演讲的音频剪辑。很快,模型开始改进,变得能够“嗯”和“啊”。Staniszewski说:“我们开始看到一些人类元素被复制。”最大的飞跃是当模特开始像人一样笑的时候。(我应该注意到,我的声音克隆者挣扎着笑了起来,发出一声机关枪般的“哈哈”,听起来很刺耳,很不人道。)
OpenAI和其他大公司正试图将他们的大型语言模型包装到全世界,并最终建立一个人工智能,与之相比,ElevenLabs的野心更容易掌握:在未来,ALS患者在失去语言能力后仍然可以用自己的声音交流。有声书可以在几秒钟内由自己出版的作者完成,电子游戏中的每个角色都可以进行动态对话,电影和视频可以立即被翻译成任何语言。一种声音的Spotify,任何人都可以授权复制自己的声音给其他人使用——这让专业配音演员感到沮丧。我们声带的变形。
Staniszewski在谈到ElevenLabs时还描述了一家希望完全消除语言障碍的公司。他认为,配音工具是朝着这个目标迈出的第一步。用户可以上传一段视频,该模型会将说话者的声音翻译成另一种语言。当我们交谈时,斯坦尼斯泽夫斯基两次提到科幻小说《银河系漫游指南》中的巴别鱼——他描述了制造一种工具,可以立即将人周围的每一个声音翻译成他们能理解的语言。
与我交谈过的每一位ElevenLabs员工在提到这个登月计划时都很兴奋。尽管ElevenLabs目前的产品可能令人兴奋,但开发人员认为,目前的配音和语音克隆只是一个前奏。我努力将斯坦尼斯乔夫斯基的雄心壮志与我们周围的简朴环境区分开来:在公司稀疏的办公空间下面一层是一间共享会议室。ElevenLabs可能无法实现其崇高的目标,但我仍然无法接受这样一个现实:这么一小群人就能打造出如此强大的东西,并将其发布到世界上,而我们其他人必须理解它。
ElevenLabs的语音机器人于2023年1月下旬推出测试版。人们很快就开始滥用它们。4chan上的喷子用这个工具制作名人说坏话的深度假照片。他们让艾玛·沃森(Emma Watson)读《我的奋斗》(Mein Kampf),右翼播客本·夏皮罗(Ben Shapiro)对众议员亚历山大·奥卡西奥-科尔特斯(Alexandria Ocasio-Cortez)发表种族主义言论。在该工具的最初几天,似乎几乎没有护栏。“疯狂的周末,”该公司在推特上写道,并承诺打击滥用。
ElevenLabs增加了克隆的验证过程;当我上传我的声音录音时,我必须完成多个语音验证码,在很短的时间内对着我的电脑说一些短语,以确认我复制的声音是我自己的。该公司还决定严格限制付费账户的语音克隆,并发布了一种工具,可以让人们上传音频,以确定它是否是人工智能生成的。但加州大学伯克利分校(UC Berkeley)的深度造假专家哈尼·法里德(Hany Farid)告诉我,ElevenLabs的防护措施是“半工半废”的——它试图在伤害已经造成之后才追溯关注安全问题。他们留下了明显的漏洞。在过去的一年里,深度造假并不猖獗,但它们也没有停止。
我第一次开始报道深度伪造是在2017年,当时一位研究人员向我提出了一个可怕的未来警告,即人工智能生成的音频和视频将带来冒充、垃圾邮件、未经同意的性图像和政治混乱的“信息启示录”,我们都将陷入他所谓的“现实冷漠”。语音克隆已经存在了,但它很粗糙:我使用人工智能语音工具试图欺骗我的妈妈,这只是因为我有一个断断续续的机器人声音假装我失去了手机服务。从那时起,对信息启示录的恐惧就落后于技术扭曲现实的能力。但ElevenLabs缩小了这一差距。
我见过的最好的深度伪造来自电影制作人肯尼斯·勒特(Kenneth Lurt),他用ElevenLabs克隆了吉尔·拜登(Jill Biden)的声音,制作了一个假广告,让她看起来像是在批评丈夫对以色列-加沙冲突的处理方式。这段视频巧妙地拼接了第一夫人发表演讲的视频,配上了ElevenLabs的画外音,令人难以置信的令人信服,已经被观看了数十万次。ElevenLabs的技术本身并不完美。勒特在10月份的一次采访中说:“真正让它看起来可信的是富有创意的电影制作。”他指出,他花了一周的时间来制作这个片段。
艾伦人工智能研究所(Allen Institute for AI)研究员内森·兰伯特(Nathan Lambert)今年1月告诉我:“它将彻底改变每个人与互联网互动的方式,以及一切可能。”“很容易看出这将被用于邪恶的目的。”当我问他是否担心2024年的大选时,他发出了警告:“人们还没有准备好接受这些东西有多好,以及它可能意味着什么。”当我追问他假设的情景时,他拒绝了,不想给任何人任何想法。
丹尼尔·斯蒂尔为您报道
在我和兰伯特谈话几天后,他的直觉变成了现实。新罕布什尔州总统初选前的那个周日,一个人工智能生成的深度伪造的自动电话向该州的注册民主党人发出。“真是一派胡言,”自动电话开始说。他的声音沙哑,抑扬顿挫,但还是能立刻听出来是乔·拜登的慢吞吞。“周二的投票只会让共和党人再次选举唐纳德·特朗普,”它说,并告诉选民呆在家里。就政治破坏而言,这种特殊的深度造假风险相对较低,干扰选举结果的可能性有限(拜登仍以压倒性优势获胜)。但这是对大选季的一次试运行,因为大选季可能充斥着模糊现实的合成信息。
研究人员和政府官员争先恐后地寻找电话的来源。几周后,新奥尔良的一名魔术师承认,他受雇于一名民主党特工,制作了这则自动电话。他声称,使用ElevenLabs不到20分钟,花费1美元。
之后,ElevenLabs推出了一项“禁止”声音政策,禁止用户上传或克隆某些名人和政治家的声音。但这种保障措施也有漏洞。今年3月,404 Media的一名记者通过在上传文件的开头加上一分钟的沉默,成功地绕过了系统,克隆了唐纳德·特朗普和乔·拜登的声音。上个月,我试着模仿拜登的声音,结果各不相同。我的第一次尝试没有被ElevenLabs捕捉到,我从YouTube上上传了总统讲话的低质量音频文件。但是克隆出来的声音听起来一点也不像总统,更像是一个沙哑的青少年的声音。在我第二次尝试上传时,ElevenLabs阻止了我的上传,暗示我将违反该公司的服务条款。
对于加州大学伯克利分校的研究人员法里德来说,ElevenLabs无法控制人们如何滥用其技术,这证明了语音克隆弊大于利。法里德说:“他们部署这项技术的方式太鲁莽了,我认为他们本可以做得更安全,但我认为对他们来说效果会差一些。”
11个实验室的核心问题——以及生成型人工智能革命的大问题——是这项技术不可能不被滥用。meta和OpenAI也开发了合成语音工具,但到目前为止都拒绝让它们广泛使用。他们的理由是:他们还不确定如何负责任地发布他们的产品。不过,作为一家初创公司,ElevenLabs没有充裕的时间。Staniszewski说:“我们必须超越大公司的时间很短。”“如果我们在未来两到三年内不这样做,竞争将非常困难。”尽管有了新的保护措施,随着选举季节的进行,ElevenLabs的名字可能会再次出现在新闻中。有太多积极的人不断地寻找方法,以奇怪的,意想不到的,甚至是危险的方式使用这些工具。
在伦敦一个湿漉漉的下午,在一家斯里兰卡餐馆的地下室里,我向斯坦尼斯泽夫斯基追问我一直拐弯抹角提到的“不好的东西”。当我滔滔不绝地说出ElevenLabs的技术可能被滥用和已经被滥用的方式时,他没有转移视线。轮到他说话的时候,他若有所思地说,没有轻蔑地说;他似乎明白自己产品的风险。“这将是一场猫捉老鼠的游戏,”他说。“我们得快点。”
后来,他在电子邮件中提到了“禁止”声音倡议,并告诉我,ElevenLabs正在“测试新的方法来抵制政治内容的产生”,增加了更多的人为审核,并升级了检测软件。Staniszewski说,ElevenLabs正在研究的最重要的事情——他称之为“真正的解决方案”——是在合成声音的创作点对其进行数字水印,这样普通人就可以识别它们。这将需要数十家公司的合作:ElevenLabs最近与其他人工智能公司签署了一项协议,包括Anthropic和OpenAI,以打击即将到来的选举中的深度造假,但到目前为止,这种合作关系主要是理论上的。
令人不安的现实是,没有太多的选择来确保坏人不会劫持这些工具。斯坦尼斯夫斯基说:“我们需要让公众相信,这项技术是存在的。”他说得对,但我一听他这么说,就感到很难受。在一个电报频道上的喷子可以用深度假货淹没社交媒体的时代,提到媒体素养,有点像在2024年的武装冲突中只带着一支步枪。
这样的谈话持续了半个小时,几周后又进行了一次电话交谈。一个很难的问题,一个真实的答案,我自己明显的不满意的感觉。我不能只看ElevenLabs的风险:你们怎么才能朝着这样的未来发展?斯坦尼斯泽夫斯基似乎看不到机会之外的东西:你怎么就不能朝着这样的未来发展呢?我们的谈话结束时,我有一种明显的感觉,那就是ElevenLabs背后的人不想看着世界毁灭。问题是,在一个每个人都在竞相开发具有类似危害潜力的人工智能工具的行业,意图是否重要?
只关注深度伪造忽略了ElevenLabs和合成音频如何以不可预测的方式重塑互联网。在我访问之前几周,ElevenLabs举办了一场黑客马拉松,程序员将公司的技术与硬件和其他生成人工智能工具融合在一起。Staniszewski说,一个团队采用了一种图像识别人工智能模型,并将其连接到带有摄像头的安卓设备和ElevenLabs的文本到语音模型。结果是一台相机可以记录它所看到的东西。“如果你是一个游客,如果你是一个盲人,想看看这个世界,你只需要找一个相机,”斯坦尼斯夫斯基说。“他们在一个周末就部署好了。”
在我访问期间,ElevenLabs的员工反复描述这些类型的混合项目——足以让我开始把它们看作是想象未来几年技术发展的一种有用方式。相互关联的产品预示着一个难以辨认的未来。更多的机器与机器对话;一个能自我书写的互联网;人类艺术和人类语言与人工智能艺术和人工智能语言的无休止的融合,直到来源不再重要。
我来伦敦是想把我的思想集中在人工智能革命上。我想,只要盯着其中的一块,我至少能对我们正朝着什么方向飞奔而去有一点把握。事实证明,你可以周游世界,遇见那些建设未来的人,发现他们善良而内省,问他们你所有的问题,但仍然会对这个新的技术前沿感到深深的迷茫。迷失方向。这就是这个时代的主要感觉——某种东西正在地平线上若隐若现,但你却看不见它。你只能感觉到肚子里有个坑。人们建造是因为他们有能力。我们其余的人被迫去适应。