语音版deepfake出现

语音版deepfake出现：从文本到逼真人声，被模仿者高呼真得可怕

加拿大创业公司 Dessa 开发出一个语音合成系统 RealTalk，与以往基于语音输入学习人声的系统不同，它可以仅基于文本输入生成完美逼近真人的声音。不过，出于伦理、社会影响等方面的考虑，Dessa 并未公布该项目的研究细节、模型和数据集。

加拿大创业公司 Dessa 近日发布了一项新研究：利用其最新开发的 RealTalk 系统，仅利用文本输入即可生成完美逼近真人的声音。其 demo 中展示了美国著名脱口秀喜剧演员、主持人 Joe Rogan 的声音。

视频中，「Joe Rogan」用他一贯的语调和风格，谈论黑猩猩曲棍球队、快速说绕口令，甚至模拟了一段「Joe Rogan 被人工智能研究者困在机器中」的情境……

Joe Rogan 本人在听了模拟音频后表示：「it's terrifyingly accurate」。

复制 Rogan 声音这一项目是由 Dessa 公司机器学习工程师 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 组成的团队创造的，他们使用了一个文本转语音的深度学习系统 RealTalk，可以仅基于文本输入生成逼真的语音。

是不是很疯狂？Dessa 首席机器学习架构师 Alex Krizhevsky （是的没错，他就是 AlexNet 的发明者）认为这是「我所看到的人工智能领域最酷也最恐怖的事件之一。与理论上 40100 年后才会出现的奇点不同，语音合成已经成为现实。」也许大家和他的想法是一样的。

这意味着什么？会产生什么社会影响？

想想看，Dessa 的工程师用 AI 合法地创建了 Joe Rogan 声音的逼真复制品，多么不可思议。而且，该模型能够复制任何人的声音，只要能够获得足够的训练数据。

而作为构建现实世界应用的 AI 从业者，Dessa 也考虑到了这一点：这项技术会带来什么影响？

很明显，语音合成等技术的社会影响是巨大的。它会影响到每一个人：不管有钱没钱，不管是企业还是政府。

目前，要创建像 RealTalk 这样性能良好的模型需要技术知识、独创性、计算能力和数据。所以，不是任何人都可以实现它。但是在接下来的几年里（甚至更短的时间内），技术可能会发展到只需要几秒钟的音频就能复制出世界上任何人的声音。

这样就很恐怖了。

如果这种技术落入坏人之手，可能会发生下面的情况：

除了消极影响之外，Dessa 也考虑了这项技术的积极一面。

如果这项技术被正确利用的话，则：

正如牛津大学人类未来研究所在最近发布的一份报告《The Malicious Use of Artificial Intelligence》中所提到的那样：人工智能领域的进步不仅扩大了现有威胁，还带来了新的威胁。

如何从伦理方面考虑来构建这个技术，Dessa 还没有完全得出答案。但未来几年里，这项技术将不可避免地建立起来并应用到现实世界中。因此，除了提高意识和承认问题以外，Dessa 表示希望这项研究能够开启关于语音合成技术的对话和讨论。

加入小组后即可参加投票

确定

回复转发赞收藏

还没人赞这篇讨论

科技与未来

79 人聚集在这个小组

加入小组