这项研究于9月10日在《公共科学图书馆·综合》(PLOS ONE)上发表,是有史以来第一项评估人类在除英语之外的其他语言中识别人工生成语音能力的研究。
深伪技术(Deepfakes)是用于生成模仿真实人声或外貌的合成媒体技术,属于生成式人工智能(generative artificial intelligence)的范畴。在这种机器学习(machine learning, ML)过程中,算法能学习数据集(如真人视频或音频)的模式和特征,从而复刻原始图像或声音。
早期的深伪语音算法需要成千上万个人声样本才能生成一段原创音频,但最新的预训练算法只需一个人说三秒钟就能复刻其声音。即使不具备专业知识,一个普通人在短短几天内就可以掌握这项技术,并且这些开源算法还是免费的。苹果最近发布了一款软件,使用者用5分钟的录音就能在iPhone和iPad上创建自己的声音副本。
UCL研究人员使用的是一种语音合成(text-to-speech, TTS)算法。基于一个英语和一个普通话的公开可用数据库,他们为两种语言各生成了50个深度伪造语音样本。
接着,研究人员邀请529人参与试验将人工生成的音频样本和真实音频样本区分开来。结果显示只有73%的时间里,人们能识别出人工生成的语音。参与试验人员接受了识别深伪语音的培训之后再次尝试,这一比例也只略微提高。
UCL计算机科学学院的Kimberly Mai作为论文的第一作者,说道:“我们的研究证实了人类无法有效分辨深伪技术制作的语音。针对性训练的作用也微乎其微。不过需要指出来的是,我们的语音样本是用比较老的算法做的。如果是用目前最尖端的或者未来的技术,结果如何还不得而知。”
研究团队的下一个目标是开发更准确的自动语音检测器,提升对人工合成的音频和图像的检测能力,以更好地应对它们带来的各类负面影响。
尽管生成式人工智能音频技术有很多好处,例如帮助那些表达能力受限或因疾病失去声音的人,但人们越来越担心这种技术可能会被犯罪分子利用,危害他人和社会。
比如在2019 年,某家英国能源公司的首席执行官被伪造成其上司声音的深伪语音所骗,将数十万英镑转账给了一家冒名的供应商。
UCL计算机科学学院 Lewis Griffin教授是该研究的负责人(senior author)。他说:“生成式人工智能技术越来越成熟,许多工具也应运而生,这种情况下机会和风险将并存。政府机构制定战略来防止滥用这些工具是明智之举,但我们也应该看到这个领域的光明前景。”