人工智能生成的合成媒体，DeepFake 了解一下_服务器知识

ITDaily &AI 中国

每日最新 IT 圈 AI 圈新鲜事吐槽给你想看的

想象一下，在选举前几天，一个候选人的视频被发布，显示他们使用仇恨言论，种族污蔑，以及削弱他们作为亲少数族裔的形象。想象一下，一个十几岁的孩子看着一段令人尴尬的露骨视频在社交媒体上传播。想象一下，一个CEO在筹集资金的路上，当一段陈述她对产品的恐惧和焦虑的音频片段被发送给投资人时，毁掉了她成功的机会。

以上所有的场景都是假的、编造的，并不是真实的，但可以通过人工智能生成的合成媒体，也就是所谓的DeepFake[1]，使之成为现实。同样的技术，可以让一位因卢伽雷氏病而失声的母亲用合成语音与家人对话，也可以用来生成政治候选人的假演讲，以损害其名誉。同样的技术，可以让老师使用合成视频与学生进行有效的互动，也可以用来制作一个青少年的假视频来损害其声誉。

人工智能(AI)和云计算技术、GPU虚拟机和平台服务的进步，使得音频、视频和图像处理技术的复杂性得到了快速发展。商品化云计算的接入、公共研究的人工智能算法，以及丰富的数据和多样化海量媒体的可用性，为合成媒体的创作民主化创造了一场完美的风暴。这种人工智能生成的合成媒体被称为深层假造。通过社交平台，合成媒体的传播实现了规模化的民主化。

GAN技术的创新和研究，加上计算的日益普及，使得合成数据的质量以惊人的速度提高。新的工具，其中许多是公开的，可以以越来越可信的方式操纵媒体，例如创建一个公众人物的声音副本或将一个人的脸叠加到另一个人的身体上。GAN和deepfakes已经从研究和学术课题发展到企业创新、娱乐和参与社会活动的实际应用。

Cheapfake是通过简单的常规编辑技术，如加速、减速、剪切等，以及非技术性的操作，如重新编排或重构现有媒体。廉价伪造的一个例子是 "醉酒的佩洛西 "视频[2]。最近，我们看到一些政治广告中使用了重新着色和修饰的手法，这也是一种廉价的假货[3]。

Deepfakes已经成为换脸和对口型的代名词。还有很多其他类型的基于人工智能的音频、视频和图像的操作都可以被称为Deepfakes。

换脸是指一个人的脸被另一个人的脸或另一张脸的关键特征所取代或重构。脸部交换或用滤镜进行操作，几乎是所有社交媒体、视频聊天应用的常见功能。从2014年开始，社交媒体应用Snapchat就有了增强人脸的滤镜。利用人脸检测镜头技术，你可以让自己变老，添加美颜滤镜，或者给自己装上猫耳朵和胡须。这些应用和技术的输出将被定性为AI-Generated合成媒体或deepfakes。大量的免费和付费应用和在线工具让两个人的换脸变得超级简单。开发者可以使用GitHub上的Faceswap和DeepFaceLab的开源代码来创建非常复杂的deepfakes，并在定制代码和训练AI模型方面做出一些努力。

操控术是用人工智能渲染操纵的全身动作和行为。它是一种在视频中创建目标脸部和身体的3D模型来作为木偶人的行为和说的技术。它也被称为全身深度假动作。2018年8月，加州大学伯克利分校发表了一篇名为《Everybody Dance Now》的论文[4]。这是研究人工智能如何将专业舞者的动作转移到业余爱好者的身上。日本人工智能公司Data Grid创造了一个AI引擎，可以自动生成广告和时尚的虚拟模型。

唇语同步是一种渲染嘴部动作和面部表情的技术，让目标人物用声音和正确的语气和音调说事情。AI算法可以将一个人说话的现有视频，改变视频中的唇部动作，以匹配新的音频。这些音频可能是断章取义的旧讲话，也可能是模仿者说话或合成的讲话。演员和导演乔丹-皮尔就用这种技术制作了奥巴马的病毒视频。

Voice Coning是一种深度学习的算法，它可以接收个人的语音记录，生成与原声过分相似的合成语音。它是一种创建个人的自定义语音字库，然后用字库来生成语音的技术。开发合成语音的应用和云服务有很多，微软定制语音、Lyrebird AI、iSpeech和VOCALiD，个人和企业都可以使用这样的技术来提高自己的机构。

图像生成或图像合成是一种利用计算机视觉技术、深度学习和生成式对抗网络（GANs）来合成新图像的技术。它可以生成计算机生成的人或任何非真实物体的图像。英伟达的一个团队用从Flickr上提取的人脸图片训练了一台计算机，创建了网站ThisPersonDoesnotExist.com。在网站ThisXDoesnotExist.com上还有其他例子。

文本生成是利用人工智能技术进行文本和深度学习，自动生成文本，写故事、散文和诗歌，创建长文档的摘要，以及综合的方法。使用RNN（循环神经网络）和现在的GANs，文本生成有很多实际的使用案例。文本生成可以帮助行业中新的自动化新闻或机器人新闻工作。OpenAI的GPT-3可以生成任何文本，包括吉他标签或计算机代码。

技术能够增强人们的能力，是一个很好的推动力。技术可以让人们有话语权，有目标，有能力大规模、快速地产生影响。由于数据科学和人工智能的进步，出现了新的赋能理念和能力。人工智能合成媒体有很多积极的应用案例。技术可以为所有人创造可能性和机会，不管他们是谁，也不管他们如何听、如何说、如何沟通。深假技术的进步在某些领域有明显的好处，比如无障碍、教育、电影制作、刑事取证和艺术表达。[我将在以后的文章中探讨积极的使用案例]。

与任何新技术一样，邪恶的行为者会利用这种创新并为他们的利益服务。GAN和Deepfakes已经不仅仅是研究课题或工程玩具。从一个创新的研究概念开始，现在它们可以作为一种通信武器使用。Deepfakes正变得容易创造，甚至更容易在政策和立法真空中传播。

Deepfakes使编造媒体--换脸、对口型和木偶人--成为可能，大多数情况下，无需同意，并给心理安全、政治稳定和商业干扰带来威胁。深度造假可以用来损害名誉、捏造证据、欺骗公众、破坏对民主体制的信任。近两年，利用生成式人工智能模型创建的合成数据被恶意使用的可能性开始引起人们的警惕。该技术现在已经发展到可能被武器化，对个人、社会、机构和民主制度进行破坏和伤害。Deepfakes可以促进事实相对主义，并使专制领导人得以发展。Deepfakes不仅会造成伤害，还将进一步侵蚀人们对媒体已经下降的信任。它还可以帮助公众人物将自己的不道德行为隐藏在Deepfakes和假新闻的面纱中，将他们的实际危害行为称为虚假行为，也就是所谓的骗子红利。

非国家行为者，如叛乱组织和恐怖组织，可以利用Deepfakes来代表他们的对手发表煽动性言论或从事挑衅性行动，以煽动人们的反国家情绪。例如，一个恐怖组织可以很容易地制作一个假视频，显示士兵对宗教场所的不敬，以点燃现有的反国家情绪，造成进一步的不和谐。国家可以使用类似的策略来传播针对少数族裔社区或另一个国家的计算宣传，例如，一个假视频显示一个警察高喊反宗教的污言秽语，或者一个政治活动家呼吁暴力。所有这些都可以用较少的资源、互联网规模和速度来实现，甚至可以通过微目标来激发支持。

[我将在今后的文章中探讨深层伪装的负面使用案例和危害]

为了捍卫真相和保障言论自由，我们需要采取多利益攸关方和多模式的方法。任何减轻恶意深层造假的社会负面影响的对策，其主要目标必须是双重的。其一，减少恶意深层造假的风险，其二，将其可能造成的损失降到最低。

恶意深造的有效对策可分为立法行动与法规、平台政策与治理、技术干预和媒介素养四大类。

笔者将在以后的文章中探讨有效的对策。

作者|小葳

2月底，各种版本的《蚂蚁呀嘿》在抖音刷屏。有网友说，“一打开抖音，好像捅了蚂蚁窝。”

通过一款名为Avatarify 的APP，用户只需上传一张照片，即可让照片主人做出各种想要的表情。截止发稿，《蚂蚁呀嘿》在抖音有超过25万个视频，相关话题视频播放量达到30亿次。Avatarify曾在2 月 25 日问鼎国内App Store 应用免费榜榜首，随后连续数天稳居总榜第一名。

相比ZAO火爆之后的3天后下架，Avatarify也逃不出换脸软件的宿命，只有7天便在APP Store中国市场下架（目前国外还可以使用）。

Avatarify 由一个俄罗斯程序员开发，并放在GitHub上，最初是给Zoom、Skype等视频会议“解闷”用的，比如可以在开视频会议时把自己的脸换成马斯克的脸，并实时互动。迄今为止这个项目已在 GitHub 上获得了近 1.2 万的 star 量。

几个月后，Avatarify又推出了APP版（只有iOS版）。原理上，Avatarify借助 deepfake 等技术，在想要交换的脸部图像上对算法进行训练。通过在目标图像的相似类别上训练算法，该模型支持实时换脸操作。

类似换脸软件屡次被下架的背后还是隐私和信息安全问题。很多人都会担心自己的人脸信息被泄露或滥用，然而我们却不必对其背后的AI技术——深度合成一棒子打死。而且，目前深度合成在很多行业已经有了不少更有价值的应用。

深度合成首次被公众关注是2017年11月，彼时美国新闻网站Reddit一个名为“deepfakes”的用户上传了一段合成后的色情视频，将色情影片中演员的脸换成某明星的脸。此后，媒体开始用deepfake描述这种基于AI的视频合成内容。不过因此也让不少人误认为，深度合成就是deepfake、换脸，实在是太冤了。

首先，deepfake是深度合成的子集。只不过，换脸是最早进入公众视野，也是最为大众熟知的一种深度合成应用。

深度合成（Deep Synthesis）的内涵非常广泛，包括借助人工智能算法实现语音、图像、音频、视频、人脸等内容的合成与自动生成。其典型应用包括：人脸替换（换脸）、人脸再现（操纵目标对象的面部表情，比如让他们说从未说过的话）、人脸合成（AI生产媲美真实的人脸图像，事实上这张人脸并不存在）、语音合成、全身合成等等。

其次，deepfake频频导致的隐私安全和色情场景滥用问题，会让人们对深度合成技术存在偏见和误解，甚至认为AI伪造内容会冲击社会信任等等。不过，随着深度合成技术在更多领域的落地应用，公众对深度合成技术的认识也愈加成熟。

深度合成背后的AI技术主要包括两块：自编码器（autoencoders）和生成对抗网络（GAN, Generative Adversarial Networks ）。GAN由两组相互对抗的人工神经网络组成，一个是生成器，一个是鉴别器，在无数次对抗中，生成器最终做到让鉴别器不再能够区分真实数据和合成数据，从而生成高度逼真的内容。

业界最先进的图像生成器当属英伟达的StyleGAN，已于2019年2月在Github上开源。

腾讯研究院、腾讯优图实验室发布的《AI生成内容发展报告2020——“深度合成”商业化元年》（以下简称报告）显示，近几年深度合成技术演进加快，并展现出几个技术趋势：

一、在单一的音频、图像合成之外，深度合成技术正向综合性的方向发展。

二、面部而成之后，全身合成将成为新热点。

三、2D合成之外，3D合成技术（尤其是虚拟数字人）将是下一阶段的重点。

而且，随着“深度合成”技术日趋成熟，其已经在多个领域实现落地应用，包括影视、娱乐、教育、医疗、电商、广告营销等领域。

在媒体行业，AI主播日益火热。2018年，搜狗联合新华社推出全球首个AI合成主播后，2020年，双方又推出全球首个3D AI合成主播。3D AI合成主播基于超写实3D数字人建模、多模态识别及生成、实时面部动作生成及驱动、迁移学习等多项人工智能前沿技术，使机器可以基于输入文本生成逼真度极高的3D数字人视频内容，呈现和真人一样的视频播报。

此外，包括百度、京东、网易在内的互联网巨头先后推出虚拟数字人。百度智能云推出的虚拟数字人，成为国内首个上岗的银行“虚拟员工”。

在自动驾驶领域，深度合成被用于开发自动驾驶仿真系统（AADS），创造虚拟道路环境为自动驾驶系统提供训练和测试。

在医疗领域，通过生成与真实医学影像无异的医学图像训练AI系统，可以解决医疗数据不足、病患隐私保护等问题。在NVIDIA与合作伙伴联合发表的论文中，展示了利用GAN算法合成带有肿瘤的脑部核磁共振图像的方法。在算法训练生成过程中，仅需投入10%的真实数据，AI诊断系统就可以检测出真实影像中的肿瘤。

在广告营销领域，AI合成的人脸和虚拟形象可以替代真人模特参与营销活动，而不会有人像版权问题。比如，Generated Photos 就是一个用AI自动生成人脸的网站，它的资料库中有超过 10 万张AI生成的人脸，对外提供免费下载使用，而且没有版权问题。这些免费人脸图片可以用在非常多的场景，比如广告传单、网站、PPT 简报、问卷、用户头像等等。

深度合成被滥用是人工智能治理的一个重要课题。

色情行业是新技术采用和普及的先锋，AI技术也不例外。目前，色情产业是深度合成技术滥用的重灾区。根据报告，2019年12月，全网共有14678个深度合成视频，其中96%属于色情性的深度合成视频，主要存在于色情网站。

如何防止人们用深度合成技术作恶？多元治理是比较公认的思路，包括法律方案、技术方案、行业自律和公众教育等各个方面。

法律方面，一些发达国家已经出台相关法案。但值得注意的是，并没有“一刀切”禁止使用深度合成技术，而是禁止利用深度合成技术从事色情视频合成、虚假新闻、干扰选举等非法行为。比如美国国会《DeepFakes责任法案》等相关法案，只禁止政治干扰、色情报复、冒充身份等目的的深度合成，并要求制作者对深度合成内容添加水印等标记。

技术方面，鉴别技术和溯源技术是两种主流的方法。但是在鉴别方面，没有通用的视频鉴别方案，需要针对每一种新兴的合成技术训练针对性的鉴别网络。

虽然目前深度合成内容的门槛已大幅降低，普通人也可以在智能手机等智能终端能上完成娱乐性的深度合成内容，但这类内容往往较容易识别。高质量、高仿真的深度合成内容仍需要专业工具和技能。所以，我们需要防范风险但无需恐慌。

AI就像人类的一个非常聪明的学生，TA只是飞快又忠实地学会人类教的东西。

正如报告中所说，“深度合成并非是关于‘伪造’和‘欺骗’的技术，而是极富创造力和突破性的技术。虽然它和其他技术一样，也催生了一系列必须面对的难题，但这并不会磨灭这一技术给社会带来的进步。”

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/480462.html

人工智能生成的合成媒体，DeepFake 了解一下

发表评论

评论列表（0条）

人工智能生成的合成媒体，DeepFake 了解一下

发表评论

评论列表（0条）

请登录