长期以来,根据输入文本描述自动对真实照片进行相应编辑,一直是图像处理中一项有趣的任务。当通过简单的自然语言文本提示来描述所需的编辑,得到令人满意的图像编辑效果特别令人印象深刻,因为这与人类的交流过程非常一致。因此,文本驱动图像编辑已成为学术界和业界最具活力和影响力的研究领域之一。
目前,大量的研究工作证明了StyleGAN2的中间潜在空间具有解纠缠特性,这使得能够利用预训练的模型对合成图像和真实图像执行各种图像操作。因此,近些年在CVPR、ICCV等计算机视觉顶会上陆续有研究者基于StyleGAN2预训练模型设定图像编辑策略,通过操作原始图像的潜码,成功地实现了准确的图像编辑任务。这些方法都有一个共同的特点:找到最优的目标潜码来替换初始潜码,从而将原始图像转变到目标图像。然而,如果仅仅对潜码进行操作,就会将待编辑的图像限制在生成器的图像域内,这导致难以实现跨域的图像编辑,阻碍多元化编辑目标的实现。
bet体育365官网正规曹桂涛教授课题组在研究中发现,如果利用Hypernetworks输出的权重因子以缩放和偏移的形式重新赋值生成器的权重,也能够产生图像编辑的效果。据此发现,课题组首次在图像编辑领域上提出了全新的策略HyperEditor,通过对生成器权重重新赋值实现图像编辑,而不操作任何的原始图像潜码。在此过程中,构造了富有表现力的hypernetworks促进图像实现域内或域外变化,结合CLIP大模型的跨模态语义对齐能力以方向性语义损失的形式促进图像变换与编辑文本条件一致,并提出了自适应权重层选择器最大化hypernetworks的影响以提高模型效率。该方法在图像编辑领域中,是同时实现了准确的属性编辑和跨域的风格编辑的首例方法,课题组进行了大量实验证明了该方法的准确性和通用性,为实现文本驱动实现任意目标图像编辑提供了可能性。
HyperEditor的模型图
曹桂涛课题组所提出的HyperEditor的框架图如图1所示,其流程如下:首先,给定一个文本对和一个初始图像,然后利用CLIP文本编码器提取的特征并计算它们的差异,得到。图像特征提取器对初始图像进行处理,得到其特征表示,然后与条件信息在融合调制模块(FMM)中进行细化,得到中间特征映射,以此达到文本条件驱动的目的。使用自适应层选择器,确定需要输出权重因子的层序列。随后,hypernetworks基于和生成权重因子,这些权重因子用于重新分配生成器的权重。最后,输入初始图像的隐码,得到编辑后生成的图像。在FFHQ、Celeba-HQ、 AFHQ等数据集的实验结果表明,HyperEditor在图像编辑准确率、跨域编辑能力和非编辑区域保护率上都要优于目前的其他方法(如图2和表1所示)。
定性对比图
定量评价
该项研究的第一作者和通讯作者单位均为华东师范大学。bet体育365官网正规2022级硕士研究生张海为第一作者,其硕士导师曹桂涛教授为通讯作者。目前,该成果的相应论文HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in Image Editing via Hypernetworks(Hai Zhang, Chunwei Wu, Guitao Cao, Hailing Wang, Wenming Cao)已被人工智能顶级会议The 38th Annual AAAI Conference on Artificial Intelligence(AAAI 2024)接收。